Gestione e aggiornamento crawler

Una volta configurato, il crawler richiede gestione periodica per mantenere aggiornata e ottimale la base di conoscenza del tuo assistente.

Stati del crawler

Stati possibili
  • Pronto: Configurato e pronto per essere avviato
  • In elaborazione: Attualmente in fase di scansione
  • Completato: Ultima scansione completata con successo
  • Errore: Problemi durante l'ultima esecuzione
  • Sospeso: Temporaneamente disattivato
Informazioni di stato

Per ogni crawler puoi vedere:

  • Ultima esecuzione: Data e ora dell'ultima scansione
  • Pagine elaborate: Numero di pagine scansionate nell'ultima esecuzione
  • Pagine con successo: Pagine elaborate correttamente
  • Errori rilevati: Pagine con problemi
  • Prossima esecuzione: Quando è programmata la prossima scansione automatica

Modalità di aggiornamento

Aggiornamento automatico

Il sistema può aggiornare automaticamente i contenuti secondo la frequenza impostata:

  • Giornaliero: Ogni 24 ore, ideale per siti con contenuti dinamici
  • Settimanale: Ogni 7 giorni, adatto per la maggior parte dei siti
  • Mensile: Ogni 30 giorni, per contenuti più statici
  • Personalizzato: Imposta intervalli specifici (es. ogni 3 giorni)
Aggiornamento manuale

Puoi sempre avviare una scansione manuale:

  • Clicca su "Aggiorna ora" nella gestione del crawler
  • Utile dopo importanti aggiornamenti del sito
  • Non interferisce con la programmazione automatica
  • Permette di testare modifiche alla configurazione

Monitoraggio delle performance

Metriche da controllare
  • Tempo di esecuzione: Quanto tempo richiede la scansione completa
  • Tasso di successo: Percentuale di pagine elaborate correttamente
  • Nuove pagine trovate: Pagine aggiunte dall'ultima scansione
  • Pagine modificate: Contenuti aggiornati dall'ultima volta
  • Errori ricorrenti: Problemi che si ripetono frequentemente
Interpretazione dei risultati
  • 100% successo: Tutto funziona perfettamente
  • 95-99% successo: Normale, alcuni errori sono fisiologici
  • 80-94% successo: Verifica gli errori più frequenti
  • Sotto 80%: Possibili problemi di configurazione o del sito

Gestione degli errori

Tipi di errore comuni
  • 404 Not Found: Pagina non trovata (normale se la pagina è stata rimossa)
  • 403 Forbidden: Accesso negato (possibile restrizione del sito)
  • 500 Server Error: Errore del server (problema temporaneo del sito)
  • Timeout: Pagina troppo lenta da caricare
  • Contenuto vuoto: Pagina senza testo significativo
Azioni correttive
  • Errori 404: Rimuovi gli URL non più validi dalla configurazione
  • Errori di accesso: Verifica le impostazioni di sicurezza del sito
  • Errori server: Di solito si risolvono automaticamente
  • Timeout ricorrenti: Aumenta il tempo limite o escludi pagine lente

Ottimizzazione delle performance

Riduzione del carico sul server
  • Intervallo tra richieste: Imposta pause tra le scansioni delle pagine
  • Orari di scansione: Programma durante ore di minor traffico
  • Limite pagine simultanee: Non sovraccaricare il server
Gestione della quota
  • Monitora l'uso: Controlla quante pagine hai elaborato nel mese
  • Prioritizza contenuti: Scansiona prima le pagine più importanti
  • Elimina contenuti obsoleti: Rimuovi pagine non più rilevanti

Manutenzione periodica

Controlli settimanali
  • Verifica lo stato di tutti i crawler attivi
  • Controlla il numero di errori nell'ultima esecuzione
  • Monitora l'uso delle risorse del piano
Controlli mensili
  • Rivedi le pagine con più errori ricorrenti
  • Valuta l'aggiunta di nuove sezioni del sito
  • Rimuovi crawler non più necessari
  • Ottimizza le regole di inclusione/esclusione
Controlli trimestrali
  • Analizza le statistiche di lungo periodo
  • Verifica l'allineamento con gli obiettivi dell'assistente
  • Considera modifiche alla frequenza di aggiornamento
  • Valuta l'upgrade del piano se necessario

Best practices per la gestione

  • Documentazione: Tieni traccia delle modifiche e delle ragioni
  • Test delle modifiche: Testa sempre in piccolo prima di applicare grandi cambiamenti
  • Backup delle configurazioni: Salva le impostazioni prima di modifiche importanti
  • Monitoraggio proattivo: Non aspettare i problemi, previenili