Una volta configurato, il crawler richiede gestione periodica per mantenere aggiornata e ottimale la base di conoscenza del tuo assistente.
Stati del crawler
Stati possibili
- Pronto: Configurato e pronto per essere avviato
- In elaborazione: Attualmente in fase di scansione
- Completato: Ultima scansione completata con successo
- Errore: Problemi durante l'ultima esecuzione
- Sospeso: Temporaneamente disattivato
Informazioni di stato
Per ogni crawler puoi vedere:
- Ultima esecuzione: Data e ora dell'ultima scansione
- Pagine elaborate: Numero di pagine scansionate nell'ultima esecuzione
- Pagine con successo: Pagine elaborate correttamente
- Errori rilevati: Pagine con problemi
- Prossima esecuzione: Quando è programmata la prossima scansione automatica
Modalità di aggiornamento
Aggiornamento automatico
Il sistema può aggiornare automaticamente i contenuti secondo la frequenza impostata:
- Giornaliero: Ogni 24 ore, ideale per siti con contenuti dinamici
- Settimanale: Ogni 7 giorni, adatto per la maggior parte dei siti
- Mensile: Ogni 30 giorni, per contenuti più statici
- Personalizzato: Imposta intervalli specifici (es. ogni 3 giorni)
Aggiornamento manuale
Puoi sempre avviare una scansione manuale:
- Clicca su "Aggiorna ora" nella gestione del crawler
- Utile dopo importanti aggiornamenti del sito
- Non interferisce con la programmazione automatica
- Permette di testare modifiche alla configurazione
Monitoraggio delle performance
Metriche da controllare
- Tempo di esecuzione: Quanto tempo richiede la scansione completa
- Tasso di successo: Percentuale di pagine elaborate correttamente
- Nuove pagine trovate: Pagine aggiunte dall'ultima scansione
- Pagine modificate: Contenuti aggiornati dall'ultima volta
- Errori ricorrenti: Problemi che si ripetono frequentemente
Interpretazione dei risultati
- 100% successo: Tutto funziona perfettamente
- 95-99% successo: Normale, alcuni errori sono fisiologici
- 80-94% successo: Verifica gli errori più frequenti
- Sotto 80%: Possibili problemi di configurazione o del sito
Gestione degli errori
Tipi di errore comuni
- 404 Not Found: Pagina non trovata (normale se la pagina è stata rimossa)
- 403 Forbidden: Accesso negato (possibile restrizione del sito)
- 500 Server Error: Errore del server (problema temporaneo del sito)
- Timeout: Pagina troppo lenta da caricare
- Contenuto vuoto: Pagina senza testo significativo
Azioni correttive
- Errori 404: Rimuovi gli URL non più validi dalla configurazione
- Errori di accesso: Verifica le impostazioni di sicurezza del sito
- Errori server: Di solito si risolvono automaticamente
- Timeout ricorrenti: Aumenta il tempo limite o escludi pagine lente
Ottimizzazione delle performance
Riduzione del carico sul server
- Intervallo tra richieste: Imposta pause tra le scansioni delle pagine
- Orari di scansione: Programma durante ore di minor traffico
- Limite pagine simultanee: Non sovraccaricare il server
Gestione della quota
- Monitora l'uso: Controlla quante pagine hai elaborato nel mese
- Prioritizza contenuti: Scansiona prima le pagine più importanti
- Elimina contenuti obsoleti: Rimuovi pagine non più rilevanti
Manutenzione periodica
Controlli settimanali
- Verifica lo stato di tutti i crawler attivi
- Controlla il numero di errori nell'ultima esecuzione
- Monitora l'uso delle risorse del piano
Controlli mensili
- Rivedi le pagine con più errori ricorrenti
- Valuta l'aggiunta di nuove sezioni del sito
- Rimuovi crawler non più necessari
- Ottimizza le regole di inclusione/esclusione
Controlli trimestrali
- Analizza le statistiche di lungo periodo
- Verifica l'allineamento con gli obiettivi dell'assistente
- Considera modifiche alla frequenza di aggiornamento
- Valuta l'upgrade del piano se necessario
Best practices per la gestione
- Documentazione: Tieni traccia delle modifiche e delle ragioni
- Test delle modifiche: Testa sempre in piccolo prima di applicare grandi cambiamenti
- Backup delle configurazioni: Salva le impostazioni prima di modifiche importanti
- Monitoraggio proattivo: Non aspettare i problemi, previenili