Un crawler (o "web scraper") è uno strumento automatico che naviga e analizza le pagine del tuo sito web per estrarre contenuti e informazioni. Questi contenuti vengono poi utilizzati dall'assistente per rispondere alle domande degli utenti.
Come funziona un crawler
Il processo di crawling avviene in diverse fasi:
- Scansione iniziale: Il crawler visita l'URL che hai specificato
- Analisi della pagina: Estrae il contenuto testuale della pagina
- Ricerca di link: Identifica altri link interni da seguire
- Navigazione ricorsiva: Visita le pagine collegate seguendo le regole che hai impostato
- Elaborazione contenuti: Pulisce e organizza il testo estratto
- Aggiornamento database: Salva i contenuti nella base di conoscenza
Vantaggi del crawling automatico
- Aggiornamento automatico: I contenuti vengono aggiornati periodicamente senza intervento manuale
- Completezza: Può analizzare centinaia di pagine in poco tempo
- Coerenza: Mantiene sincronizzati i contenuti del sito con quelli dell'assistente
- Efficienza: Non devi caricare manualmente ogni singola pagina
Tipi di contenuto che il crawler può estrarre
- Testo principale delle pagine web
- Titoli e sottotitoli (H1, H2, H3...)
- Contenuti di paragrafi e liste
- Meta descrizioni delle pagine
- Contenuti di articoli e blog post
- FAQ e sezioni di supporto
Limitazioni del crawling
- Solo contenuto pubblico: Il crawler può accedere solo alle pagine pubblicamente visibili
- Contenuto statico: Non può estrarre contenuti generati dinamicamente da JavaScript complesso
- Rispetto dei limiti: Segue le regole del file robots.txt del tuo sito
- Solo testo: Non elabora immagini, video o altri media
Quando usare i crawler
Ideale per:
- Siti web con molte pagine informative
- Blog e sezioni news
- Documentazione tecnica online
- Cataloghi prodotti
- Sezioni FAQ e supporto
Meno adatto per:
- Siti con contenuti prevalentemente multimediali
- Applicazioni web dinamiche
- Contenuti protetti da login
- Siti con struttura molto complessa