Cos'è un crawler

Un crawler (o "web scraper") è uno strumento automatico che naviga e analizza le pagine del tuo sito web per estrarre contenuti e informazioni. Questi contenuti vengono poi utilizzati dall'assistente per rispondere alle domande degli utenti.

Come funziona un crawler

Il processo di crawling avviene in diverse fasi:

  1. Scansione iniziale: Il crawler visita l'URL che hai specificato
  2. Analisi della pagina: Estrae il contenuto testuale della pagina
  3. Ricerca di link: Identifica altri link interni da seguire
  4. Navigazione ricorsiva: Visita le pagine collegate seguendo le regole che hai impostato
  5. Elaborazione contenuti: Pulisce e organizza il testo estratto
  6. Aggiornamento database: Salva i contenuti nella base di conoscenza

Vantaggi del crawling automatico

  • Aggiornamento automatico: I contenuti vengono aggiornati periodicamente senza intervento manuale
  • Completezza: Può analizzare centinaia di pagine in poco tempo
  • Coerenza: Mantiene sincronizzati i contenuti del sito con quelli dell'assistente
  • Efficienza: Non devi caricare manualmente ogni singola pagina

Tipi di contenuto che il crawler può estrarre

  • Testo principale delle pagine web
  • Titoli e sottotitoli (H1, H2, H3...)
  • Contenuti di paragrafi e liste
  • Meta descrizioni delle pagine
  • Contenuti di articoli e blog post
  • FAQ e sezioni di supporto

Limitazioni del crawling

  • Solo contenuto pubblico: Il crawler può accedere solo alle pagine pubblicamente visibili
  • Contenuto statico: Non può estrarre contenuti generati dinamicamente da JavaScript complesso
  • Rispetto dei limiti: Segue le regole del file robots.txt del tuo sito
  • Solo testo: Non elabora immagini, video o altri media

Quando usare i crawler

Ideale per:

  • Siti web con molte pagine informative
  • Blog e sezioni news
  • Documentazione tecnica online
  • Cataloghi prodotti
  • Sezioni FAQ e supporto

Meno adatto per:

  • Siti con contenuti prevalentemente multimediali
  • Applicazioni web dinamiche
  • Contenuti protetti da login
  • Siti con struttura molto complessa