Crawler per sito completo

Il crawler per sito completo è la modalità più semplice e automatica: analizzerà tutte le pagine accessibili del tuo sito web partendo dalla homepage e seguendo tutti i link interni.

Come configurare un crawler per sito completo

  1. Vai nella sezione "Crawler" del pannello di controllo
  2. Clicca su "Crea nuovo crawler"
  3. Seleziona "Sito completo" come tipologia
  4. Inserisci l'URL principale del tuo sito (es. https://miosito.com)
  5. Assegna un nome al crawler (es. "Crawler sito principale")
  6. Configura le impostazioni avanzate se necessario
  7. Salva e avvia il crawler

Cosa fa il crawler automaticamente

  • Parte dalla homepage: Inizia dall'URL che hai specificato
  • Segue tutti i link interni: Naviga attraverso menu, footer, link nel testo
  • Rispetta la struttura del sito: Mantiene la gerarchia delle pagine
  • Evita contenuti duplicati: Non scansiona la stessa pagina più volte
  • Gestisce gli errori: Salta pagine non trovate o con errori

Configurazioni disponibili

Profondità di scansione
  • Cosa controlla: Quanti "salti" di link può fare dalla pagina iniziale
  • Profondità 1: Solo la homepage
  • Profondità 2: Homepage + pagine direttamente collegate
  • Profondità 3+: Include anche le sottopagine delle sottopagine
  • Consiglio: Per la maggior parte dei siti, profondità 3-4 è sufficiente
Limiti di pagine
  • Scopo: Evitare di sovraccaricare il server e rispettare i limiti del piano
  • Impostazione tipica: 100-500 pagine per siti di medie dimensioni
  • Priorità: Il crawler scansiona prima le pagine più importanti
Frequenza di aggiornamento
  • Giornaliera: Per siti con contenuti che cambiano spesso
  • Settimanale: Per la maggior parte dei siti aziendali
  • Mensile: Per siti con contenuti statici
  • Manuale: Solo quando decidi di aggiornare

Monitoraggio del progresso

Durante la scansione puoi monitorare:

  • Pagine elaborate: Quante pagine sono state analizzate
  • Pagine trovate: Quante pagine sono state scoperte
  • Errori: Pagine non accessibili o con problemi
  • Stato: Se il crawler è attivo, completato o in errore

Vantaggi del sito completo

  • Semplicità: Configurazione minima richiesta
  • Completezza: Non perdi nessuna pagina importante
  • Automatismo: Si aggiorna da solo periodicamente
  • Manutenzione minima: Funziona autonomamente

Svantaggi potenziali

  • Contenuti irrilevanti: Potrebbe includere pagine non utili (es. policy, cookie)
  • Uso risorse: Consuma più quota del piano
  • Tempo di elaborazione: Richiede più tempo per siti grandi
  • Meno controllo: Non puoi escludere facilmente sezioni specifiche

Best practices

  • Testa prima: Inizia con un limite basso per vedere quali pagine vengono trovate
  • Monitora i risultati: Controlla che vengano trovate le pagine importanti
  • Esclusioni successive: Dopo il primo crawling, escludi pagine non utili
  • Aggiornamenti graduali: Non impostare frequenze troppo aggressive inizialmente