Crawler per sito completo

Il crawler per sito completo è la modalità più semplice e automatica: analizzerà tutte le pagine accessibili del tuo sito web partendo dalla homepage e seguendo tutti i link interni.

Come configurare un crawler per sito completo

Vai nella sezione "Crawler" del pannello di controllo
Clicca su "Crea nuovo crawler"
Seleziona "Sito completo" come tipologia
Inserisci l'URL principale del tuo sito (es. https://miosito.com)
Assegna un nome al crawler (es. "Crawler sito principale")
Configura le impostazioni avanzate se necessario
Salva e avvia il crawler

Cosa fa il crawler automaticamente

Parte dalla homepage: Inizia dall'URL che hai specificato
Segue tutti i link interni: Naviga attraverso menu, footer, link nel testo
Rispetta la struttura del sito: Mantiene la gerarchia delle pagine
Evita contenuti duplicati: Non scansiona la stessa pagina più volte
Gestisce gli errori: Salta pagine non trovate o con errori

Configurazioni disponibili

Profondità di scansione

Cosa controlla: Quanti "salti" di link può fare dalla pagina iniziale
Profondità 1: Solo la homepage
Profondità 2: Homepage + pagine direttamente collegate
Profondità 3+: Include anche le sottopagine delle sottopagine
Consiglio: Per la maggior parte dei siti, profondità 3-4 è sufficiente

Limiti di pagine

Scopo: Evitare di sovraccaricare il server e rispettare i limiti del piano
Impostazione tipica: 100-500 pagine per siti di medie dimensioni
Priorità: Il crawler scansiona prima le pagine più importanti

Frequenza di aggiornamento

Giornaliera: Per siti con contenuti che cambiano spesso
Settimanale: Per la maggior parte dei siti aziendali
Mensile: Per siti con contenuti statici
Manuale: Solo quando decidi di aggiornare

Monitoraggio del progresso

Durante la scansione puoi monitorare:

Pagine elaborate: Quante pagine sono state analizzate
Pagine trovate: Quante pagine sono state scoperte
Errori: Pagine non accessibili o con problemi
Stato: Se il crawler è attivo, completato o in errore

Vantaggi del sito completo

Semplicità: Configurazione minima richiesta
Completezza: Non perdi nessuna pagina importante
Automatismo: Si aggiorna da solo periodicamente
Manutenzione minima: Funziona autonomamente

Svantaggi potenziali

Contenuti irrilevanti: Potrebbe includere pagine non utili (es. policy, cookie)
Uso risorse: Consuma più quota del piano
Tempo di elaborazione: Richiede più tempo per siti grandi
Meno controllo: Non puoi escludere facilmente sezioni specifiche

Best practices

Testa prima: Inizia con un limite basso per vedere quali pagine vengono trovate
Monitora i risultati: Controlla che vengano trovate le pagine importanti
Esclusioni successive: Dopo il primo crawling, escludi pagine non utili
Aggiornamenti graduali: Non impostare frequenze troppo aggressive inizialmente