Il crawler per sito completo è la modalità più semplice e automatica: analizzerà tutte le pagine accessibili del tuo sito web partendo dalla homepage e seguendo tutti i link interni.
Come configurare un crawler per sito completo
- Vai nella sezione "Crawler" del pannello di controllo
- Clicca su "Crea nuovo crawler"
- Seleziona "Sito completo" come tipologia
- Inserisci l'URL principale del tuo sito (es. https://miosito.com)
- Assegna un nome al crawler (es. "Crawler sito principale")
- Configura le impostazioni avanzate se necessario
- Salva e avvia il crawler
Cosa fa il crawler automaticamente
- Parte dalla homepage: Inizia dall'URL che hai specificato
- Segue tutti i link interni: Naviga attraverso menu, footer, link nel testo
- Rispetta la struttura del sito: Mantiene la gerarchia delle pagine
- Evita contenuti duplicati: Non scansiona la stessa pagina più volte
- Gestisce gli errori: Salta pagine non trovate o con errori
Configurazioni disponibili
Profondità di scansione
- Cosa controlla: Quanti "salti" di link può fare dalla pagina iniziale
- Profondità 1: Solo la homepage
- Profondità 2: Homepage + pagine direttamente collegate
- Profondità 3+: Include anche le sottopagine delle sottopagine
- Consiglio: Per la maggior parte dei siti, profondità 3-4 è sufficiente
Limiti di pagine
- Scopo: Evitare di sovraccaricare il server e rispettare i limiti del piano
- Impostazione tipica: 100-500 pagine per siti di medie dimensioni
- Priorità: Il crawler scansiona prima le pagine più importanti
Frequenza di aggiornamento
- Giornaliera: Per siti con contenuti che cambiano spesso
- Settimanale: Per la maggior parte dei siti aziendali
- Mensile: Per siti con contenuti statici
- Manuale: Solo quando decidi di aggiornare
Monitoraggio del progresso
Durante la scansione puoi monitorare:
- Pagine elaborate: Quante pagine sono state analizzate
- Pagine trovate: Quante pagine sono state scoperte
- Errori: Pagine non accessibili o con problemi
- Stato: Se il crawler è attivo, completato o in errore
Vantaggi del sito completo
- Semplicità: Configurazione minima richiesta
- Completezza: Non perdi nessuna pagina importante
- Automatismo: Si aggiorna da solo periodicamente
- Manutenzione minima: Funziona autonomamente
Svantaggi potenziali
- Contenuti irrilevanti: Potrebbe includere pagine non utili (es. policy, cookie)
- Uso risorse: Consuma più quota del piano
- Tempo di elaborazione: Richiede più tempo per siti grandi
- Meno controllo: Non puoi escludere facilmente sezioni specifiche
Best practices
- Testa prima: Inizia con un limite basso per vedere quali pagine vengono trovate
- Monitora i risultati: Controlla che vengano trovate le pagine importanti
- Esclusioni successive: Dopo il primo crawling, escludi pagine non utili
- Aggiornamenti graduali: Non impostare frequenze troppo aggressive inizialmente