Il monitoraggio dettagliato delle pagine scansionate ti permette di verificare la qualità del crawling e di identificare eventuali problemi o opportunità di ottimizzazione.
Accesso al monitoraggio
- Vai nella sezione "Crawler" del pannello di controllo
- Seleziona il crawler che vuoi monitorare
- Clicca su "Visualizza pagine" o "Dettagli scansione"
- Scegli tra "Pagine elaborate" o "Pagine con errori"
Informazioni disponibili per ogni pagina
Pagine elaborate con successo
Per ogni pagina scansionata correttamente puoi vedere:
- URL completo: L'indirizzo della pagina
- Titolo pagina: Il tag <title> estratto
- Data scansione: Quando è stata elaborata l'ultima volta
- Dimensione contenuto: Quantità di testo estratto
- Codice HTTP: Di solito 200 (successo)
- Tempo elaborazione: Quanto tempo ha richiesto la scansione
Pagine con errori
Per le pagine che hanno generato errori:
- URL problematico: L'indirizzo che ha causato l'errore
- Tipo di errore: Codice HTTP (404, 500, ecc.) o tipo di problema
- Messaggio errore: Descrizione dettagliata del problema
- Data ultimo tentativo: Quando si è verificato l'errore
- Numero tentativi: Quante volte il sistema ha provato
Filtri e ricerca
Filtri disponibili
- Per stato: Solo successi, solo errori, o tutti
- Per data: Pagine scansionate in un periodo specifico
- Per dimensione: Pagine con molto o poco contenuto
- Per codice HTTP: Filtra per codici di risposta specifici
Ricerca testuale
- Per URL: Trova pagine con URL specifici
- Per titolo: Cerca pagine con titoli particolari
- Per contenuto: Trova pagine che contengono certe parole
Analisi della qualità
Indicatori di pagine utili
- Contenuto sostanzioso: Pagine con almeno 200-300 parole
- Titoli chiari: Tag title significativi e descrittivi
- Struttura HTML: Uso corretto di H1, H2, paragrafi
- Contenuto unico: Testo non duplicato da altre pagine
Indicatori di pagine problematiche
- Contenuto scarso: Meno di 50 parole di testo
- Principalmente navigazione: Solo menu e link, poco contenuto
- Contenuto duplicato: Identico ad altre pagine già scansionate
- Errori ricorrenti: Sempre problematiche negli accessi
Azioni disponibili
Gestione pagine singole
- Esclusione: Aggiungi URL alle regole di esclusione
- Ri-scansione forzata: Forza una nuova elaborazione
- Visualizzazione contenuto: Vedi il testo estratto
- Apertura diretta: Visita la pagina originale
Azioni in blocco
- Esclusione multipla: Escludi più pagine contemporaneamente
- Ri-scansione di gruppo: Riprocessa più pagine
- Esportazione: Scarica liste di URL per analisi esterne
Interpretazione dei pattern
Pattern positivi
- Crescita costante: Il numero di pagine elaborate aumenta nel tempo
- Errori stabili o in diminuzione: Indica una configurazione ottimale
- Contenuti di qualità: La maggior parte delle pagine ha contenuto sostanzioso
- Copertura completa: Tutte le sezioni importanti sono rappresentate
Pattern problematici
- Molti errori 404: Il sito ha rimosso molte pagine
- Errori 403/500 ricorrenti: Possibili problemi di configurazione del sito
- Contenuto scarso generalizzato: Il crawler sta prendendo pagine non utili
- Stagnazione: Nessuna nuova pagina trovata da tempo
Ottimizzazione basata sui dati
Miglioramento delle regole
- Esclusioni mirate: Escludi pattern di URL che generano solo contenuti scarsi
- Inclusioni specifiche: Aggiungi regole per catturare contenuti di qualità
- Bilanciamento profondità: Regola la profondità in base ai risultati
Gestione delle priorità
- Pagine chiave: Assicurati che le pagine più importanti siano sempre scansionate
- Frequenza differenziata: Scansiona più spesso le sezioni che cambiano frequentemente
- Limite intelligente: Concentra le risorse sulle pagine più utili
Report e esportazione
Report automatici
- Riassunto settimanale: Statistiche delle ultime scansioni
- Alert per errori: Notifiche quando gli errori superano soglie
- Nuovo contenuto: Elenco delle nuove pagine trovate
Esportazione dati
- CSV delle pagine: Lista completa per analisi esterne
- Report errori: Per la risoluzione tecnica dei problemi
- Statistiche temporali: Andamento nel tempo delle performance