Monitoraggio delle pagine scansionate

Il monitoraggio dettagliato delle pagine scansionate ti permette di verificare la qualità del crawling e di identificare eventuali problemi o opportunità di ottimizzazione.

Accesso al monitoraggio

  1. Vai nella sezione "Crawler" del pannello di controllo
  2. Seleziona il crawler che vuoi monitorare
  3. Clicca su "Visualizza pagine" o "Dettagli scansione"
  4. Scegli tra "Pagine elaborate" o "Pagine con errori"

Informazioni disponibili per ogni pagina

Pagine elaborate con successo

Per ogni pagina scansionata correttamente puoi vedere:

  • URL completo: L'indirizzo della pagina
  • Titolo pagina: Il tag <title> estratto
  • Data scansione: Quando è stata elaborata l'ultima volta
  • Dimensione contenuto: Quantità di testo estratto
  • Codice HTTP: Di solito 200 (successo)
  • Tempo elaborazione: Quanto tempo ha richiesto la scansione
Pagine con errori

Per le pagine che hanno generato errori:

  • URL problematico: L'indirizzo che ha causato l'errore
  • Tipo di errore: Codice HTTP (404, 500, ecc.) o tipo di problema
  • Messaggio errore: Descrizione dettagliata del problema
  • Data ultimo tentativo: Quando si è verificato l'errore
  • Numero tentativi: Quante volte il sistema ha provato

Filtri e ricerca

Filtri disponibili
  • Per stato: Solo successi, solo errori, o tutti
  • Per data: Pagine scansionate in un periodo specifico
  • Per dimensione: Pagine con molto o poco contenuto
  • Per codice HTTP: Filtra per codici di risposta specifici
Ricerca testuale
  • Per URL: Trova pagine con URL specifici
  • Per titolo: Cerca pagine con titoli particolari
  • Per contenuto: Trova pagine che contengono certe parole

Analisi della qualità

Indicatori di pagine utili
  • Contenuto sostanzioso: Pagine con almeno 200-300 parole
  • Titoli chiari: Tag title significativi e descrittivi
  • Struttura HTML: Uso corretto di H1, H2, paragrafi
  • Contenuto unico: Testo non duplicato da altre pagine
Indicatori di pagine problematiche
  • Contenuto scarso: Meno di 50 parole di testo
  • Principalmente navigazione: Solo menu e link, poco contenuto
  • Contenuto duplicato: Identico ad altre pagine già scansionate
  • Errori ricorrenti: Sempre problematiche negli accessi

Azioni disponibili

Gestione pagine singole
  • Esclusione: Aggiungi URL alle regole di esclusione
  • Ri-scansione forzata: Forza una nuova elaborazione
  • Visualizzazione contenuto: Vedi il testo estratto
  • Apertura diretta: Visita la pagina originale
Azioni in blocco
  • Esclusione multipla: Escludi più pagine contemporaneamente
  • Ri-scansione di gruppo: Riprocessa più pagine
  • Esportazione: Scarica liste di URL per analisi esterne

Interpretazione dei pattern

Pattern positivi
  • Crescita costante: Il numero di pagine elaborate aumenta nel tempo
  • Errori stabili o in diminuzione: Indica una configurazione ottimale
  • Contenuti di qualità: La maggior parte delle pagine ha contenuto sostanzioso
  • Copertura completa: Tutte le sezioni importanti sono rappresentate
Pattern problematici
  • Molti errori 404: Il sito ha rimosso molte pagine
  • Errori 403/500 ricorrenti: Possibili problemi di configurazione del sito
  • Contenuto scarso generalizzato: Il crawler sta prendendo pagine non utili
  • Stagnazione: Nessuna nuova pagina trovata da tempo

Ottimizzazione basata sui dati

Miglioramento delle regole
  • Esclusioni mirate: Escludi pattern di URL che generano solo contenuti scarsi
  • Inclusioni specifiche: Aggiungi regole per catturare contenuti di qualità
  • Bilanciamento profondità: Regola la profondità in base ai risultati
Gestione delle priorità
  • Pagine chiave: Assicurati che le pagine più importanti siano sempre scansionate
  • Frequenza differenziata: Scansiona più spesso le sezioni che cambiano frequentemente
  • Limite intelligente: Concentra le risorse sulle pagine più utili

Report e esportazione

Report automatici
  • Riassunto settimanale: Statistiche delle ultime scansioni
  • Alert per errori: Notifiche quando gli errori superano soglie
  • Nuovo contenuto: Elenco delle nuove pagine trovate
Esportazione dati
  • CSV delle pagine: Lista completa per analisi esterne
  • Report errori: Per la risoluzione tecnica dei problemi
  • Statistiche temporali: Andamento nel tempo delle performance