La Sitemap è un file che elenca tutte le pagine e gli URL (o quasi) di un sito web.
Questo file può essere inviato ai motori di ricerca per facilitare il loro compito, sia in termini di scansione che di indicizzazione.
Tutti gli articoliQuando creai il mio primo blog e non avevo nessuna conoscenza di come funzionassero i motori di ricerca mi chiedevo come fa Google a scoprire il mio nuovo post?
Contents
Mi sono imbattuto in una micro guida su come creare e inviare in maniera automatica i nuovi contenuti grazie alla sitemap.xml.
Vediamo passo passo cos’è e come aiuta l’indicizzazione del tuo sito web.
Sitemap XML cos’è?
La sitemap.xml è un protocollo e un formato che ti permette di elencare tutti gli URL di un sito web.
Più semplicemente, è un file che raccoglie tutte le pagine del tuo sito web.
Questo file consente ai robot dei motori di ricerca (crawler) di identificare le pagine che si desidera indicizzare.
Lo scopo di questo file è aiutare i motori di ricerca a trovare e indicizzare le pagine del tuo sito web.
Come regola generale, i crawler indicizzano tutte le pagine che trovano, a meno che non includano un qualche tipo di istruzione di blocco esempio i comandi nel file Robots.txt.
All’interno della stessa mappa del sito, c’è una sezione dedicata agli articoli (post) e un’altra alle pagine.
Può anche elencare video, foto e altri tipi di file.
Esistono diversi formati di mappa del sito ma il più utilizzato è quello che contiene l’estensione XML.
I file di Sitemap possono essere creati manualmente o utilizzare strumenti di terze parti per la loro generazione, come programmi (ad esempio XML Sitemap Generator) o plugin specifici per ogni gestore di contenuti (ad esempio, ce ne sono alcuni per WordPress o Drupal).
Gli indirizzi della mappa del sito possono essere integrati nel file robot.txt del sito che viene sottoposto a scansione dai motori di ricerca.
Creare una Sitemap
Per un sito di piccole dimensioni la creazione di una sitemap è superflua.
I ragnetti di Google troveranno il sito internet e indicizzeranno i pochi url e contenuti presenti.
La cosa diventa vitale per siti di medie e grandi dimensioni e per siti che vengono costantemente aggiornati con nuovi post e articoli.
In questo caso avere una sitemap costantemente aggiornata diventa fondamentale.
Vitale per siti internet di informazioni.
Per creare la sitemap ci sono vari modi.
Alcuni CMS generano una sitemap in automatico.
Queste sono aggiornate automaticamente quando aggiungi o rimuovi pagine e post dal tuo sito.
Se il tuo CMS non lo fa, solitamente c’è un plugin disponibile che lo fa.
Per chi utilizza WordPress i principali plug-in che generano automaticamente il file Sitemap.Xml sono:
- Google XML Sitemaps: è un plugin che genera sitemap XML in maniera automatica. Il plugin supporta tutti i tipi di pagine generate da WordPress, così come gli URL personalizzati.
- Yoast SEO: il plug tra i più utilizzato per l’ottimizzazione SEO ha tra le sue funzioni la creazione e l’ottimizzazione della Sitemap. L’indice della Sitemap e le singole Sitemap vengono aggiornate automaticamente quando aggiungi o rimuovi contenuti. Inoltre, includono i tipi di post che desideri vengano indicizzati dai motori di ricerca.
- Rank Math: il plug in di ottimizzazione SEO e acerrimo rivale di Yoast SEO ha nei suoi strumenti di configurazione la possibilità di creare e ottimizzare la tua Sitemap.xml. Puoi raggiungere le impostazioni della Sitemap in Rank Math utilizzando il menu WordPress di Rank Math.
Ognuno dei plug-in ti permetteranno di generare una sitemap perfetta e il tutto in maniera automatica.
Tipologia di sitemap
Esistono diversi tipi di sitemap per descrivere contenuti multimediali e altri contenuti che possono essere complessi da analizzare per i motori di ricerca.
Video
Le mappe dei siti video ci consentono di informare i motori di ricerca sui contenuti video del nostro sito.
Si tratta di informazioni che i ragni non sarebbero in grado di identificare utilizzando i soliti meccanismi di tracciamento.
In questo modo possiamo migliorare la visibilità del sito per le ricerche effettuate da Google Video.
In questo caso il codice da aggiungere nell’intestazione della mappa del sito è:
<?xml version=»1.0″encoding=»UTF-8″?> <urlset xmlns =»http://www.sitemaps.org/schemas/sitemap/0.9″ xmlns:image=»http://www.google.com/schemas/sitemap-image/1.1″xmlns:video=»
http://www.google.com/schemas/sitemap-video/1.1″>
E nel caso dei video, i seguenti tag sono obbligatori :
<video:content_loc>: dove il video è ospitato sul server (percorso)
Facoltativamente, questo tag può essere sostituito o aggiunto al tag
<video:player_loc>: nel caso in cui il video sia stato incorporato
da un repository video esterno.
<video:thumbnail_loc>: la posizione della miniatura del video
<video:title>: il titolo del video
<video:description>: la descrizione del video
In questo esempio avremmo una pagina che include un’immagine e un video:
<?xml version=»1.0″encoding=»UTF-8″?>
<urlset xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″
xmlns:image=»http://www.google.com/schemas/sitemap-image/1.1″
xmlns:video=»http://www.google.com/schemas/sitemap-video/1.1″>
<url>
<loc>http://tuweb.com </loc>
<changefreq>mensile</changefreq>
<priority>1.0</priority>
<lastmod>26/12/2014</lastmod>
<immagine:immagine>
<image:loc>http://nomedominio.com/tuaimagene.jpg</image:loc>
<image:caption> ... il testo della didascalia ... </image:caption>
<image:geo_location> Città, Paese </ image: geo_location>
<image:title>… il titolo della tua immagine… </image:title>
<image:license>http://url-de-licencia.com </image: license>
</image:image>
<video:video>
<video:content_loc>http://tuweb.com/tucarpetadevideos/video123.flv</video:content_loc>
<video:player_loc allow_embed=»sì»>http://youtube.com/tuvideodetucanal</video:player_loc>
<video:thumbnail_loc>http://nomedominio.com/miniatures/123.jpg </video:thumbnail_loc>
<video:title>… il titolo del tuo video… </video:title>
<video:description>… la descrizione del tuo video… </video:description>
</video:video>
</url>
</urlset>
Immagine
Questo tipo di sitemap migliorerà la nostra visibilità per le ricerche effettuate da Google Immagini, consentendo la scansione e l’indicizzazione delle immagini sul nostro sito da parte degli spider.
Si tratta di informazioni che i ragni non sarebbero in grado di identificare utilizzando i soliti meccanismi di tracciamento.
Una voce di immagine nella mappa del sito può includere l’oggetto, il tipo e la licenza dell’immagine.
Possiamo utilizzare una mappa del sito separata per includere immagini o aggiungere informazioni sulle immagini a una mappa del sito esistente.
I siti web in cui sarebbe conveniente avere una mappa del sito di immagini sarebbero, ad esempio, portali turistici, pagine di ricette o negozi online.
<image:caption>: la didascalia dell'immagine
<image:geo_location>: la posizione geografica dell'immagine , se nota
<image:title>: il titolo dell'immagine
<immagine:licenza>:utilizzato per includere l'URL in cui risiede la licenza dell'immagine utilizzata
Il file sarà quindi il seguente:
<?xml version=»1.0″encoding =» UTF-8 ″?>
<urlset xmlns = »http://www.sitemaps.org/schemas/sitemap/0.9″
xmlns:image=»http://www.google.com/schemas/sitemap-image/1.1″>
<url>
<loc>http://tuweb.com </loc>
<changefreq>mensile</changefreq>
<priority>1.0</priority>
<lastmod>26/12/2014</lastmod>
<immagine:immagine>
<image:loc>http://tuosito.com/tuimagen.jpg </image:loc>
<image:caption> ... il testo della didascalia ... </image:caption>
<image:geo_location> Città, Paese </image:geo_location>
<image:title>… il titolo della tua immagine… </image:title>
<image:license> http://url-di-licenza.com </image:license>
</image:image>
</url>
</urlset>
Notizia
Questo tipo di mappa del sito viene spesso utilizzato per velocizzare il processo di scoperta delle notizie da parte degli spider.
Questa mappa del sito è leggermente diversa da quella sulle pagine web.
Ha tag specifici come <news: keywords> o <title>.
Il tag <title> è obbligatorio e deve contenere il titolo della notizia così come appare sul sito.
La <news: keyword> non è obbligatoria ma è consigliata.
I crawler utilizzano i termini inclusi per classificare le notizie.
Questo permette al nostro articolo di essere classificato nella classifica per ricerche correlate in cui vogliamo guadagnare visibilità.
Ti consiglio di utilizzare più parole chiave in questo tag della mappa del sito.
D’altra parte, dobbiamo tenere presente che l’ordine di inclusione dei termini non determina la loro importanza, sarebbero tutti allo stesso livello di rilevanza.
Possiamo anche trovare il tag ticker di borsa, che viene utilizzato per le notizie economiche.
I file delle Sitemap per le notizie non possono contenere più di 1.000 URL o includere articoli più vecchi di 24 ore, sempre a partire dalla data di pubblicazione.
Tuttavia, possono continuare a comparire in Google News per un periodo di 30 giorni.
<?xml version="1.0"encoding="UTF-8"?>
<urlset
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:news="http://www.google .com/schemas/sitemap-news/0.9">
<url>
<loc>https://www.tuosito.com/title-about-the-article</loc>
<news:news>
<news:publication>
<news:name>Organization Name</news:name>
<news:language>it</news:language>
</news:publication>
<news:published_date>2018-06-05T20:21:34-04:00</news:published_date>
<news:title> Titolo del titolo dell'articolo di notizie </news:title>
<news:keywords> parola chiave, parola chiave </news:keywords>
</news:news>
</url>
<url>
<loc>https://www.tuosito.com/title-about-the-article</loc>
<news:news>
<news:publication>
<news:name> Nome dell'organizzazione </news:name>
<news:language>it</news:language>
</news:publication>
<news:published_date> 2018-06-05T20: 21: 34-04: 00 </news:published_date>
<news:title> Titolo del titolo dell'articolo di notizie </news:title>
<news:keywords> parola chiave, parola chiave, parola chiave, parola chiave </news:keywords>
</news:news>
</url>
<url>
<loc>https://www.tuosito.com/title-about-the-article</loc>
<news:news>
<news:publication>
<news:name> Nome organizzazione </news:name>
<news:language>it</news:language>
</news:publication>
<news:published_date> 2018-06- 05T20: 21: 34-04: 00 </ news:published_date>
<news:title> Titolo del titolo dell'articolo di notizie </news:title>
<news:keywords> parola chiave, parola chiave, parola chiave, parola chiave </news:keywords>
</news:news>
</url>
<url>
<loc>https://www.tuosito.com/title-about-the-article</loc>
<news:news>
<news:publication>
<news:name> Nome organizzazione </news:name>
<news:language>it </news:language>
</news:publication>
<news:published_date> 2018-06-05T20:21:34-04:00 </news:published_date>
<news:title> Title about the Titolo articolo di notizie </news:title>
<news:keywords> keyword, keyword, keyword, keyword </news:keywords>
</news:news>
</url>
</urlset>
Priorità delle pagine all’interno di un sito
Il tag <priority> indica ai motori di ricerca l’importanza di un URL rispetto al resto delle pagine del sito. Questo suggerimento non influisce sul posizionamento delle tue pagine nei risultati di Google.es.
I valori per questo tag vanno da 0,0 a 1,0.
I markup HTML previsti per la sitemap.xml:
Il tag <loc> ti consente di specificare la posizione della pagina.
Il tag <lastmod> riporta la data dell’ultimo aggiornamento.
Il tag <changefreq> specifica la frequenza con cui la pagina viene modificata.
Il tag <priority> viene utilizzato per stabilire l’ordine di priorità di una pagina sulla scala di tutti i contenuti inviati.
Come inviare la Sitemap a Google
Google non controlla una Sitemap ogni volta che viene eseguita la scansione di un sito; una Sitemap viene controllata solo la prima volta che Google la nota e, successivamente, solo quando invii un ping per comunicare che è cambiata.
Devi informare Google di una Sitemap solo quando è nuova o è aggiornata; non inviare più volte Sitemap non modificate e non inviare più volte ping relativi a tali Sitemap.
Esistono alcuni modi diversi per mettere la Sitemap a disposizione di Google:
- Inviala a Google utilizzando lo strumento Sitemap di Search Console
- Inserisci la riga seguente in qualsiasi punto del file robots.txt per specificare il percorso della Sitemap:
Sitemap: http://example.com/sitemap_location.xml - Usa la funzionalità “ping” per richiedere la scansione della Sitemap da parte di Google. Invia una richiesta HTTP GET come la seguente:
http://www.google.com/ping?sitemap=<url_completo_della_sitemap>
Ad esempio:
http://www.google.com/ping?sitemap=https://example.com/sitemap.xml
Dimensioni della Sitemap
La mappa del sito non deve superare i 50 MB (52.428.800 byte), compressi o non compressi, né contenere più di 50.000 URL.
Ciò garantirà che il server web non venga bloccato quando serve un gran numero di file.
Se il tuo sito ha un numero di URL maggiore di quelli menzionati o se la tua mappa del sito supera la dimensione massima consigliata, dovrai creare diversi file di mappa del sito che gestirai tramite un file indice di mappa del sito.
Per la compressione della mappa del sito, Google consiglia di utilizzare il formato gzip invece di zip.
Semplifica la gestione delle tue Sitemap con il file Indice Sitemap.
Il file Indice Sitemap ti consente di inviare tutte le Sitemap contemporaneamente in modo che possa rendere il processo molto più semplice.
Con un indice di sitemap, gli spider di Google possono facilmente navigare tra i diversi file xml che hai creato.
Questo indice viene creato come una mappa del sito generica, ma utilizzando i tag <sitemapindex> e <sitemap>:
<? xml version = »1.0 ″ encoding =» UTF-8 ″?>
<sitemapindex xmlns = »http://www.sitemaps.org/schemas/sitemap/0.9 ″>
<sitemap>
<loc> http://tuosito.com/sitemap.xml </loc>
</sitemap>
<sitemap>
<loc> http://www.tuosito.com/sitemap-2.xml </loc>
</sitemap>
<sitemap>
<loc> http://www.tuosito.com/sitemap-imagenes.xml </loc>
</sitemap>
<sitemap>
<loc> http://www.tuosito.com/sitemap-videos.xml </loc>
</sitemap>
</sitemapindex>
Questa opzione è solitamente abbastanza utile in siti di grandi dimensioni, come alcuni media che caricano indici di notizie per mesi dell’anno , ma anche per altri portali che, sebbene non così grandi, hanno un gran numero di sitemap.
Spesso ci troviamo con sitemap che hanno un tempo di risposta troppo elevato, situazione che può influenzare direttamente l’indicizzazione delle pagine in essa contenute.
In questo caso, è meglio dividere le pagine in più sitemap.
Gestirli tutti dall’indice della mappa del sito sarà molto semplice.
Come verificare la tua Sitemap.xml
Prima di inviare la mappa del sito dobbiamo assicurarci che includa gli URL pertinenti del sito, cioè quelli che vogliamo che Google scansiona e indicizzi.
Gli errori della sitemap comprendono errori di compressione, sitemap vuote, errore HTTP o namespace non corretto.
Per questo possiamo utilizzare strumenti come Screaming Frog, da cui possiamo scaricare il file della mappa del sito includendo direttamente l’URL.
Dovrai verificare che i codici di stato non siano diversi da 200 OK.
Le pagine reindirizzate, siano esse reindirizzamenti temporanei o permanenti, non devono essere conservate nella mappa del sito.
Si consiglia di rimuoverli da questo file.
La procedura da seguire sarà la stessa nel caso in cui troviamo pagine inesistenti (404, 410, ecc.).
Un altro indicatore che dovremmo controllare è lo “Stato”, che indica se la scansione di una determinata pagina dal file robots.txt del sito è stata bloccata.
Dovremo controllare se questa istruzione di blocco in queste pagine è realmente corretta o è stata inclusa per errore.
Nel caso in cui l’istruzione di blocco sia corretta, dovremmo procedere alla rimozione di questi URL dalla mappa del sito.
Allo stesso modo, se rileviamo che alcuni URL vengono bloccati per errore, si consiglia di facilitarne la scansione rimuovendoli dal file robots.txt.
Altrettanto importante è anche controllare la colonna «Meta Robots», per identificare quali pagine hanno l’istruzione «noindex».
Gli URL che hanno una di queste due istruzioni di blocco non devono essere inclusi nel file della mappa del sito del sito.
Non è coerente che gli stessi URL che stiamo inviando nella mappa del sito per i motori di ricerca per la scansione e l’indicizzazione, contengano a loro volta un’istruzione che blocca l’accesso ai robot.
È conveniente seguire queste raccomandazioni poiché, correggendo questi errori, potremmo migliorare le cifre di saturazione del sito.
Dopo aver corretto gli incidenti rilevati, dobbiamo inviare nuovamente la mappa del sito.
Errori comuni da evitare
Invia la sitemap vuota: non importa quanto generiamo e inviamo il file della mappa del sito, se non contiene gli URL che vogliamo che i crawler trovino, non ci favorirà in modo positivo a livello SEO.
Superare della dimensione massima consentita: se supera i 50 MB non compressi, dobbiamo creare un file Indice Sitemap e dividerlo in più Sitemap.
Inserire una data sbagliata: dobbiamo assicurarci che le date siano codificate W3C per datetime (specificare l’ora è facoltativo).
Inserire URL non validi: quelli che contengono caratteri o simboli non supportati come virgolette o spazi. O altri che includono il protocollo sbagliato (HTTP invece di HTTPS).
Etichette duplicate: per risolvere questo problema dovremo eliminare l’etichetta duplicata e inviare nuovamente la mappa del sito.
Troppi URL nella Sitemap: assicurati che non contenga più di 50.000 URL, ma dividi invece l’indice delle Sitemap in più file, tenendo presente che non devono contenere più di 50.000 pagine ciascuno.
Non specificare gli URL completi: è necessario indicare l’URL completo. Ad esempio, www.miodominio.com non sarebbe corretto poiché faremmo a meno del protocollo HTTP / HTTPS.
Non includere tutte le tue Sitemap in un file Indice Sitemap.
Inclusione di etichette sbagliate. Dobbiamo assicurarci che tutti i tag nella mappa del sito siano scritti correttamente. Errori di ortografia come l’inserimento di <news: language> invece di <news: language> possono far sì che la mappa del sito registri numerosi errori e che i motori di ricerca non possano elaborarla correttamente.
Ora sei pronto per creare la tua Sitemap.xml e inviarla ai motori di ricerca e vedere nel breve i tuoi contenuti indicizzati.
- Guida Canva - Settembre 29, 2021
- Google July 2021 Core Update - Luglio 15, 2021
- Link building SEO cos’è? Guida passo passo - Luglio 10, 2021