Contenuti duplicati: cause e soluzioni

Joost de Valk

Joost de Valk è il fondatore e Chief Product Officer di Yoast. È un imprenditore di Internet, che oltre a fondare Yoast ha investito e consigliato diverse startup. La sua competenza principale è lo sviluppo di software open source e il marketing digitale.

I motori di ricerca come Google hanno un problema: si chiama “contenuto duplicato”. Contenuti duplicati significa che contenuti simili vengono visualizzati in più posizioni (URL) sul Web e, di conseguenza, i motori di ricerca non sanno quale URL mostrare nei risultati di ricerca. Questo può danneggiare la classifica di una pagina web e il problema peggiora solo quando le persone iniziano a collegarsi alle diverse versioni dello stesso contenuto. Questo articolo ti aiuterà a capire le varie cause dei contenuti duplicati e a trovare la soluzione a ciascuno di essi.

  • Che cos’è il contenuto duplicato?
    • illustriamo con un esempio
  • Cause di contenuti duplicati
    • Malinteso concetto di un URL
    • Id di Sessione
    • URL parametri utilizzati per il monitoraggio e l’ordinamento
    • Raschietti e content syndication
    • Ordine dei parametri
    • Commento paginazione
    • Printer-friendly pagine
    • WWW vs. non-WWW
  • soluzione Concettuale: un “canonico” URL
  • Individuare i contenuti duplicati problemi
  • soluzioni Pratiche per contenuti duplicati
    • Evitare contenuti duplicati
    • 301 Reindirizzamento contenuti duplicati
    • Usando i link
    • collegare al contenuto originale
  • Conclusione: il contenuto duplicato è risolvibile e dovrebbe essere risolto

Quello che è il contenuto duplicato?

Il contenuto duplicato è contenuto disponibile su più URL sul web. Poiché più di un URL mostra lo stesso contenuto, i motori di ricerca non sanno quale URL elencare più in alto nei risultati di ricerca. Pertanto potrebbero classificare entrambi gli URL più bassi e dare la preferenza ad altre pagine web.

In questo articolo, ci concentreremo principalmente sulle cause tecniche dei contenuti duplicati e sulle loro soluzioni. Se desideri avere una prospettiva più ampia sui contenuti duplicati e imparare come si riferisce ai contenuti copiati o raschiati o persino alla cannibalizzazione delle parole chiave, ti consigliamo di leggere questo post: Cos’è il contenuto duplicato.

Illustriamo questo con un esempio

I contenuti duplicati possono essere paragonati a un incrocio in cui i segnali stradali indicano due direzioni diverse per la stessa destinazione: quale strada dovresti prendere? A peggiorare le cose, anche la destinazione finale è diversa, ma solo leggermente. Come lettore, non ti dispiace perché ottieni il contenuto per cui sei venuto, ma un motore di ricerca deve scegliere quale pagina mostrare nei risultati di ricerca perché, ovviamente, non vuole mostrare lo stesso contenuto due volte.

Diciamo che il tuo articolo su ‘keyword x’ appare in e lo stesso contenuto appare anche in . Questa situazione non è fittizia: accade in molti moderni sistemi di gestione dei contenuti. Quindi diciamo che il tuo articolo è stato raccolto da diversi blogger e alcuni di loro si collegano al primo URL, mentre altri si collegano al secondo. Questo è quando il problema del motore di ricerca mostra la sua vera natura: è il tuo problema. Il contenuto duplicato è il tuo problema perché entrambi i link promuovono URL diversi. Se fossero tutti collegati allo stesso URL, le tue possibilità di classificare per ‘keyword x’ sarebbero più alte.

Se non sai se le tue classifiche sono affetti da problemi di contenuti duplicati, questi strumenti di rilevamento dei contenuti duplicati vi aiuterà a scoprire!

Cause dei contenuti duplicati

Ci sono decine di ragioni per i contenuti duplicati. La maggior parte di essi sono tecnici: non è molto spesso che un essere umano decida di mettere lo stesso contenuto in due luoghi diversi senza chiarire quale sia l’originale. A meno che tu non abbia clonato un post e pubblicato per caso, naturalmente. Ma per il resto, ci si sente innaturale per la maggior parte di noi.

Ci sono molte ragioni tecniche però e succede soprattutto perché gli sviluppatori non pensano come un browser o anche un utente, per non parlare di un motore di ricerca spider – pensano come un programmatore. Prendi quell’articolo che abbiamo menzionato prima, che appare su e . Se chiedi allo sviluppatore, diranno che esiste solo una volta.

Fraintendendo il concetto di un URL

No, quello sviluppatore non è impazzito, stanno solo parlando una lingua diversa. Un CMS probabilmente alimenterà il sito Web e in quel database c’è solo un articolo, ma il software del sito Web consente solo di recuperare lo stesso articolo nel database tramite diversi URL. Questo perché, agli occhi dello sviluppatore, l’identificatore univoco per quell’articolo è l’ID che l’articolo ha nel database, non l’URL. Ma per il motore di ricerca, l’URL è l’identificatore univoco per un pezzo di contenuto. Se lo spieghi a uno sviluppatore, inizieranno a risolvere il problema. E dopo aver letto questo articolo, sarete anche in grado di fornire loro una soluzione subito.

ID sessione

Spesso vuoi tenere traccia dei tuoi visitatori e consentire loro, ad esempio, di memorizzare gli articoli che vogliono acquistare in un carrello della spesa. Per farlo, devi dare loro una sessione.’Una sessione è una breve storia di ciò che il visitatore ha fatto sul tuo sito e può contenere cose come gli articoli nel loro carrello. Per mantenere quella sessione quando un visitatore fa clic da una pagina all’altra, l’identificatore univoco per quella sessione, chiamato ID sessione, deve essere memorizzato da qualche parte. La soluzione più comune è farlo con i cookie. Tuttavia, i motori di ricerca di solito non memorizzano i cookie.

A quel punto, alcuni sistemi ricorrono all’utilizzo degli ID di sessione nell’URL. Ciò significa che ogni collegamento interno sul sito Web ottiene quell’ID di sessione aggiunto al suo URL e, poiché tale ID di sessione è univoco per quella sessione, crea un nuovo URL e quindi duplica il contenuto.

Parametri URL utilizzati per il tracciamento e l’ordinamento

Un’altra causa di contenuti duplicati è l’utilizzo di parametri URL che non modificano il contenuto di una pagina, ad esempio nei collegamenti di tracciamento. Vedi, per un motore di ricerca, e non sono lo stesso URL. Quest’ultimo potrebbe consentire di tenere traccia di ciò che la gente di origine è venuto da, ma potrebbe anche rendere più difficile per voi di rango bene-molto un effetto collaterale indesiderato!

Questo non va solo per i parametri di tracciamento, ovviamente. Vale per ogni parametro che puoi aggiungere a un URL che non cambia la parte vitale del contenuto, sia che quel parametro sia per “cambiare l’ordinamento su un set di prodotti “o per” mostrare un’altra barra laterale”: tutti causano contenuti duplicati.

Scraper e content syndication

La maggior parte dei motivi per cui i contenuti duplicati sono “colpa” di te o del tuo sito web. A volte, tuttavia, altri siti web utilizzano i tuoi contenuti, con o senza il tuo consenso. Essi non sempre link al tuo articolo originale, e quindi il motore di ricerca non ‘get’ e ha a che fare con ancora un’altra versione dello stesso articolo. Più popolare diventa il tuo sito, più raschietti otterrai, rendendo questo problema sempre più grande.

Ordine dei parametri

Un’altra causa comune è che un CMS non utilizza URL puliti, ma piuttosto URL come /?id=1&cat=2, dove ID si riferisce all’articolo e cat si riferisce alla categoria. L’URL /?cat=2&id=1 renderà gli stessi risultati nella maggior parte dei sistemi di siti Web, ma sono completamente diversi per un motore di ricerca.

Impaginazione dei commenti

Nel mio amato WordPress, ma anche in alcuni altri sistemi, c’è un’opzione per impaginare i tuoi commenti. Ciò comporta la duplicazione del contenuto nell’URL dell’articolo e nell’URL dell’articolo + / comment-page-1/, / comment-page-2 / etc.

Pagine compatibili con la stampante

Se il tuo sistema di gestione dei contenuti crea pagine compatibili con la stampante e ti colleghi a quelle delle pagine dei tuoi articoli, Google di solito le troverà, a meno che tu non le blocchi specificamente. Ora, chiediti: quale versione vuoi che Google mostri? Quello con i tuoi annunci e contenuti periferici, o quello che mostra solo il tuo articolo?

WWW vs. non-WWW

Questo è uno dei più antichi del libro, ma a volte i motori di ricerca sbagliano ancora: WWW vs. non-WWW duplicate content, quando entrambe le versioni del tuo sito sono accessibili. Un’altra situazione meno comune, ma anche quella che ho visto, è il contenuto duplicato HTTP vs. HTTPS, in cui lo stesso contenuto viene servito su entrambi.

Soluzione concettuale: un URL ‘canonico’

Come abbiamo già visto, il fatto che diversi URL portino allo stesso contenuto è un problema, ma può essere risolto. Una persona che lavora in una pubblicazione sarà normalmente in grado di dirti abbastanza facilmente quale dovrebbe essere l’URL “corretto” per un determinato articolo, ma a volte quando chiedi a tre persone all’interno della stessa azienda, otterrai tre risposte diverse –

Questo è un problema che deve essere affrontato perché, alla fine, ci può essere solo un (URL). Tale URL ‘corretto’ per un pezzo di contenuto viene indicato come URL canonico dai motori di ricerca.

Nota a margine ironica

Canonical è un termine derivante dalla tradizione cattolica romana, dove un elenco di libri sacri è stato creato e accettato come genuino. Erano conosciuti come i Vangeli canonici del Nuovo Testamento. L’ironia è che la chiesa cattolica romana ha impiegato circa 300 anni e numerose lotte per trovare quella lista canonica, e alla fine hanno scelto quattro versioni della stessa storia

Identificare i problemi di contenuti duplicati

Potresti non sapere se hai un problema di contenuti duplicati sul tuo sito o con i tuoi contenuti. L’utilizzo di Google è uno dei modi più semplici per individuare i contenuti duplicati.

Ci sono diversi operatori di ricerca che sono molto utili in casi come questi. Se vuoi trovare tutti gli URL del tuo sito che contengono la parola chiave X articolo, devi digitare la seguente frase di ricerca in Google:

site:example.com intitle:"Keyword X"

Google ti mostrerà quindi tutte le pagine su example.com che contengono quella parola chiave. Più specifico fai quella parte intitle della query, più facile è eliminare il contenuto duplicato. È possibile utilizzare lo stesso metodo per identificare i contenuti duplicati sul Web. Diciamo che il titolo completo del tuo articolo è stato ‘Parola chiave X-perché è impressionante’, ci si cerca:

intitle:"Keyword X - why it is awesome"

E Google ti darebbe tutti i siti che corrispondono a quel titolo. A volte vale la pena anche la ricerca di una o due frasi complete dal tuo articolo, come alcuni raschietti potrebbero cambiare il titolo. In alcuni casi, quando fai una ricerca del genere, Google potrebbe mostrare un avviso come questo nell’ultima pagina dei risultati:

Questo è un segno che Google sta già ‘de-duping’ i risultati. Non è ancora buono, quindi vale la pena fare clic sul link e guardare tutti gli altri risultati per vedere se è possibile correggere alcuni di essi.

Leggi di più: FAI da te: duplicate content check “

Soluzioni pratiche per i contenuti duplicati

Una volta deciso quale URL è l’URL canonico per il tuo contenuto, devi avviare un processo di canonicalizzazione (sì, lo so, prova a dirlo tre volte ad alta voce veloce). Questo significa che dobbiamo dire ai motori di ricerca circa la versione canonica di una pagina e far loro trovare al più presto. Ci sono quattro metodi per risolvere il problema, in ordine di preferenza:

  1. Non la creazione di contenuti duplicati
  2. Reindirizzamento contenuti duplicati per l’URL canonico
  3. Aggiunta di un link canonico elemento duplicato pagina
  4. l’Aggiunta di un link HTML dalla pagina duplicata alla pagina canonica

Evitare contenuti duplicati

Alcune delle cause sopra i contenuti duplicati sono molto semplici correzioni per loro:

  • Ci sono Session ID nell’Url?
    Questi possono spesso essere disabilitati nelle impostazioni del sistema.
  • Hai pagine stampabili duplicate?
    Questi sono completamente inutili: dovresti semplicemente usare un foglio di stile di stampa.
  • Stai usando l’impaginazione dei commenti in WordPress?
    Dovresti semplicemente disabilitare questa funzione (in impostazioni ” discussione) sul 99% dei siti.
  • I tuoi parametri sono in un ordine diverso?
    Dì al tuo programmatore di creare uno script per mettere sempre i parametri nello stesso ordine (questo è spesso definito come una fabbrica di URL).
  • Ci sono problemi di tracciamento dei collegamenti?
    Nella maggior parte dei casi, è possibile utilizzare il monitoraggio della campagna basato su hash tag anziché il monitoraggio della campagna basato su parametri.
  • Hai problemi WWW vs non-WWW?
    Scegli uno e bastone con esso reindirizzando l’uno all’altro. È inoltre possibile impostare una preferenza in Google Webmaster Tools, ma dovrete rivendicare entrambe le versioni del nome di dominio.

Se il tuo problema non è facilmente risolvibile, potrebbe comunque valere la pena impegnarsi. L’obiettivo dovrebbe essere quello di evitare che il contenuto duplicato appaia del tutto, perché è di gran lunga la migliore soluzione al problema.

301 Reindirizzamento di contenuti duplicati

In alcuni casi, è impossibile impedire completamente al sistema che si sta utilizzando di creare URL errati per i contenuti, ma a volte è possibile reindirizzarli. Se questo non è logico per te (che posso capire), tienilo a mente mentre parli con i tuoi sviluppatori. Se ti sbarazzi di alcuni dei problemi di contenuto duplicato, assicurati di reindirizzare tutti i vecchi URL di contenuto duplicato agli URL canonici appropriati.

Utilizzo dei collegamenti

A volte non si vuole o non si può sbarazzarsi di una versione duplicata di un articolo, anche quando si sa che è l’URL sbagliato. Per risolvere questo particolare problema, i motori di ricerca hanno introdotto l’elemento link canonico. È inserito nella sezione < head > del tuo sito e assomiglia a questo:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

Nella sezione href del collegamento canonico, inserisci l’URL canonico corretto per il tuo articolo. Quando un motore di ricerca che supporta canonical trova questo elemento di collegamento, esegue un reindirizzamento soft 301, trasferendo la maggior parte del valore di collegamento raccolto da quella pagina alla pagina canonical.

Questo processo è un po ‘ più lento del reindirizzamento 301, quindi se puoi semplicemente fare un reindirizzamento 301 sarebbe preferibile, come menzionato da John Mueller di Google.

Continua a leggere: rel = canonical • Cos’è e come (non) usarlo “

Link al contenuto originale

Se non puoi fare nulla di quanto sopra, forse perché non controlli la sezione <head> del sito in cui appare il tuo contenuto, aggiungere un link all’articolo originale sopra o sotto l’articolo è sempre una buona idea. Si potrebbe desiderare di fare questo nel tuo feed RSS con l’aggiunta di un link all’articolo in esso. Alcuni raschietti filtreranno quel collegamento, ma altri potrebbero lasciarlo dentro. Se Google incontra diversi link che puntano al tuo articolo originale, capirà presto che questa è la versione canonica effettiva.

Conclusione: il contenuto duplicato è risolvibile e dovrebbe essere risolto

Il contenuto duplicato avviene ovunque. Devo ancora incontrare un sito di oltre 1.000 pagine che non ha almeno un piccolo problema di contenuti duplicati. È qualcosa che devi tenere costantemente d’occhio, ma è risolvibile e le ricompense possono essere abbondanti. I tuoi contenuti di qualità potrebbero salire in classifica, semplicemente eliminando i contenuti duplicati dal tuo sito!

Continua a leggere: Rel=canonical: The ultimate guide “

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

More: