Duplicate content: Causes and solutions

Joost de Valk

Joost de Valk is de oprichter en Chief Product Officer van Yoast. Hij is een Internet ondernemer, die naast de oprichting van Yoast heeft geïnvesteerd in en geadviseerd verschillende startups. Zijn belangrijkste expertise is open source software ontwikkeling en digitale marketing.

zoekmachines zoals Google hebben een probleem-het heet ‘duplicate content’. Duplicate content betekent dat vergelijkbare content op meerdere locaties (URL ‘ s) op het web wordt weergegeven, en als gevolg daarvan weten zoekmachines niet welke URL in de zoekresultaten moet worden weergegeven. Dit kan de ranking van een webpagina schaden, en het probleem wordt alleen maar erger wanneer mensen beginnen te linken naar de verschillende versies van dezelfde inhoud. Dit artikel zal u helpen om de verschillende oorzaken van dubbele inhoud te begrijpen en de oplossing voor elk van hen te vinden.

  • Wat is duplicaatinhoud?
    • Laten we dit illustreren met een voorbeeld
  • Oorzaken van duplicate content
    • Misverstand het concept van een URL
    • Sessie-Id ‘s
    • URL-parameters gebruikt voor het bijhouden van en het sorteren
    • Schrapers en content syndication
    • Volgorde van parameters
    • Reactie paginering
    • Printer-vriendelijke pagina’ s
    • WWW versus non-WWW
  • Conceptuele oplossing: een ‘canonieke’ URL
  • Identificeren van dubbele inhoud kwesties
  • Praktische oplossingen voor duplicate content
    • het Vermijden van duplicate content
    • 301 Omleiden van duplicate content
    • links
    • terug te Linken naar de originele inhoud
  • Conclusie: duplicate content is muur, en moet worden vastgesteld

Wat is duplicate content?

Duplicate content is content die beschikbaar is op meerdere URL ‘ s op het web. Omdat meer dan één URL dezelfde inhoud toont, weten zoekmachines niet welke URL hoger in de zoekresultaten moet worden vermeld. Daarom kunnen ze beide URL ’s lager rangschikken en de voorkeur geven aan andere webpagina’ s.

In dit artikel zullen we ons voornamelijk richten op de technische oorzaken van duplicate content en hun oplossingen. Als u een breder perspectief op duplicate content wilt krijgen en te leren hoe het zich verhoudt tot gekopieerde of geschraapte content of zelfs keyword kannibalisatie, raden wij u aan om dit bericht te lezen: Wat is duplicate content.

laten we dit illustreren met een voorbeeld

Duplicaatinhoud kan worden vergeleken met een kruispunt waar verkeersborden in twee verschillende richtingen wijzen naar dezelfde bestemming: welke weg moet u nemen? Tot overmaat van ramp is de eindbestemming ook anders, maar slechts in geringe mate. Als lezer vind je het niet erg omdat je de inhoud krijgt waarvoor je kwam, maar een zoekmachine moet kiezen welke pagina in de zoekresultaten moet worden weergegeven, omdat hij natuurlijk niet twee keer dezelfde inhoud wil weergeven.

stel dat uw artikel over ’trefwoord x’verschijnt op en dezelfde inhoud ook op . Deze situatie is niet fictief: Het gebeurt in veel moderne Content Management Systemen. Laten we dan zeggen dat uw artikel is opgepikt door verschillende bloggers en sommige van hen link naar de eerste URL, terwijl anderen link naar de tweede. Dit is wanneer het probleem van de zoekmachine toont zijn ware aard: het is uw probleem. De dubbele inhoud is uw probleem, omdat die links beide verschillende URL ‘ s te bevorderen. Als ze allemaal linken naar dezelfde URL, zou je kans op ranking voor ‘keyword x’ hoger zijn.

Als u niet weet of uw rankings last hebben van duplicate content issues, zullen deze duplicate content discovery tools u helpen erachter te komen!

oorzaken van dubbele inhoud

er zijn tientallen redenen voor dubbele inhoud. De meeste zijn technisch: het komt niet vaak voor dat een mens besluit om dezelfde inhoud op twee verschillende plaatsen te plaatsen zonder duidelijk te maken wat het origineel is. Tenzij je per ongeluk een bericht hebt gekloond en gepubliceerd. Maar verder voelt het onnatuurlijk voor de meesten van ons.

er zijn echter veel technische redenen en het gebeurt meestal omdat ontwikkelaars niet denken als een browser of zelfs als een gebruiker, laat staan als een zoekmachine spider – ze denken als een programmeur. Neem dat eerder genoemde artikel, dat staat op EN . Als je het de ontwikkelaar vraagt, zullen ze zeggen dat het maar één keer bestaat.

onbegrip van het concept van een URL

Nee, die ontwikkelaar is niet gek geworden, ze spreken gewoon een andere taal. Een CMS zal waarschijnlijk de macht van de website, en in die database is er slechts één artikel, maar de software van de website maakt het gewoon mogelijk dat hetzelfde artikel in de database worden opgehaald door middel van verschillende URL ‘ s. Dat komt omdat, in de ogen van de ontwikkelaar, de unieke identifier voor dat artikel is de ID dat artikel heeft in de database, niet de URL. Maar voor de zoekmachine, de URL is de unieke identificatie voor een stuk van de inhoud. Als je dat uitlegt aan een ontwikkelaar, zullen ze het probleem beginnen te krijgen. En na het lezen van dit artikel, je zult zelfs in staat zijn om hen te voorzien van een oplossing meteen.

Session id ‘ s

u wilt vaak uw bezoekers bijhouden en hen bijvoorbeeld toestaan om items op te slaan die ze willen kopen in een winkelwagen. Om dat te doen, moet je ze een sessie geven.’Een sessie is een korte geschiedenis van wat de bezoeker deed op uw site en kan dingen bevatten zoals de items in hun winkelwagen. Om die sessie te onderhouden terwijl een bezoeker van de ene pagina naar de andere klikt, moet de unieke identificatie voor die sessie – de zogenaamde sessie – ID-ergens worden opgeslagen. De meest voorkomende oplossing is om dat te doen met cookies. Zoekmachines slaan echter meestal geen cookies op.

op dat moment vallen sommige systemen terug op het gebruik van sessie-id ‘ s in de URL. Dit betekent dat elke interne link op de website krijgt dat sessie-ID toegevoegd aan de URL, en omdat die sessie-ID is uniek voor die sessie, het creëert een nieuwe URL, en dus dupliceren inhoud.

URL-parameters die worden gebruikt voor het volgen en sorteren

een andere oorzaak van dubbele inhoud is het gebruik van URL-parameters die de inhoud van een pagina niet veranderen, bijvoorbeeld in tracking-links. Voor een zoekmachine zijn EN niet dezelfde URL. Dit laatste kan u toelaten om bij te houden welke bron mensen vandaan kwamen, maar het kan het ook moeilijker maken voor u om goed te rangschikken – zeer veel een ongewenste bijwerking!

dit gaat natuurlijk niet alleen voor tracking parameters. Het geldt voor elke parameter die u kunt toevoegen aan een URL die niet het vitale stuk van de inhoud verandert, of die parameter is voor ‘het veranderen van het sorteren op een set van producten’ of voor ‘het tonen van een andere zijbalk’: allemaal veroorzaken dubbele inhoud.

Scrapers and Content syndication

de meeste redenen voor duplicate content zijn ofwel de ‘fout’ van u of uw website. Soms gebruiken andere websites echter uw inhoud, met of zonder uw toestemming. Ze niet altijd een link naar uw oorspronkelijke artikel, en daarom de zoekmachine niet ‘ get ‘ het en heeft te maken met nog een andere versie van hetzelfde artikel. Hoe populairder uw site wordt, hoe meer schrapers je krijgt, waardoor dit probleem groter en groter.

volgorde van parameters

een andere veel voorkomende oorzaak is dat een CMS geen schone URL ’s gebruikt, maar URL’ s zoals /?id=1&cat=2, waarbij ID verwijst naar het artikel en cat verwijst naar de categorie. De URL /?cat=2&id=1 zal dezelfde resultaten weergeven in de meeste websitesystemen, maar ze zijn compleet anders voor een zoekmachine.

Commentaarpagina

in mijn geliefde WordPress, maar ook in sommige andere systemen, is er een optie om uw commentaren te pagineren. Dit leidt ertoe dat de inhoud wordt gedupliceerd over de URL van het artikel, en de URL van het artikel + / commentaar-pagina-1/, / commentaar-pagina-2 / etc.

printervriendelijke pagina ‘s

als uw content management systeem printervriendelijke pagina’ s maakt en u linkt naar deze pagina ’s van uw artikelpagina’ s, zal Google ze meestal vinden, tenzij u ze specifiek blokkeert. Vraag jezelf nu af: welke versie wil je dat Google toont? Degene met uw advertenties en randcontent, of degene die alleen uw artikel toont?

WWW VS.niet-WWW

dit is een van de oudste in het boek, maar soms hebben zoekmachines het nog steeds mis: WWW VS. niet-WWW duplicate content, wanneer beide versies van uw site toegankelijk zijn. Een andere, minder voorkomende situatie, maar een die ik ook heb gezien is HTTP vs. https duplicate content, waar dezelfde inhoud wordt geserveerd over beide.

conceptuele oplossing: een’ canonieke ‘URL

zoals we al hebben gezien, is het feit dat meerdere URL’ s tot dezelfde inhoud leiden een probleem, maar het kan worden opgelost. Een persoon die bij een publicatie werkt kan je normaal gesproken vrij gemakkelijk vertellen wat de’ juiste ‘ URL voor een bepaald artikel zou moeten zijn, maar soms als je drie mensen binnen hetzelfde bedrijf vraagt, krijg je drie verschillende antwoorden…

dat is een probleem dat aangepakt moet worden omdat er uiteindelijk maar één (URL) kan zijn. Die ‘correcte’ URL voor een stukje inhoud wordt door de zoekmachines de canonieke URL genoemd.

ironische kanttekening

canoniek is een term die stamt uit de Rooms-katholieke traditie, waar een lijst van heilige boeken werd gemaakt en geaccepteerd als echt. Ze stonden bekend als de canonieke evangeliën van het Nieuwe Testament. De ironie is dat het de Rooms-Katholieke Kerk ongeveer 300 jaar en talloze gevechten kostte om met die canonieke lijst te komen, en ze kozen uiteindelijk vier versies van hetzelfde verhaal…

identificeren van dubbele inhoudsproblemen

u weet misschien niet of u een dubbele inhoud probleem op uw site heeft of met uw inhoud. Het gebruik van Google is een van de makkelijkste manieren om dubbele inhoud te herkennen.

er zijn verschillende zoekoperators die zeer nuttig zijn in gevallen zoals deze. Als u wilt alle URL ’s op uw site die uw trefwoord X artikel bevatten vinden, zou je typt de volgende zoekzin in Google:

site:example.com intitle:"Keyword X"

Google toont u vervolgens alle pagina’ s op example.com die dat sleutelwoord bevatten. Hoe specifieker u dat intitle deel van de query maakt, hoe gemakkelijker het is om dubbele inhoud te verwijderen. U kunt dezelfde methode gebruiken om dubbele inhoud op het web te identificeren. Laten we zeggen dat de volledige titel van uw artikel was ’trefwoord X-waarom het is awesome’, je zou zoeken naar:

intitle:"Keyword X - why it is awesome"

en Google zou je alle sites geven die overeenkomen met die titel. Soms is het de moeite waard zelfs te zoeken naar een of twee volledige zinnen uit uw artikel, omdat sommige schrapers de titel kunnen veranderen. In sommige gevallen, wanneer u een zoekopdracht als dat, Google zou kunnen tonen een bericht als dit op de laatste pagina van de resultaten:

Dit is een teken dat Google de resultaten Al ‘ont-dupt’. Het is nog steeds niet goed, dus het is de moeite waard om op de link te klikken en te kijken naar alle andere resultaten om te zien of u een aantal van hen kunt repareren.

Lees meer: DIY: duplicate content check ”

praktische oplossingen voor duplicate content

zodra u hebt besloten welke URL de canonieke URL is voor uw stukje inhoud, moet u een proces van canonicalisatie starten (Ja, ik weet het, probeer dat drie keer hardop snel te zeggen). Dit betekent dat we zoekmachines moeten vertellen over de canonieke versie van een pagina en ze deze zo snel mogelijk moeten laten vinden. Er zijn vier methoden om het probleem op te lossen, in volgorde van voorkeur:

  1. geen duplicaatinhoud aanmaken
  2. duplicaatinhoud omleiden naar de canonieke URL
  3. een canonieke link element toevoegen aan de duplicaatpagina
  4. een HTML-link toevoegen van de duplicaatpagina naar de canonieke pagina

duplicaatinhoud vermijden

enkele van de bovenstaande oorzaken voor duplicaatinhoud hebben zeer eenvoudige oplossingen:

  • zijn er sessie ID ’s in uw URL’ s?
    deze kunnen vaak gewoon worden uitgeschakeld in de instellingen van uw systeem.
  • heeft u dubbele printvriendelijke pagina ‘ s?
    deze zijn volledig overbodig: u moet gewoon een afdrukstylesheet gebruiken.
  • gebruikt u commentaarpagina ‘ s in WordPress?
    u kunt deze functie op 99% van de sites gewoon uitschakelen (onder Instellingen ” discussie).
  • staan uw parameters in een andere volgorde?
    vertel uw programmeur om een script te bouwen om altijd parameters in dezelfde volgorde te plaatsen (dit wordt vaak een URL factory genoemd).
  • zijn er problemen met tracking links?
    in de meeste gevallen kunt u op hashtag gebaseerde campagnetracking gebruiken in plaats van op parameter gebaseerde campagnetracking.
  • heeft u WWW VS. niet-WWW problemen?
    kies er een en blijf erbij door de ene naar de andere te leiden. U kunt ook een voorkeur instellen in Google Webmaster Tools, maar u moet beide versies van de domeinnaam claimen.

als uw probleem niet zo gemakkelijk is opgelost, is het misschien nog steeds de moeite waard. Het doel moet zijn om te voorkomen dat dubbele inhoud helemaal verschijnt, want het is veruit de beste oplossing voor het probleem.

301 Redirecting duplicate content

in sommige gevallen is het onmogelijk om volledig te voorkomen dat het systeem dat u gebruikt verkeerde URL ‘ s voor inhoud maakt, maar soms is het mogelijk om ze om te leiden. Als dit niet logisch voor u (die ik kan begrijpen), Houd het in gedachten tijdens het praten met uw ontwikkelaars. Als u zich te ontdoen van een aantal van de dubbele inhoud problemen, zorg ervoor dat u alle oude dubbele inhoud URL ’s omleiden naar de juiste canonieke URL’ s.

het gebruik van links

soms wilt of kunt u een dubbele versie van een artikel niet verwijderen, zelfs als u weet dat het de verkeerde URL is. Om dit specifieke probleem op te lossen, hebben de zoekmachines het canonieke link element geïntroduceerd. Het is geplaatst in de <head> sectie van uw site, en het ziet er zo uit:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

in het href gedeelte van de canonieke link plaatst u de juiste canonieke URL voor uw artikel. Wanneer een zoekmachine die canonical ondersteunt deze link element vindt, voert het een zachte 301 redirect, het overbrengen van het grootste deel van de link waarde verzameld door die pagina naar uw canonical pagina.

dit proces is echter iets langzamer dan de 301 redirect, dus als je gewoon een 301 redirect kunt doen, zou dat beter zijn, zoals vermeld door Google ‘ s John Mueller.

Lees verder: rel = canonical • What it is and how (not) to use it “

Linking back to the original content

Als u geen van de bovenstaande opties kunt uitvoeren, mogelijk omdat u geen controle hebt over de <head> sectie van de site waarop uw inhoud verschijnt, is het altijd een goed idee om een link terug te plaatsen naar het originele artikel boven of onder het artikel. Je zou dit in je RSS-feed willen doen door een link terug te voegen naar het artikel erin. Sommige schrapers filteren die link uit, maar anderen kunnen het laten in. Als Google tegenkomt verschillende links die verwijzen naar uw oorspronkelijke artikel, het zal snel genoeg erachter te komen dat dat de werkelijke canonieke versie.

conclusie: duplicate content is fixeerbaar, en moet worden vastgesteld

Duplicate content gebeurt overal. Ik heb nog een site van meer dan tegenkomen 1.000 pagina ‘ s die niet ten minste een klein duplicaat inhoud probleem heeft. Het is iets wat je nodig hebt om voortdurend in de gaten te houden, maar het is fixeerbaar, en de beloningen kunnen overvloedig zijn. Uw kwaliteit inhoud kan stijgen in de ranglijst, gewoon door het wegwerken van dubbele inhoud van uw site!

Lees verder: Rel=canonical: the ultimate guide ”

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

More: