Duplicate content: orsaker och lösningar

Joost De Valk

Joost De Valk är grundare och Chief Product Officer av Yoast. Han är en internet entreprenör, som bredvid grundandet Yoast har investerat i och rådde flera startups. Hans huvudsakliga expertis är utveckling av öppen källkod och digital marknadsföring.

sökmotorer som Google har ett problem-det kallas ’duplicate content’. Duplicerat innehåll innebär att liknande innehåll visas på flera platser (webbadresser) på webben, och som ett resultat sökmotorer vet inte vilken URL som ska visas i sökresultaten. Detta kan skada rankningen av en webbsida, och problemet blir bara värre när människor börjar länka till olika versioner av samma innehåll. Den här artikeln hjälper dig att förstå de olika orsakerna till duplicerat innehåll och hitta lösningen på var och en av dem.

  • vad är duplicerat innehåll?
    • låt oss illustrera detta med ett exempel
  • orsaker till duplicerat innehåll
    • missförstå begreppet URL
    • sessions-ID
    • URL-parametrar som används för spårning och sortering
    • skrapor och innehållssyndikering
    • ordning av parametrar
    • kommentar paginering
    • Skrivarvänliga sidor
    • WWW vs. icke-www
  • konceptuell lösning: en’ canonical ’ URL
  • identifiera problem med duplicerat innehåll
  • praktiska lösningar för duplicerat innehåll
    • Undvik duplicerat innehåll
    • 301 omdirigera duplicerat innehåll
    • använda länkar
    • länka tillbaka till det ursprungliga innehållet
  • slutsats: duplicerat innehåll kan fixas och bör fixas

Vad är duplicerat innehåll?

duplicerat innehåll är innehåll som är tillgängligt på flera webbadresser på webben. Eftersom mer än en URL visar samma innehåll vet sökmotorer inte vilken URL som ska listas högre i sökresultaten. Därför kan de rangordna båda webbadresserna lägre och ge företräde åt andra webbsidor.

i den här artikeln fokuserar vi mest på de tekniska orsakerna till duplicerat innehåll och deras lösningar. Om du vill få ett bredare perspektiv på duplicerat innehåll och lära dig hur det relaterar till kopierat eller skrapat innehåll eller till och med nyckelordskannibalisering, rekommenderar vi dig att läsa det här inlägget: Vad är duplicerat innehåll.

låt oss illustrera detta med ett exempel

duplicerat innehåll kan liknas vid en korsning där vägskyltar pekar i två olika riktningar för samma destination: vilken väg ska du ta? För att göra saken värre är slutdestinationen också annorlunda, men bara någonsin så lite. Som läsare bryr du dig inte om att du får innehållet du kom för, men en sökmotor måste välja vilken sida som ska visas i sökresultaten eftersom den naturligtvis inte vill visa samma innehåll två gånger.

låt oss säga att din artikel om ’nyckelord x’ visas på och samma innehåll visas också på . Denna situation är inte fiktiv: det händer i många moderna innehållshanteringssystem. Låt oss säga att din artikel har plockats upp av flera bloggare och några av dem länkar till den första webbadressen, medan andra länkar till den andra. Det här är när sökmotorns problem visar sin sanna natur: det är ditt problem. Det dubbla innehållet är ditt problem eftersom dessa länkar båda främjar olika webbadresser. Om de alla länkar till samma URL skulle dina chanser att rangordna för ’nyckelord x’ vara högre.

om du inte vet om dina rankningar lider av problem med duplicerat innehåll, kommer dessa verktyg för upptäckt av duplicerat innehåll att hjälpa dig att ta reda på det!

orsaker till duplicerat innehåll

det finns dussintals orsaker till duplicerat innehåll. De flesta av dem är tekniska: det är inte så ofta att en människa bestämmer sig för att lägga samma innehåll på två olika platser utan att klargöra vilket som är originalet. Om du inte har klonat ett inlägg och publicerat det av misstag förstås. Men annars känns det onaturligt för de flesta av oss.

det finns dock många tekniska skäl och det händer mest eftersom utvecklare inte tänker som en webbläsare eller till och med en användare, än mindre en sökmotorspindel – de tänker som en programmerare. Ta den artikeln vi nämnde tidigare, som visas på och . Om du frågar utvecklaren kommer de att säga att det bara finns en gång.

missförstå begreppet URL

Nej, Den utvecklaren har inte blivit arg, de talar bara ett annat språk. Ett CMS kommer förmodligen att driva webbplatsen, och i den databasen finns det bara en artikel, men webbplatsens programvara tillåter bara att samma artikel i databasen hämtas via flera webbadresser. Det beror på att i utvecklarens ögon är den unika identifieraren för den artikeln det ID som artikeln har i databasen, inte webbadressen. Men för sökmotorn är webbadressen den unika identifieraren för ett innehåll. Om du förklarar det för en utvecklare kommer de att börja få problemet. Och efter att ha läst den här artikeln kan du till och med ge dem en lösning direkt.

sessions-ID

du vill ofta hålla reda på dina besökare och låta dem till exempel lagra varor de vill köpa i en kundvagn. För att göra det måste du ge dem en session. En session är en kort historik över vad besökaren gjorde på din webbplats och kan innehålla saker som artiklarna i sin kundvagn. För att behålla den sessionen som en besökare klickar från en sida till en annan måste den unika identifieraren för den sessionen – kallad sessions – ID-lagras någonstans. Den vanligaste lösningen är att göra det med cookies. Sökmotorer lagrar dock vanligtvis inte cookies.

vid den tiden faller vissa system tillbaka till att använda sessions-ID i webbadressen. Detta innebär att varje intern länk på webbplatsen får det sessions-ID läggs till sin URL, och eftersom det sessions-ID är unikt för den sessionen, det skapar en ny URL, och därför duplicera innehåll.

URL-parametrar som används för spårning och sortering

en annan orsak till duplicerat innehåll är att använda URL-parametrar som inte ändrar innehållet på en sida, till exempel i spårningslänkar. Du ser, till en sökmotor, och är inte samma URL. Det senare kan låta dig spåra vilken källa människor kom ifrån, men det kan också göra det svårare för dig att rangordna bra – mycket en oönskad bieffekt!

detta går inte bara för spårningsparametrar, förstås. Det gäller för varje parameter som du kan lägga till i en URL som inte ändrar det viktiga innehållet, oavsett om den parametern är för ’ändra sorteringen på en uppsättning produkter’ eller för ’visa en annan sidofält’: alla orsakar duplicerat innehåll.

skrapor och innehållssyndikering

de flesta orsakerna till duplicerat innehåll är antingen felet på dig eller din webbplats. Ibland använder dock andra webbplatser ditt innehåll, med eller utan ditt samtycke. De länkar inte alltid till din ursprungliga artikel, och därför får sökmotorn inte den och måste hantera ännu en version av samma artikel. Ju mer populär din webbplats blir, desto fler skrapor får du, vilket gör problemet större och större.

ordning av parametrar

en annan vanlig orsak är att ett CMS inte använder fina rena webbadresser, utan snarare webbadresser som /?id=1&cat=2, där ID hänvisar till artikeln och cat hänvisar till kategorin. Webbadressen /?cat=2&id=1 ger samma resultat i de flesta webbplatssystem, men de är helt olika för en sökmotor.

kommentar pagination

i min älskade WordPress, men också i vissa andra system finns det ett alternativ att paginera dina kommentarer. Detta leder till att innehållet dupliceras över artikelns URL och artikelns URL + /kommentar-sida-1/, /Kommentar-sida-2/ etc.

Skrivarvänliga sidor

om ditt innehållshanteringssystem skapar skrivarvänliga sidor och du länkar till dem från dina artikelsidor hittar Google vanligtvis dem, såvida du inte specifikt blockerar dem. Fråga dig själv: vilken version Vill du att Google ska visa? Den med dina annonser och perifert innehåll, eller den som bara visar din artikel?

WWW vs. icke-WWW

detta är en av de äldsta i boken, men ibland får sökmotorer fortfarande fel: WWW vs. icke-WWW duplicerat innehåll, när båda versionerna av din webbplats är tillgängliga. En annan, mindre vanlig situation men en jag har sett också är HTTP vs HTTPS duplicate content, där samma innehåll serveras över båda.

konceptuell lösning: en ’kanonisk’ URL

som vi redan har sett är det faktum att flera webbadresser leder till samma innehåll ett problem, men det kan lösas. En person som arbetar på en publikation kommer normalt att kunna berätta ganska lätt vad ’rätt’ URL för en viss artikel bör vara, men ibland när du frågar tre personer inom samma företag, får du tre olika svar…

det är ett problem som behöver ta itu med eftersom, i slutändan, det kan bara finnas en (URL). Den ’korrekta’ webbadressen för ett innehåll kallas den kanoniska webbadressen av sökmotorerna.

ironisk sidnot

Canonical är en term som härrör från den Romersk-katolska traditionen, där en lista över heliga böcker skapades och accepterades som äkta. De var kända som de kanoniska evangelierna i Nya Testamentet. Ironin är att det tog den Romersk-katolska kyrkan cirka 300 år och många slagsmål för att komma fram till den kanoniska listan, och de valde så småningom fyra versioner av samma historia…

identifiera problem med duplicerat innehåll

du kanske inte vet om du har ett problem med duplicerat innehåll på din webbplats eller med ditt innehåll. Att använda Google är ett av de enklaste sätten att upptäcka duplicerat innehåll.

det finns flera sökoperatörer som är till stor hjälp i fall som dessa. Om du vill hitta alla webbadresser på din webbplats som innehåller din sökord x-artikel skriver du följande sökfras i Google:

site:example.com intitle:"Keyword X"

Google kommer då att visa dig alla sidor på example.com som innehåller det nyckelordet. Ju mer specifikt du gör det intitle en del av frågan, desto lättare är det att rensa ut duplicerat innehåll. Du kan använda samma metod för att identifiera duplicerat innehåll på webben. Låt oss säga att hela titeln på din artikel var ’Keyword X-why it is awesome’, du skulle söka efter:

intitle:"Keyword X - why it is awesome"

och Google skulle ge dig alla webbplatser som matchar den titeln. Ibland är det värt att ens söka efter en eller två fullständiga meningar från din artikel, eftersom vissa skrapor kan ändra titeln. I vissa fall, när du gör en sådan sökning, kan Google visa ett meddelande som detta på den sista resultatsidan:

Detta är ett tecken på att Google redan ’de-duping’ resultaten. Det är fortfarande inte bra, så det är värt att klicka på länken och titta på alla andra resultat för att se om du kan fixa några av dem.

Läs mer: DIY: duplicate content check ”

praktiska lösningar för duplicerat innehåll

när du har bestämt vilken URL som är den kanoniska webbadressen för ditt innehåll måste du starta en process med kanonisering (ja jag vet, försök säga det tre gånger högt snabbt). Det betyder att vi måste berätta för sökmotorer om den kanoniska versionen av en sida och låta dem hitta den ASAP. Det finns fyra metoder för att lösa problemet, i prioritetsordning:

  1. inte skapa duplicerat innehåll
  2. omdirigera duplicerat innehåll till den kanoniska webbadressen
  3. lägga till ett kanoniskt länkelement till dupliceringssidan
  4. lägga till en HTML-länk från dupliceringssidan till den kanoniska sidan

undvika duplicerat innehåll

några av ovanstående orsaker till duplicerat innehåll har mycket enkla korrigeringar till dem:

  • finns det sessions-ID i dina webbadresser?
    dessa kan ofta bara inaktiveras i systemets inställningar.
  • har du dubbla skrivarvänliga sidor?
    dessa är helt onödiga: du bör bara använda ett utskriftsstilark.
  • använder du kommentar pagination i WordPress?
    du bör bara inaktivera den här funktionen (under Inställningar ” diskussion) på 99% av webbplatser.
  • är dina parametrar i en annan ordning?
    berätta för din programmerare att bygga ett skript för att alltid sätta parametrar i samma ordning (Detta kallas ofta en URL-fabrik).
  • finns det spårningslänkar?
    i de flesta fall kan du använda hash-taggbaserad kampanjspårning istället för parameterbaserad kampanjspårning.
  • har du WWW vs. icke-WWW frågor?
    välj en och håll fast vid den genom att omdirigera den till den andra. Du kan också ställa in en preferens i Googles verktyg för webbansvariga, men du måste göra anspråk på båda versionerna av domännamnet.

om ditt problem inte är så enkelt fixat kan det fortfarande vara värt att anstränga sig. Målet bör vara att förhindra att duplicerat innehåll visas helt, eftersom det är den överlägset bästa lösningen på problemet.

301 omdirigera duplicerat innehåll

i vissa fall är det omöjligt att helt förhindra att systemet du använder skapar fel webbadresser för innehåll, men ibland är det möjligt att omdirigera dem. Om detta inte är logiskt för dig (som jag kan förstå), håll det i åtanke när du pratar med dina Utvecklare. Om du gör bli av med några av dubblettinnehåll frågor, se till att du omdirigera alla gamla dubblettinnehåll webbadresser till rätt kanoniska webbadresser.

använda länkar

ibland vill du inte eller kan inte bli av med en dubblettversion av en artikel, även om du vet att det är fel URL. För att lösa detta problem har sökmotorerna introducerat det kanoniska länkelementet. Den är placerad i avsnittet<head > på din webbplats, och det ser ut så här:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

i avsnittet href i den kanoniska länken placerar du rätt kanonisk URL för din artikel. När en sökmotor som stöder canonical hittar det här länkelementet utför den en mjuk 301-omdirigering och överför det mesta av länkvärdet som samlats in av den sidan till din canonical-sida.

denna process är lite långsammare än 301-omdirigeringen, så om du bara kan göra en 301-omdirigering som skulle vara att föredra, som nämnts av Googles John Mueller.

Fortsätt läsa: rel = canonical * vad det är och hur (inte) att använda det ”

länka tillbaka till det ursprungliga innehållet

om du inte kan göra något av ovanstående, möjligen för att du inte kontrollerar avsnittet <head> på webbplatsen som ditt innehåll visas på, är det alltid bra att lägga till en länk tillbaka till den ursprungliga artikeln ovanpå eller under artikeln. Du kanske vill göra detta i ditt RSS-flöde genom att lägga till en länk tillbaka till artikeln i den. Vissa skrapor kommer att filtrera som länkar ut, men andra kan lämna den i. Om Google stöter på flera länkar som pekar på din ursprungliga artikel kommer det snart att räkna ut att det är den faktiska kanoniska versionen.

slutsats: duplicerat innehåll kan fixas och bör fixas

duplicerat innehåll händer överallt. Jag har ännu inte stött på en webbplats med mer än 1000 sidor som inte har åtminstone ett litet problem med duplicerat innehåll. Det är något du behöver ständigt hålla ett öga på, men det är fixerbart, och belöningarna kan vara rikliga. Ditt kvalitetsinnehåll kan sväva i rankingen, bara genom att bli av med duplicerat innehåll från din webbplats!

läs vidare: Rel = canonical: den ultimata guiden ”

Lämna ett svar

Din e-postadress kommer inte publiceras.

More: