Duplicate content: årsager og løsninger

Joost De Valk

Joost De Valk er grundlægger og Chief Product Officer af Yoast. Han er en internet-iværksætter, der ved siden af grundlæggelsen Yoast har investeret i og rådgivet flere startups. Hans vigtigste ekspertise er udvikling af open source-programmer og digital markedsføring.

søgemaskiner som Google har et problem-det kaldes ‘duplicate content’. Duplikeret indhold betyder, at lignende indhold vises flere steder (URL ‘ er) på nettet, og som et resultat ved søgemaskiner ikke, hvilken URL der skal vises i søgeresultaterne. Dette kan skade placeringen af en hjemmeside, og problemet bliver kun værre, når folk begynder at linke til de forskellige versioner af det samme indhold. Denne artikel hjælper dig med at forstå de forskellige årsager til duplikatindhold og finde løsningen på hver af dem.

  • hvad er duplicate content?
    • lad os illustrere dette med et eksempel
  • årsager til duplikatindhold
    • misforståelse af begrebet en URL
    • Session-id ‘ er
    • URL-parametre brugt til sporing og sortering
    • skrabere og indholdssyndikering
    • rækkefølge af parametre
    • kommentar pagination
    • printervenlige sider
    • vs. ikke-dk
  • konceptuel løsning: en’ kanonisk ‘ URL
  • identificering af duplikatindhold
  • praktiske løsninger til duplikatindhold
    • undgå duplikatindhold
    • 301 omdirigering af duplikatindhold
    • brug af links
    • link tilbage til det oprindelige indhold
  • konklusion: duplicate content kan rettes, og bør rettes

Hvad er duplicate content?

Duplicate content Er indhold, der er tilgængeligt på flere URL ‘ er på nettet. Da mere end en URL viser det samme indhold, ved søgemaskiner ikke, hvilken URL der skal vises højere i søgeresultaterne. Derfor kan de rangere begge URL ‘ er lavere og foretrække andre hjemmesider.

i denne artikel fokuserer vi mest på de tekniske årsager til duplikatindhold og deres løsninger. Hvis du gerne vil have et bredere perspektiv på duplikatindhold og lære, hvordan det vedrører kopieret eller skrabet indhold eller endda nøgleordskannibalisering, vil vi råde dig til at læse dette indlæg: Hvad er duplikatindhold.

lad os illustrere dette med et eksempel

Duplikatindhold kan sammenlignes med at være ved en korsvej, hvor vejskilte peger i to forskellige retninger for den samme destination: hvilken vej skal du tage? For at gøre tingene værre, den endelige destination er også anderledes, men kun nogensinde så lidt. Som læser har du ikke noget imod det, fordi du får det indhold, du kom efter, men en søgemaskine skal vælge, hvilken side der skal vises i søgeresultaterne, fordi den selvfølgelig ikke ønsker at vise det samme indhold to gange.

lad os sige, at din artikel om ‘søgeord’ vises på , og det samme indhold vises også på . Denne situation er ikke fiktiv: det sker i mange moderne indholdsstyringssystemer. Så lad os sige, at din artikel er blevet hentet af flere bloggere, og nogle af dem linker til den første URL, mens andre linker til den anden. Dette er, når søgemaskinens problem viser sin sande natur: det er dit problem. Det duplikerede indhold er dit problem, fordi disse links begge promoverer forskellige URL ‘ er. Hvis de alle linker til den samme URL, ville dine chancer for placering for ‘søgeord’ være højere.

hvis du ikke ved, om dine placeringer lider af problemer med duplikatindhold, hjælper disse værktøjer til opdagelse af duplikatindhold dig med at finde ud af det!

årsager til duplikatindhold

der er snesevis af grunde til duplikatindhold. De fleste af dem er tekniske: det er ikke så ofte, at et menneske beslutter at placere det samme indhold to forskellige steder uden at gøre det klart, hvilket er originalen. Medmindre du har klonet et indlæg og offentliggjort det ved et uheld selvfølgelig. Men ellers, det føles unaturligt for de fleste af os.

der er dog mange tekniske grunde, og det sker for det meste, fordi udviklere ikke tænker som en bro.ser eller endda en bruger, endsige en søgemaskinespider – de tænker som en programmør. Tag den artikel, vi nævnte tidligere, der vises på og . Hvis du spørger udvikleren, vil de sige, at den kun eksisterer en gang.

misforståelse af begrebet en URL

Nej, den udvikler er ikke blevet gal, de taler bare et andet sprog. Et CMS vil sandsynligvis drive hjemmesiden, og i den database er der kun en artikel, men hjemmesidens program giver kun mulighed for, at den samme artikel i databasen kan hentes gennem flere URL ‘ er. Det skyldes, at i udviklerens øjne er den unikke identifikator for den pågældende artikel det ID, som artiklen har i databasen, ikke URL ‘ en. Men for søgemaskinen er URL ‘ en den unikke identifikator for et stykke indhold. Hvis du forklarer det til en udvikler, vil de begynde at få problemet. Og efter at have læst denne artikel, vil du endda være i stand til at give dem en løsning med det samme.

Session id ‘ er

du vil ofte holde styr på dine besøgende og tillade dem for eksempel at gemme varer, de vil købe i en indkøbskurv. For at gøre det skal du give dem en session. En session er en kort historie om, hvad den besøgende gjorde på din hjemmeside og kan indeholde ting som varerne i deres indkøbskurv. For at opretholde denne session, når en besøgende klikker fra en side til en anden, skal den unikke identifikator for den pågældende session – kaldet Session ID – gemmes et eller andet sted. Den mest almindelige løsning er at gøre det med cookies. Søgemaskiner gemmer dog normalt ikke cookies.

på det tidspunkt falder nogle systemer tilbage til at bruge Session-id ‘er i URL’ en. Dette betyder, at hvert internt link på hjemmesiden får det Session ID tilføjet til sin URL, og fordi det Session ID er unikt for den session, opretter det en ny URL og derfor duplikerer indhold.

URL-parametre, der bruges til sporing og sortering

en anden årsag til duplikeret indhold er at bruge URL-parametre, der ikke ændrer indholdet på en side, for eksempel i sporingslinks. Du ser, til en søgemaskine, og er ikke den samme URL. Sidstnævnte giver dig muligvis mulighed for at spore, hvilken kilde folk kom fra, men det kan også gøre det sværere for dig at rangere godt – meget en uønsket bivirkning!

dette går naturligvis ikke kun til sporingsparametre. Det gælder for hver parameter, du kan føje til en URL, der ikke ændrer det vitale indhold, uanset om denne parameter er for ‘ændring af sorteringen på et sæt produkter’ eller for ‘visning af en anden sidebjælke’: alle forårsager duplikatindhold.

skrabere og indholdssyndikering

de fleste af årsagerne til duplikatindhold er enten ‘skyld’ for dig eller din hjemmeside. Nogle gange bruger andre hjemmesider dog dit indhold, med eller uden dit samtykke. De linker ikke altid til din originale artikel, og derfor får søgemaskinen ikke den og skal beskæftige sig med endnu en version af den samme artikel. Jo mere populær din hjemmeside bliver, jo flere skrabere får du, hvilket gør dette problem større og større.

rækkefølge af parametre

en anden almindelig årsag er, at et CMS ikke bruger pæne rene URL ‘er, men snarere URL’ er som /?id=1&cat=2, hvor ID henviser til artiklen, og cat henviser til kategorien. URL ‘ en /?cat=2&id=1 vil give de samme resultater i de fleste hjemmesidesystemer, men de er helt forskellige for en søgemaskine.

kommentar pagination

i min elskede ordtryk, men også i nogle andre systemer er der mulighed for at paginere dine kommentarer. Dette fører til, at indholdet duplikeres på tværs af artiklen URL, og artiklen URL + /kommentar-side-1/, /Kommentar-side-2/ etc.

printervenlige sider

hvis dit indholdsstyringssystem opretter printervenlige sider, og du linker til dem fra dine artikelsider, finder Google dem normalt, medmindre du specifikt blokerer dem. Spørg dig selv: Hvilken version vil du have Google til at vise? Den med dine annoncer og perifert indhold, eller den, der kun viser din artikel?

Første Verdenskrig

dette er en af de ældste i bogen, men nogle gange tager søgemaskiner stadig fejl: anden verdenskrig vs. ikke-anden verdenskrig duplikatindhold, når begge versioner af din side er tilgængelige. En anden, mindre almindelig situation, men en jeg også har set, er HTTP vs HTTPS duplicate content, hvor det samme indhold serveres over begge.

konceptuel løsning: en ‘kanonisk’ URL

som vi allerede har set, er det faktum, at flere URL ‘ er fører til det samme indhold, et problem, men det kan løses. En person, der arbejder i en publikation, vil normalt være i stand til at fortælle dig ganske let, hvad den ‘korrekte’ URL til en bestemt artikel skal være, men nogle gange når du spørger tre personer inden for samme firma, får du tre forskellige svar…

det er et problem, der skal adresseres, fordi der i sidste ende kun kan være en (URL). Den’ korrekte ‘ URL for et stykke indhold kaldes den kanoniske URL af søgemaskinerne.

ironisk sidenote

Canonical er et udtryk, der stammer fra den romersk-katolske tradition, hvor en liste over hellige bøger blev oprettet og accepteret som ægte. De blev kendt som de kanoniske evangelier i Det Nye Testamente. Ironien er, at det tog den romersk-katolske kirke omkring 300 år og adskillige kampe at komme med den kanoniske liste, og de valgte til sidst fire versioner af den samme historie…

identificering af duplikatindholdsproblemer

du ved muligvis ikke, om du har et duplikatindholdsproblem på din side eller med dit indhold. Brug af Google er en af de nemmeste måder at få øje på duplikatindhold.

der er flere søgeoperatører, der er meget nyttige i tilfælde som disse. Hvis du ønsker at finde alle de URL ‘ er på din hjemmeside, der indeholder dit søgeord, skal du skrive følgende søgesætning i Google:

site:example.com intitle:"Keyword X"

Google vil derefter vise dig alle sider på example.com der indeholder dette søgeord. Jo mere specifikt du gør intitle til en del af forespørgslen, jo lettere er det at udrydde duplikatindhold. Du kan bruge den samme metode til at identificere duplikatindhold på tværs af internettet. Lad os sige, at den fulde titel på din artikel var ‘søgeord-hvorfor det er fantastisk’ ,du ville søge efter:

intitle:"Keyword X - why it is awesome"

og Google ville give dig alle sider, der matcher denne titel. Nogle gange er det værd at selv søge efter en eller to komplette sætninger fra din artikel, da nogle skrabere kan ændre titlen. I nogle tilfælde, når du foretager en sådan søgning, viser Google muligvis en meddelelse som denne på den sidste side med resultater:

dette er et tegn på, at Google allerede ‘de-duping’ resultaterne. Det er stadig ikke godt, så det er værd at klikke på linket og se på alle de andre resultater for at se, om du kan rette nogle af dem.

Læs mere: DIY: duplicate content check “

praktiske løsninger til duplikatindhold

når du har besluttet, hvilken URL der er den kanoniske URL til dit indhold, skal du starte en proces med kanonisering (ja jeg ved, prøv at sige det tre gange højt hurtigt). Dette betyder, at vi er nødt til at fortælle søgemaskiner om den kanoniske version af en side og lade dem finde den ASAP. Der er fire metoder til at løse problemet i rækkefølge efter præference:

  1. opretter ikke duplikatindhold
  2. omdirigering af duplikatindhold til den kanoniske URL
  3. tilføjelse af et kanonisk linkelement til duplikatsiden
  4. tilføjelse af et HTML-link fra duplikatsiden til den kanoniske side

undgå duplikatindhold

nogle af de ovennævnte årsager til duplikatindhold har meget enkle rettelser til dem:

  • er der Session ID ‘er i dine URL’ er?
    disse kan ofte bare deaktiveres i dit systems indstillinger.
  • har du duplikatprintervenlige sider?
    disse er helt unødvendige: du skal bare bruge et udskriftsark.
  • bruger du kommentar pagination?
    du skal bare deaktivere denne funktion (under Indstillinger ” diskussion) på 99% af siderne.
  • er dine parametre i en anden rækkefølge?
    Bed din programmør om at opbygge et script, så parametrene altid placeres i samme rækkefølge (dette kaldes ofte en URL-fabrik).
  • er der sporingslinksproblemer?
    i de fleste tilfælde kan du bruge hash-tagbaseret kampagnesporing i stedet for parameterbaseret kampagnesporing.
  • har du problemer med ikke-problemer?
    vælg en og hold dig til den ved at omdirigere den ene til den anden. Du kan også angive en præference i Google Tools, men du skal gøre krav på begge versioner af domænenavnet.

hvis dit problem ikke er så let løst, kan det stadig være værd at gøre en indsats. Målet bør være at forhindre, at duplikatindhold vises helt, fordi det er langt den bedste løsning på problemet.

301 omdirigering af duplikatindhold

i nogle tilfælde er det umuligt helt at forhindre det system, du bruger, i at oprette forkerte URL ‘ er til indhold, men nogle gange er det muligt at omdirigere dem. Hvis dette ikke er logisk for dig (som jeg kan forstå), skal du huske det, mens du taler med dine udviklere. Hvis du slippe af med nogle af de dublerede indholdsproblemer, skal du sørge for at omdirigere alle de gamle dublerede indholds URL ‘er til de korrekte kanoniske URL’ er.

brug af links

nogle gange vil du ikke eller kan ikke slippe af med en duplikatversion af en artikel, selv når du ved, at det er den forkerte URL. For at løse dette særlige problem har søgemaskinerne introduceret det kanoniske linkelement. Det er placeret i <hoved> sektionen på din side, og det ser sådan ud:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

i afsnittet href i det kanoniske link placerer du den korrekte kanoniske URL til din artikel. Når en søgemaskine, der understøtter canonical, finder dette linkelement, udfører det en blød 301-omdirigering, der overfører det meste af den linkværdi, der er samlet af den pågældende side, til din canonical-side.

denne proces er dog lidt langsommere end 301-omdirigeringen, så hvis du bare kan gøre en 301-omdirigering, ville det være at foretrække, som nævnt af Googles John Mueller.

Fortsæt læsning: rel=canonical * hvad det er, og hvordan (ikke) at bruge det “

at linke tilbage til det originale indhold

hvis du ikke kan gøre noget af ovenstående, muligvis fordi du ikke kontrollerer <head> sektionen på det sted, dit indhold vises på, er det altid en god ide at tilføje et link tilbage til den originale artikel oven på eller under artiklen. Du vil måske gøre dette i dit RSS-feed ved at tilføje et link tilbage til artiklen i det. Nogle skrabere vil filtrere det link ud, men andre kan lade det være i. Hvis Google støder på flere links, der peger på din originale artikel, vil den hurtigt finde ud af, at det er den faktiske kanoniske version.

konklusion: duplikatindhold kan rettes og bør rettes

Duplikatindhold sker overalt. Jeg har endnu ikke stødt på et sted på mere end 1.000 sider, der ikke har mindst et lille duplikatindholdsproblem. Det er noget, du konstant skal holde øje med, men det kan rettes, og belønningen kan være rigelig. Dit kvalitetsindhold kan svæve i placeringerne, bare ved at slippe af med duplikatindhold fra din side!

læs videre: Rel=canonical: den ultimative guide ”

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

More: