Duplicate content: causes and solutions

Joost de Valk

Joost de Valk jest założycielem i dyrektorem ds. Jest przedsiębiorcą internetowym, który obok założenia Yoast zainwestował i doradzał kilku startupom. Specjalizuje się w tworzeniu oprogramowania open source i marketingu cyfrowym.

wyszukiwarki takie jak Google mają problem – nazywa się to „duplicate content”. Zduplikowana zawartość oznacza, że podobna zawartość pojawia się w wielu lokalizacjach (adresach URL) w Internecie, a w rezultacie Wyszukiwarki nie wiedzą, który adres URL ma być wyświetlany w wynikach wyszukiwania. Może to zaszkodzić rankingowi strony internetowej, a problem pogarsza się tylko wtedy, gdy ludzie zaczną łączyć się z różnymi wersjami tej samej treści. Ten artykuł pomoże Ci zrozumieć różne przyczyny duplikatów treści i znaleźć rozwiązanie dla każdego z nich.

co to jest duplikat treści?
- zilustrujmy to przykładem
przyczyny duplikowania treści
- niezrozumienie pojęcia URL
- identyfikatory sesji
- parametry URL używane do śledzenia i sortowania
- skrobaki i syndykacja treści
- kolejność parametrów
- paginacja komentarzy
- strony przyjazne do druku
- WWW vs. non-www
rozwiązanie koncepcyjne: „kanoniczny” URL
identyfikowanie duplikatów treści problemy
praktyczne rozwiązania dla duplikatów treści
- unikanie duplikatów treści
- 301 przekierowywanie duplikatów treści
- za pomocą linków
- łączenie z powrotem do oryginalnej treści
wniosek: duplicate content is fixable, and should be fixed

co to jest duplicate content?
zilustrujmy to na przykładzie
przyczyny duplikatów treści
niezrozumienie pojęcia URL
identyfikatory sesji
parametry URL używane do śledzenia i sortowania
Scrapers and content syndication
kolejność parametrów
komentuj paginację
strony przyjazne dla drukarek
WWW vs. non-WWW
rozwiązanie koncepcyjne: „kanoniczny” URL
identyfikowanie duplikatów treści problemów
praktyczne rozwiązania dla duplikatów treści
unikanie zduplikowanej treści
301 przekierowanie zduplikowanej zawartości
używając linków
łączenie z powrotem do oryginalnej treści
wniosek: duplikat zawartości można naprawić i powinien zostać naprawiony

co to jest duplicate content?

Duplicate content to zawartość dostępna na wielu adresach URL w Internecie. Ponieważ więcej niż jeden adres URL pokazuje tę samą zawartość, Wyszukiwarki nie wiedzą, który adres URL ma być wyświetlany wyżej w wynikach wyszukiwania. Dlatego mogą one pozycjonować oba adresy URL niżej i dawać pierwszeństwo innym stronom internetowym.

w tym artykule skupimy się głównie na technicznych przyczynach duplikatów treści i ich rozwiązaniach. Jeśli chcesz uzyskać szerszą perspektywę na zduplikowaną treść i dowiedzieć się, jak odnosi się ona do skopiowanej lub zeskrobanej treści, a nawet kanibalizacji słów kluczowych, radzimy przeczytać ten post: co to jest duplicate content.

zilustrujmy to na przykładzie

duplikat treści można porównać do bycia na skrzyżowaniu, gdzie znaki drogowe wskazują w dwóch różnych kierunkach dla tego samego celu: którą drogą powinieneś jechać? Co gorsza, miejsce docelowe również jest inne, ale tylko nieznacznie. Jako czytelnik nie masz nic przeciwko, ponieważ dostajesz treści, po które przyszedłeś, ale wyszukiwarka musi wybrać stronę, która ma być wyświetlana w wynikach wyszukiwania, ponieważ oczywiście nie chce dwukrotnie wyświetlać tej samej treści.

powiedzmy, że Twój artykuł o „słowie kluczowym x” pojawia się w , a ta sama treść pojawia się również w . Ta sytuacja nie jest fikcyjna: dzieje się to w wielu nowoczesnych systemach zarządzania treścią. Załóżmy, że Twój artykuł został podchwycony przez kilku blogerów, a niektóre z nich linkują do pierwszego adresu URL, podczas gdy inne linkują do drugiego. To jest, gdy problem Wyszukiwarki pokazuje swoją prawdziwą naturę: to twój problem. Duplikat treści jest Twoim problemem, ponieważ te linki promują różne adresy URL. Gdyby wszystkie linkowały do tego samego adresu URL, Twoje szanse na ranking dla „słowa kluczowego x” byłyby wyższe.

jeśli nie wiesz, czy Twoje rankingi cierpią z powodu duplikatów treści, te narzędzia do wyszukiwania duplikatów pomogą Ci się tego dowiedzieć!

przyczyny duplikatów treści

istnieje dziesiątki powodów duplikatów treści. Większość z nich ma charakter techniczny: nie bardzo często człowiek decyduje się umieścić tę samą treść w dwóch różnych miejscach, nie wyjaśniając, która jest oryginalna. Chyba że sklonowałeś post i opublikowałeś go przez przypadek. Ale poza tym, to wydaje się nienaturalne dla większości z nas.

powodów technicznych jest jednak wiele i najczęściej dzieje się tak dlatego, że programiści nie myślą jak przeglądarka, a nawet użytkownik, a co dopiero pająk Wyszukiwarki – myślą jak programista. Weźmy ten artykuł, o którym wspomnieliśmy wcześniej, który pojawia się na i . Jeśli zapytasz dewelopera, powie, że istnieje tylko raz.

niezrozumienie pojęcia URL

Nie, Ten programista nie oszalał, oni po prostu mówią innym językiem. CMS prawdopodobnie zasili witrynę, a w tej bazie danych jest tylko jeden artykuł, ale oprogramowanie witryny pozwala na pobranie tego samego artykułu w bazie danych za pomocą kilku adresów URL. To dlatego, że w oczach programisty unikalnym identyfikatorem dla tego artykułu jest identyfikator, który artykuł ma w bazie danych, a nie Adres URL. Ale dla wyszukiwarki adres URL jest unikalnym identyfikatorem dla fragmentu treści. Jeśli wyjaśnisz to deweloperowi, zaczną odczuwać problem. A po przeczytaniu tego artykułu, będziesz nawet w stanie zapewnić im rozwiązanie od razu.

identyfikatory sesji

często chcesz śledzić odwiedzających i pozwalać im na przykład na przechowywanie przedmiotów, które chcą kupić w Koszyku. Aby to zrobić, trzeba dać im ’ sesji.”Sesja to krótka historia tego, co użytkownik zrobił w Twojej witrynie i może zawierać rzeczy takie jak przedmioty w Koszyku. Aby utrzymać tę sesję, gdy odwiedzający kliknie z jednej strony na drugą, unikalny identyfikator tej sesji – zwany identyfikatorem sesji – musi być gdzieś przechowywany. Najczęstszym rozwiązaniem jest użycie plików cookie. Jednak Wyszukiwarki zazwyczaj nie przechowują plików cookie.

w tym momencie niektóre systemy powracają do używania identyfikatorów sesji w adresie URL. Oznacza to, że każdy wewnętrzny link w witrynie otrzymuje identyfikator sesji dodany do adresu URL, a ponieważ identyfikator sesji jest unikalny dla tej sesji, tworzy nowy adres URL, a tym samym zduplikowaną zawartość.

parametry URL używane do śledzenia i sortowania

inną przyczyną duplikatów treści jest użycie parametrów URL, które nie zmieniają zawartości strony, na przykład w linkach śledzących. Widzisz, do wyszukiwarki, i nie są tym samym adresem URL. To ostatnie może pozwolić ci śledzić, z jakiego źródła pochodzą ludzie, ale może również utrudnić Ci dobrą rangę-bardzo niepożądany efekt uboczny!

to oczywiście nie chodzi tylko o parametry śledzenia. Dotyczy to każdego parametru, który możesz dodać do adresu URL, który nie zmienia istotnej treści, niezależnie od tego, czy parametr ten służy do „zmiany sortowania na zestawie produktów”, czy do „wyświetlania innego paska bocznego”: wszystkie powodują duplikację treści.

Scrapers and content syndication

Większość powodów duplikowania treści to „wina” Ciebie lub Twojej witryny. Czasami jednak inne strony internetowe wykorzystują Twoje treści, za twoją zgodą lub bez niej. Nie zawsze linkują do oryginalnego artykułu, a zatem wyszukiwarka go nie „dostaje” I musi radzić sobie z kolejną wersją tego samego artykułu. Im bardziej popularna staje się Twoja strona, tym więcej skrobaków otrzymasz, dzięki czemu ten problem staje się coraz większy.

kolejność parametrów

Inną częstą przyczyną jest to, że CMS nie używa ładnych czystych adresów URL, ale raczej adresy URL takie jak /?id=1&cat=2, gdzie ID odnosi się do artykułu, a cat odnosi się do kategorii. URL /?cat=2&id=1 będzie renderował te same wyniki w większości systemów internetowych, ale są one zupełnie inne dla wyszukiwarki.

komentuj paginację

w moim ukochanym WordPressie, ale także w niektórych innych systemach, istnieje możliwość paginowania swoich komentarzy. Prowadzi to do powielania treści w całym adresie URL artykułu i adresie URL artykułu + / comment-page-1/, / comment-page-2 / itd.

strony przyjazne dla drukarek

Jeśli Twój system zarządzania treścią tworzy strony przyjazne dla drukarek i łączysz je ze stronami artykułów, Google Zwykle je znajdzie, chyba że specjalnie je zablokujesz. Teraz zadaj sobie pytanie: którą wersję chcesz pokazać Google? Ten z Twoimi reklamami i treściami peryferyjnymi, czy ten, który pokazuje tylko twój artykuł?

WWW vs. non-WWW

jest to jedna z najstarszych w książce, ale czasami wyszukiwarki nadal się mylą: www vs.non-WWW duplikat treści, gdy obie wersje witryny są dostępne. Inną, mniej powszechną sytuacją, ale jedną, którą również widziałem, jest duplikat HTTP vs.HTTPS, gdzie ta sama treść jest serwowana na obu.

rozwiązanie koncepcyjne: „kanoniczny” URL

jak już widzieliśmy, fakt, że kilka adresów URL prowadzi do tej samej treści, jest problemem, ale można go rozwiązać. Jedna osoba, która pracuje w publikacji, zwykle będzie w stanie powiedzieć ci dość łatwo, jaki powinien być „poprawny” adres URL dla danego artykułu, ale czasami, gdy zapytasz trzy osoby w tej samej firmie, otrzymasz trzy różne odpowiedzi…

to problem, który wymaga rozwiązania, ponieważ w końcu może być tylko jeden (URL). Ten „poprawny” adres URL dla fragmentu treści jest określany przez wyszukiwarki jako kanoniczny adres URL.

kanoniczny to termin wywodzący się z tradycji rzymskokatolickiej, w którym powstała lista świętych ksiąg i przyjęta jako prawdziwa. Znane były jako Ewangelie kanoniczne Nowego Testamentu. Ironią jest to, że zajęło Kościołowi Rzymskokatolickiemu około 300 lat i liczne walki, aby wymyślić tę kanoniczną listę, i ostatecznie wybrali cztery wersje tej samej historii…

identyfikowanie duplikatów treści problemów

możesz nie wiedzieć, czy masz duplikat treści problem na swojej stronie lub z treścią. Korzystanie z Google jest jednym z najprostszych sposobów na wykrycie duplikatów treści.

istnieje kilka operatorów wyszukiwania, które są bardzo pomocne w takich przypadkach. Jeśli chcesz znaleźć wszystkie adresy URL w swojej witrynie, które zawierają słowo kluczowe x artykuł, wpisz następującą frazę wyszukiwania w Google:

site:example.com intitle:"Keyword X"

Google pokaże ci wtedy wszystkie strony na example.com które zawierają to słowo kluczowe. Im bardziej szczegółowo określisz tę intitle część zapytania, tym łatwiej będzie pozbyć się zduplikowanej zawartości. Możesz użyć tej samej metody do identyfikacji zduplikowanych treści w Internecie. Załóżmy, że pełny tytuł artykułu brzmiał „słowo kluczowe X-dlaczego jest niesamowity”, szukałbyś:

intitle:"Keyword X - why it is awesome"

a Google da Ci wszystkie strony, które pasują do tego tytułu. Czasami warto nawet poszukać jednego lub dwóch pełnych zdań z artykułu, ponieważ niektóre skrobaki mogą zmienić tytuł. W niektórych przypadkach, gdy wykonasz takie wyszukiwanie, Google może wyświetlić takie powiadomienie na ostatniej stronie wyników:

to znak, że Google już „de-duping” wyniki. Nadal nie jest dobrze, więc warto kliknąć link i przejrzeć wszystkie inne wyniki, aby zobaczyć, czy można naprawić niektóre z nich.

Czytaj więcej: DIY: duplicate content check ”

praktyczne rozwiązania dla duplikatów treści

gdy już zdecydujesz, który adres URL jest kanonicznym adresem URL Twojej treści, musisz rozpocząć proces kanoniczności (tak wiem, spróbuj powiedzieć to trzy razy głośno szybko). Oznacza to, że musimy poinformować Wyszukiwarki o kanonicznej wersji strony i pozwolić im ją znaleźć JAK NAJSZYBCIEJ. Istnieją cztery metody rozwiązania problemu, w kolejności preferencji:

Nie tworzenie zduplikowanej treści
przekierowywanie zduplikowanej treści do kanonicznego adresu URL
dodawanie kanonicznego łącza do zduplikowanej strony
dodawanie linku HTML z zduplikowanej strony do strony kanonicznej

unikanie zduplikowanej treści

niektóre z powyższych przyczyn duplikatu treści mają bardzo proste poprawki:

czy w Twoich adresach URL są identyfikatory sesji?
często można je wyłączyć w ustawieniach systemu.
masz duplikaty stron przyjaznych do druku?
są one całkowicie niepotrzebne: powinieneś po prostu użyć arkusza stylów drukowania.
używasz paginacji komentarzy w WordPress?
powinieneś po prostu wyłączyć tę funkcję (w Ustawieniach ” dyskusja) na 99% witryn.
czy twoje parametry są w innej kolejności?
powiedz swojemu programiście, aby zbudował skrypt, aby zawsze umieszczał parametry w tej samej kolejności (jest to często określane jako fabryka adresów URL).
czy są problemy ze śledzeniem linków?
w większości przypadków możesz użyć śledzenia kampanii opartego na hash tagach zamiast śledzenia kampanii opartego na parametrach.
masz problemy z WWW vs. non-WWW?
Wybierz jedną i trzymaj się jej, przekierowując jedną na drugą. Możesz także ustawić preferencje w Narzędziach dla webmasterów Google, ale będziesz musiał odebrać obie wersje nazwy domeny.

jeśli twój problem nie jest tak łatwo rozwiązany, może nadal warto włożyć w to wysiłek. Celem powinno być całkowite zapobieganie pojawianiu się duplikatów treści, ponieważ jest to zdecydowanie najlepsze rozwiązanie problemu.

301 przekierowanie zduplikowanej zawartości

w niektórych przypadkach niemożliwe jest całkowite uniemożliwienie systemowi, którego używasz, tworzenia nieprawidłowych adresów URL dla treści, ale czasami możliwe jest ich przekierowanie. Jeśli nie jest to dla Ciebie logiczne (co rozumiem), pamiętaj o tym podczas rozmowy z programistami. Jeśli pozbędziesz się niektórych duplikatów treści, upewnij się, że przekierowałeś wszystkie stare duplikaty adresów URL do odpowiednich kanonicznych adresów URL.

używając linków

czasami nie chcesz lub nie możesz pozbyć się duplikatu wersji artykułu, nawet jeśli wiesz, że jest to zły adres URL. Aby rozwiązać ten konkretny problem, Wyszukiwarki wprowadziły kanoniczny element łącza. Jest umieszczony w sekcji < head> Twojej witryny i wygląda tak:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

w sekcji href linku kanonicznego umieszczasz prawidłowy kanoniczny adres URL swojego artykułu. Gdy wyszukiwarka obsługująca canonical znajdzie ten element łącza, wykonuje miękkie przekierowanie 301, przenosząc większość wartości łącza zebranego przez tę stronę na stronę kanoniczną.

ten proces jest nieco wolniejszy niż przekierowanie 301, więc jeśli możesz po prostu zrobić przekierowanie 301, byłoby lepiej, jak wspomniał John Mueller Google.

Czytaj dalej: rel = canonical • co to jest i jak (nie) go używać „

łączenie z powrotem do oryginalnej treści

jeśli nie możesz wykonać żadnej z powyższych czynności, prawdopodobnie dlatego, że nie kontrolujesz sekcji <head> strony, na której pojawia się twoja zawartość, dodanie linku do oryginalnego artykułu na górze lub pod artykułem jest zawsze dobrym pomysłem. Możesz to zrobić w swoim kanale RSS, dodając link do artykułu w nim. Niektóre skrobaki będą filtrować to połączenie, ale inne mogą je pozostawić. Jeśli Google napotka kilka linków wskazujących na oryginalny artykuł, wkrótce okaże się, że jest to rzeczywista wersja kanoniczna.

wniosek: duplikat zawartości można naprawić i powinien zostać naprawiony

duplikat zawartości dzieje się wszędzie. Nie spotkałem się jeszcze z witryną zawierającą więcej niż strony 1,000, która nie ma co najmniej małego problemu z duplikatem treści. Jest to coś, na co musisz stale mieć oko, ale jest to możliwe do naprawienia, a nagrody mogą być obfite. Twoja jakość treści może wzrosnąć w rankingach, po prostu pozbywając się duplikatów treści ze swojej witryny!

Czytaj dalej: rel=canonical: the ultimate guide ”

co to jest duplicate content?

zilustrujmy to na przykładzie

przyczyny duplikatów treści

niezrozumienie pojęcia URL

identyfikatory sesji

parametry URL używane do śledzenia i sortowania

Scrapers and content syndication

kolejność parametrów

komentuj paginację

strony przyjazne dla drukarek

WWW vs. non-WWW

rozwiązanie koncepcyjne: „kanoniczny” URL

identyfikowanie duplikatów treści problemów

praktyczne rozwiązania dla duplikatów treści

unikanie zduplikowanej treści

301 przekierowanie zduplikowanej zawartości

używając linków

łączenie z powrotem do oryginalnej treści

wniosek: duplikat zawartości można naprawić i powinien zostać naprawiony

Dodaj komentarz Anuluj pisanie odpowiedzi

Prosty orientalny Azjatycki Sałatka z kapusty przepis

dziennikarze Yankee Tv, reporterzy i prezenterzy wiadomości

Duplicate content: Causes and solutions

co to jest duplicate content?

zilustrujmy to na przykładzie

przyczyny duplikatów treści

niezrozumienie pojęcia URL

identyfikatory sesji

parametry URL używane do śledzenia i sortowania

Scrapers and content syndication

kolejność parametrów

komentuj paginację

strony przyjazne dla drukarek

WWW vs. non-WWW

rozwiązanie koncepcyjne: „kanoniczny” URL

identyfikowanie duplikatów treści problemów

praktyczne rozwiązania dla duplikatów treści

unikanie zduplikowanej treści

301 przekierowanie zduplikowanej zawartości

używając linków

łączenie z powrotem do oryginalnej treści

wniosek: duplikat zawartości można naprawić i powinien zostać naprawiony

Dodaj komentarz Anuluj pisanie odpowiedzi

More:

Prosty orientalny Azjatycki Sałatka z kapusty przepis

dziennikarze Yankee Tv, reporterzy i prezenterzy wiadomości