Joost de Valk je zakladatel a Chief Product Officer Yoast. Je to internetový podnikatel, který vedle založení Yoast investoval a radil několika startupům. Jeho hlavní odborností je vývoj softwaru s otevřeným zdrojovým kódem a digitální marketing.
vyhledávače jako Google mají problém-říká se tomu „duplicitní obsah“. Duplicitní obsah znamená, že podobný obsah se zobrazí na více místech (adresy Url) na webu, a jako výsledek vyhledávače nevím, který z URL ukázat ve výsledcích vyhledávání. To může poškodit hodnocení webové stránky a problém se zhorší pouze tehdy, když lidé začnou odkazovat na různé verze stejného obsahu. Tento článek vám pomůže pochopit různé příčiny duplicitního obsahu a najít řešení pro každou z nich.
- co je duplicitní obsah?
- vysvětleme si to na příkladu
- Příčiny duplicitní obsah
- Nedorozumění koncept URL
- Id Relace
- URL parametry použité pro sledování a třídění
- Škrabky a syndikace obsahu
- Pořadí parametrů
- Komentář stránkování
- tisk stránky
- WWW vs. non-WWW
- Koncepční řešení: ‚základní‘ URL
- Identifikace duplicitní obsah otázky,
- Praktické řešení pro duplicitní obsah
- Vyhnout se duplicitní obsah
- 301 Přesměrování duplicitní obsah
- Pomocí odkazů
- Spojující zpět na původní obsah
- Závěr: duplicitní obsah je opravitelný, a měla by být stanovena
- Co je duplicitní obsah?
- vysvětleme si to na příkladu
- příčiny duplicitního obsahu
- nepochopení konceptu adresy URL
- Id Relace
- URL parametry použité pro sledování a třídění
- škrabky a syndikace obsahu
- Pořadí parametrů
- stránkování komentářů
- tisk stránky
- WWW vs. non-WWW
- koncepční řešení: „kanonická“ adresa URL
- ironická boční poznámka
- Identifikace duplicitní obsah otázky,
- Praktické řešení pro duplicitní obsah
- Vyhnout se duplicitní obsah
- 301 Přesměrování duplicitní obsah
- Pomocí odkazů
- Spojující zpět na původní obsah
- závěr: duplicitní obsah je opravitelný a měl by být opraven
Co je duplicitní obsah?
duplicitní obsah je obsah, který je k dispozici na více adresách URL na webu. Protože více než jedna adresa URL zobrazuje stejný obsah, vyhledávače nevědí, kterou adresu URL mají ve výsledcích vyhledávání uvést výše. Proto mohou obě adresy URL řadit níže a upřednostňovat jiné webové stránky.
v tomto článku se zaměříme především na technické příčiny duplicitního obsahu a jejich řešení. Pokud byste chtěli získat širší pohled na duplicitní obsah a zjistit, jak to týká kopírovat nebo upravovat obsah, nebo dokonce klíčové slovo kanibalizmus, doporučujeme si přečíst tento příspěvek: Co je duplicitní obsah.
vysvětleme si to na příkladu
Duplicitní obsah může být přirovnáván k bytí na rozcestí, kde silnice znamení ukazují, že ve dvou různých směrech na stejné místo určení: Kterou cestou byste měli vzít? Aby toho nebylo málo, konečný cíl je také jiný, ale jen tak nepatrně. Jako čtenář, vám to nevadí, protože jste si obsah, který jste přišli, ale vyhledávač musí vybrat, které stránky zobrazovat ve výsledcích vyhledávání, protože, samozřejmě, to nechce zobrazit stejný obsah dvakrát.
řekněme, že váš článek o ‚klíčové slovo x‘ se zobrazí na a stejný obsah se objeví také na
. Tato situace není fiktivní: stává se to v mnoha moderních systémech správy obsahu. Pak řekněme, že váš článek byl vyzvednut několika blogery a někteří z nich odkazují na první adresu URL, zatímco jiní odkazují na druhou. To je, když problém vyhledávače ukazuje svou pravou povahu: je to váš problém. Duplicitní obsah je váš problém, protože tyto odkazy podporují různé adresy URL. Pokud by všechny odkazovaly na stejnou adresu URL, vaše šance na hodnocení „klíčového slova x“ by byly vyšší.
pokud nevíte, zda vaše hodnocení trpí problémy s duplicitním obsahem, tyto nástroje pro vyhledávání duplicitního obsahu vám pomohou zjistit!
příčiny duplicitního obsahu
existují desítky důvodů pro duplicitní obsah. Většina z nich je technická: není to příliš často, že se člověk rozhodne umístit stejný obsah na dvě různá místa, aniž by bylo jasné, který je originál. Pokud jste klonovali příspěvek a nezveřejnili jej náhodou. Ale jinak je to pro většinu z nás nepřirozené.
existuje však mnoho technických důvodů a většinou se to děje proto, že vývojáři nemyslí jako prohlížeč nebo dokonce uživatel, natož pavouk vyhledávače-myslí jako programátor – Vezměte si článek, který jsme zmínili dříve, který se objeví na a
. Pokud se zeptáte vývojáře, řeknou, že existuje pouze jednou.
nepochopení konceptu adresy URL
ne, že vývojář se nezbláznil, jen mluví jiným jazykem. CMS bude pravděpodobně napájet webové stránky a v této databázi je pouze jeden článek, ale software webových stránek umožňuje načíst stejný článek v databázi prostřednictvím několika adres URL. Je to proto, že v očích vývojáře je jedinečným identifikátorem tohoto článku ID, které má článek v databázi, nikoli adresa URL. Pro vyhledávač je však adresa URL jedinečným identifikátorem obsahu. Pokud to vysvětlíte vývojáři, začnou mít problém. A po přečtení tohoto článku, budete dokonce moci poskytnout jim řešení hned.
Id Relace
často chtějí sledovat vaše návštěvníky a umožnit jim, například, ukládat položky, které chcete koupit do nákupního košíku. Aby to bylo možné, musíte jim dát ‚ relaci.“Relace je stručná historie toho, co návštěvník udělal na vašem webu, a může obsahovat věci, jako jsou položky v nákupním košíku. Tvrdit, že relace jako návštěvník kliknutí z jedné stránky na další, jedinečný identifikátor pro danou relaci – tzv. Session ID – musí být uloženy někde. Nejběžnějším řešením je to udělat s cookies. Vyhledávače však obvykle neukládají soubory cookie.
v tomto okamžiku se některé systémy vrátí k použití ID relace v URL. To znamená, že každý interní odkaz na webu dostane toto ID relace přidané do své adresy URL, a protože toto ID relace je pro tuto relaci jedinečné, vytvoří novou adresu URL, a proto duplicitní obsah.
URL parametry použité pro sledování a třídění
Další příčinou je duplicitní obsah pomocí URL parametry, které nemění obsah stránky, například ve sledování vazeb. Vidíte, do vyhledávače, a
nejsou stejné URL. Ten vám může umožnit sledovat, z jakého zdroje lidé pocházejí, ale může to také ztížit hodnocení dobře – velmi nežádoucí vedlejší účinek!
to samozřejmě nejde jen o sledování parametrů. To platí pro každý parametr můžete přidat do URL to nic nemění na zásadní část obsahu, zda je parametr pro ‚změna řazení na sadu produktů“ nebo u „ukazuje další sidebar‘: všechny z nich způsobit duplicitní obsah.
škrabky a syndikace obsahu
většina důvodů duplicitního obsahu je buď „chyba“ vás nebo vašeho webu. Někdy však jiné webové stránky používají váš obsah, s vaším souhlasem nebo bez něj. Ne vždy odkazují na váš původní článek, a proto jej vyhledávač „nedostane“ a musí se vypořádat s další verzí stejného článku. Čím populárnější je váš web, tím více škrabek získáte, čímž se tento problém zvětšuje a zvětšuje.
Pořadí parametrů
Další častou příčinou je, že CMS nevyužívá pěkné čisté Url, ale spíše Url jako /?id=1&cat=2
, kde ID se vztahuje k článku a kočky se odkazuje na kategorii. URL /?cat=2&id=1
poskytne stejné výsledky ve většině webových systémů, ale pro vyhledávač jsou zcela odlišné.
stránkování komentářů
v mém milovaném WordPress, ale také v některých jiných systémech, existuje možnost stránkování vašich komentářů. To vede k duplikování obsahu v URL článku a URL článku + / comment-page-1/, / comment-page-2 / atd.
tisk stránky
Pokud je váš systém pro správu obsahu vytváří printer-friendly stránky a odkaz na ty z vašeho článku stránky, Google bude obvykle najít je, pokud jste výslovně zablokovat. Nyní se zeptejte sami sebe: kterou verzi Chcete Google zobrazit? Ten s reklamami a periferním obsahem, nebo ten, který zobrazuje pouze váš článek?
WWW vs. non-WWW
To je jeden z nejstarších v knize, ale někdy vyhledávačů stále si to špatně: WWW vs. non-WWW duplicitní obsah, když obě verze webu jsou přístupné. Další, méně častá situace, ale také jsem viděl, je HTTP vs. HTTPS duplicitní obsah, kde se stejný obsah podává přes oba.
koncepční řešení: „kanonická“ adresa URL
jak jsme již viděli, skutečnost, že několik adres URL vede ke stejnému obsahu, je problém, ale lze jej vyřešit. Jedna osoba, která pracuje na publikaci, bude obvykle schopen říct poměrně snadno, co je „správné“ adresy URL pro určitý článek by měl být, ale někdy, když se zeptáte tří lidí v rámci jedné společnosti, budete mít tři různé odpovědi…
to je problém, který potřebuje řešení, protože, nakonec, tam může být jen jeden (URL). Tato „správná“ adresa URL pro část obsahu je vyhledávači označována jako kanonická adresa URL.
ironická boční poznámka
kanonický je termín pocházející z římskokatolické tradice, kde byl vytvořen a přijat seznam posvátných knih jako pravý. Oni byli známí jako kanonická evangelia Nového zákona. Ironií je, že to trvalo Římsko-Katolická církev asi 300 let a mnoha bojích přijít s, že kanonický seznam, a oni nakonec vybrali čtyři verze příběhu…
Identifikace duplicitní obsah otázky,
možná nebudete vědět, zda máte problém duplicitní obsah na vašem webu nebo s vaším obsahem. Používání Google je jedním z nejjednodušších způsobů, jak rozpoznat duplicitní obsah.
existuje několik operátorů vyhledávání, které jsou v takových případech velmi užitečné. Pokud budete chtít najít všechny adresy Url vašeho webu, které obsahují klíčové slovo X článku, zadejte následující vyhledávací frázi do Google:
site:example.com intitle:"Keyword X"
Google pak zobrazí všechny stránky na example.com které obsahují toto klíčové slovo. Čím konkrétnější je část dotazu intitle
, tím snazší je odstranit duplicitní obsah. Stejnou metodou můžete identifikovat duplicitní obsah na webu. Řekněme, že celý název vašeho článku byl ‚Klíčové slovo X-proč je to úžasné‘, byste hledat:
intitle:"Keyword X - why it is awesome"
a Google vám dá všechny weby, které odpovídají tomuto názvu. Někdy stojí za to dokonce hledat jednu nebo dvě úplné věty z vašeho článku, protože některé škrabky mohou změnit název. V některých případech, když provedete takové vyhledávání, Google může zobrazit takové oznámení na poslední stránce výsledků:
to je známka toho, že Google již výsledky „de-duplikuje“. Stále to není dobré, takže stojí za to kliknout na odkaz a podívat se na všechny ostatní výsledky, abyste zjistili, zda můžete některé z nich opravit.
Přečtěte si více: DIY: duplicitní obsah, zkontrolujte, zda „
Praktické řešení pro duplicitní obsah
Jakmile jste se rozhodli, která URL je kanonické URL pro váš kus obsahu, budete muset začít proces kanonizace (jo, já vím, zkus to říct třikrát nahlas, rychle). To znamená, že musíme vyhledávačům říci o kanonické verzi stránky a nechat je najít co nejdříve. Existují čtyři metody řešení problému, v pořadí preference:
- Nevytvářet duplicitní obsah
- Přesměrování duplicitní obsah na canonical URL
- Přidání kanonický link prvek na duplicitní stránku
- Přidání HTML odkaz z duplicitní stránky na kanonickou stránku
Vyhnout se duplicitní obsah
Některé z výše uvedených příčin za duplicitní obsah byly velmi jednoduché opravy, k nim:
- Jsou tam Session ID v Url?
ty mohou být často zakázány v nastavení vašeho systému. - máte duplicitní stránky přátelské k tiskárnám?
jsou zcela zbytečné: měli byste použít pouze list stylu tisku. - používáte stránkování komentářů ve WordPressu?
tuto funkci byste měli zakázat (v části Nastavení “ diskuse) na 99% webů. - jsou vaše parametry v jiném pořadí?
řekněte programátorovi, aby sestavil skript, aby vždy zadával parametry ve stejném pořadí (toto je často označováno jako továrna URL). - existují problémy se sledováním odkazů?
ve většině případů můžete použít sledování kampaně založené na hash tagu místo sledování kampaně založené na parametrech. - máte problémy s WWW vs. non-WWW?
vyberte jeden a držte se ho přesměrováním na druhý. Předvolby můžete také nastavit v Nástrojích pro webmastery Google, ale budete muset nárokovat obě verze názvu domény.
pokud váš problém není tak snadno vyřešen, může být stále užitečné vynaložit úsilí. Cílem by mělo být zabránit tomu, aby se duplicitní obsah objevil úplně, protože je to zdaleka nejlepší řešení problému.
301 Přesměrování duplicitní obsah
V některých případech, to je nemožné zcela zabránit systém, který používáte z vytváří špatné adresy Url pro obsah, ale někdy je možné jejich přesměrování. Pokud to pro vás není logické (což chápu), mějte na paměti, když mluvíte se svými vývojáři. Pokud se zbavíte některých problémů s duplicitním obsahem, ujistěte se, že přesměrujete všechny staré duplicitní adresy URL obsahu na správné kanonické adresy URL.
Pomocí odkazů
Někdy nechcete nebo nemůžete zbavit duplicitní verze článku, i když víte, že je to špatné URL. K vyřešení tohoto konkrétního problému zavedly vyhledávače prvek kanonického odkazu. Je umístěn v sekci <head> vašeho webu a vypadá to takto:
<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />
v sekci href
kanonického odkazu umístíte správnou kanonickou adresu URL pro svůj článek. Když vyhledávač, který podporuje canonical najde tento odkaz prvek, provede měkký 301 redirect, přenos většinu odkaz hodnoty získané z této stránky svou kanonickou stránku.
tento proces je o něco pomalejší než přesměrování 301, takže pokud můžete udělat přesměrování 301, které by bylo vhodnější, jak uvedl John Mueller společnosti Google.
Pokračujte ve čtení: rel=canonical • Co to je a jak (ne) používat „
Spojující zpět na původní obsah
Pokud nemůžete dělat žádné z výše uvedených, možná proto, že nemáte kontrolu <hlava> sekce webu, váš obsah se zobrazí na přidání odkazu zpět na původní článek na vrcholu, nebo pod článkem je vždycky dobrý nápad. Možná to budete chtít udělat ve svém kanálu RSS přidáním odkazu zpět do článku v něm. Některé škrabky filtrují tento odkaz, ale jiní to mohou nechat. Pokud Google narazí na několik odkazů směřujících na váš původní článek, brzy zjistí, že se jedná o skutečnou kanonickou verzi.
závěr: duplicitní obsah je opravitelný a měl by být opraven
duplicitní obsah se děje všude. Ještě musím narazit na stránky více než 1000 stránek, které nemá alespoň malé duplicitní obsah problému. Je to něco, na co musíte neustále dávat pozor, ale je to opravitelné a odměny mohou být hojné. Váš kvalitní obsah by mohl stoupat v žebříčku, jen tím, že se zbavíte duplicitního obsahu z vašeho webu!
číst dál: Rel=canonical: the ultimate guide “