conținut duplicat: cauze și soluții

Joost De Valk

Joost De Valk este fondatorul și directorul de produs al Yoast. Este un antreprenor de internet, care, alături de fondarea Yoast, a investit și a sfătuit mai multe startup-uri. Expertiza sa principală este dezvoltarea de software open source și marketingul digital.

motoarele de căutare precum Google au o problemă-se numește conținut duplicat. Conținutul duplicat înseamnă că un conținut similar apare în mai multe locații (URL-uri) de pe web și, prin urmare, motoarele de căutare nu știu ce URL să afișeze în rezultatele căutării. Acest lucru poate afecta clasamentul unei pagini web, iar problema se agravează doar atunci când oamenii încep să se conecteze la diferite versiuni ale aceluiași conținut. Acest articol vă va ajuta să înțelegeți diferitele cauze ale conținutului duplicat și să găsiți soluția pentru fiecare dintre ele.

  • ce este conținutul duplicat?
    • să ilustrăm acest lucru cu un exemplu
  • cauzele de conținut duplicat
    • neînțelegere conceptul de un URL
    • ID-uri de sesiune
    • parametrii URL utilizate pentru urmărirea și sortarea
    • raclete și conținut sindicalizare
    • ordinea parametrilor
    • comentariu paginare
    • imprimanta-friendly pagini
    • WWW vs. non-www
  • soluție conceptuală: o adresă URL ‘canonică’
  • identificarea problemelor legate de conținutul duplicat
  • soluții practice pentru conținutul duplicat
    • evitarea conținutului duplicat
    • 301 redirecționarea conținutului duplicat
    • utilizarea linkurilor
    • conectarea înapoi la conținutul original
  • concluzie: conținutul duplicat este fixabil și trebuie fixat

ce este conținutul duplicat?

conținutul duplicat este conținut care este disponibil pe Mai multe adrese URL de pe web. Deoarece mai multe adrese URL afișează același conținut, motoarele de căutare nu știu ce adresă URL să listeze mai sus în rezultatele căutării. Prin urmare, acestea ar putea rang ambele URL-uri mai mici și să dea preferință la alte pagini web.

în acest articol, ne vom concentra mai ales pe cauzele tehnice ale conținutului duplicat și soluțiile acestora. Dacă doriți să obțineți o perspectivă mai largă asupra conținutului duplicat și să aflați cum se referă la conținutul copiat sau răzuit sau chiar la canibalizarea cuvintelor cheie, vă sfătuim să citiți această postare: ce este conținutul duplicat.

să ilustrăm acest lucru cu un exemplu

conținutul duplicat poate fi asemănat cu a fi la o răscruce de drumuri unde indicatoarele rutiere indică în două direcții diferite pentru aceeași destinație: ce drum ar trebui să luați? Pentru a înrăutăți lucrurile, destinația finală este diferită, dar numai atât de ușor. În calitate de cititor, nu vă deranjează pentru că obțineți conținutul pentru care ați venit, dar un motor de căutare trebuie să aleagă ce pagină să afișeze în rezultatele căutării, deoarece, desigur, nu dorește să afișeze același conținut de două ori.

să presupunem că articolul dvs. despre cuvântul cheie X apare la și același conținut apare și la . Această situație nu este fictivă: se întâmplă în multe sisteme moderne de gestionare a conținutului. Apoi, să presupunem că articolul dvs. a fost preluat de mai mulți bloggeri, iar unii dintre ei se leagă de prima adresă URL, în timp ce alții se leagă de al doilea. Acesta este momentul în care problema motorului de căutare își arată adevărata natură: este problema ta. Conținutul duplicat este problema dvs., deoarece aceste linkuri promovează ambele adrese URL diferite. Dacă toate se leagă de aceeași adresă URL, șansele dvs. de a vă clasifica pentru cuvântul cheie X ar fi mai mari.

dacă nu știți dacă clasamentele dvs. suferă de probleme de conținut duplicat, aceste instrumente de descoperire a conținutului duplicat vă vor ajuta să aflați!

cauzele conținutului duplicat

există zeci de motive pentru conținutul duplicat. Cele mai multe dintre ele sunt tehnice: nu este foarte des ca un om să decidă să pună același conținut în două locuri diferite fără a clarifica care este originalul. Cu excepția cazului în care ați clonat o postare și ați publicat-o accidental, desigur. Dar altfel, se simte nefiresc pentru majoritatea dintre noi.

există multe motive tehnice, deși și se întâmplă mai ales pentru că dezvoltatorii nu cred ca un browser sau chiar un utilizator, să nu mai vorbim un motor de căutare spider – ei cred ca un programator. Luați articolul menționat mai devreme, care apare pe și . Dacă întrebați dezvoltatorul, ei vor spune că există o singură dată.

neînțelegerea conceptului de URL

nu, acel dezvoltator nu a înnebunit, ei vorbesc doar o altă limbă. Un CMS va alimenta probabil site-ul web, iar în acea bază de date există un singur articol, dar software-ul site-ului permite doar ca același articol din Baza de date să fie recuperat prin mai multe adrese URL. Asta pentru că, în ochii dezvoltatorului, identificatorul unic pentru acel articol este ID-ul pe care articolul îl are în baza de date, nu adresa URL. Dar pentru motorul de căutare, adresa URL este identificatorul unic pentru o bucată de conținut. Dacă explicați că la un dezvoltator, ei vor începe pentru a obține problema. Și după ce ați citit acest articol, veți putea chiar să le oferiți o soluție imediat.

ID-uri de sesiune

deseori doriți să urmăriți vizitatorii și să le permiteți, de exemplu, să stocheze articolele pe care doresc să le cumpere într-un coș de cumpărături. Pentru a face acest lucru, trebuie să le dea o ‘sesiune. O sesiune este o scurtă istorie a ceea ce a făcut vizitatorul pe site-ul dvs. și poate conține lucruri precum articolele din coșul de cumpărături. Pentru a menține acea sesiune pe măsură ce un vizitator face clic de la o pagină la alta, identificatorul unic pentru acea sesiune – numit ID – ul sesiunii-trebuie să fie stocat undeva. Cea mai comună soluție este de a face acest lucru cu cookie-uri. Cu toate acestea, motoarele de căutare nu stochează de obicei cookie-uri.

în acel moment, unele sisteme revin la utilizarea ID-urilor de sesiune în URL. Aceasta înseamnă că fiecare legătură internă de pe site-ul web primește acel ID de sesiune adăugat la adresa URL și, deoarece acel ID de sesiune este unic pentru acea sesiune, creează o nouă adresă URL și, prin urmare, conținut duplicat.

parametrii URL utilizați pentru urmărirea și sortarea

o altă cauză a conținutului duplicat este utilizarea parametrilor URL care nu modifică conținutul unei pagini, de exemplu în urmărirea legăturilor. Vedeți, pentru un motor de căutare, și nu sunt aceeași adresă URL. Acesta din urmă vă poate permite să urmăriți din ce sursă provin oamenii, dar ar putea, de asemenea, să vă îngreuneze să vă clasificați bine – foarte mult un efect secundar nedorit!

acest lucru nu merge doar pentru parametrii de urmărire, desigur. Este valabil pentru fiecare parametru pe care îl puteți adăuga la o adresă URL care nu modifică conținutul vital, indiferent dacă parametrul respectiv este pentru ‘schimbarea sortării pe un set de produse’ sau pentru ‘afișarea unei alte sidebar’: toate provoacă conținut duplicat.

raclete și sindicalizarea conținutului

majoritatea motivelor pentru conținutul duplicat sunt fie vina dvs., fie a site-ului dvs. web. Cu toate acestea, uneori, alte site-uri web utilizează conținutul dvs., cu sau fără consimțământul dvs. Ei nu se leagă întotdeauna la articolul original, și, prin urmare, motorul de căutare nu ‘get’ ea și are de a face cu încă o altă versiune a aceluiași articol. Cu cât site-ul dvs. devine mai popular, cu atât veți obține mai multe răzuitoare, făcând această problemă din ce în ce mai mare.

ordinea parametrilor

o altă cauză comună este că un CMS nu folosește URL-uri curate, ci mai degrabă URL-uri precum /?id=1&cat=2, unde ID se referă la articol și cat se referă la categorie. URL-ul /?cat=2&id=1 va avea aceleași rezultate în majoritatea sistemelor de site-uri web, dar acestea sunt complet diferite pentru un motor de căutare.

comentariu paginare

în WordPress meu iubit, dar, de asemenea, în unele alte sisteme, există o opțiune de a pagina comentariile tale. Acest lucru duce la duplicarea conținutului în adresa URL a articolului și la adresa URL a articolului + / comment-page-1/,/ comment-page-2 / etc.

pagini compatibile cu imprimanta

dacă sistemul dvs. de gestionare a conținutului creează pagini compatibile cu imprimanta și vă conectați la cele din paginile dvs. de articole, Google le va găsi de obicei, cu excepția cazului în care le blocați în mod specific. Acum, întrebați-vă: ce versiune doriți să arate Google? Cel cu anunțurile și conținutul periferic sau cel care vă arată doar articolul?

WWW vs.non-WWW

acesta este unul dintre cele mai vechi din carte, dar uneori motoarele de căutare încă greșesc: conținut duplicat WWW vs. non-WWW, când ambele versiuni ale site-ului dvs. sunt accesibile. O altă situație mai puțin obișnuită, dar una pe care am văzut-o și eu este HTTP vs.HTTPS conținut duplicat, unde același conținut este servit peste ambele.

soluție conceptuală: un URL canonic

după cum am văzut deja, faptul că mai multe URL-uri duc la același conținut este o problemă, dar poate fi rezolvată. O persoană care lucrează la o publicație va putea în mod normal să vă spună destul de ușor care ar trebui să fie adresa URL corectă pentru un anumit articol, dar uneori când întrebați trei persoane din cadrul aceleiași companii, veți primi trei răspunsuri diferite…

aceasta este o problemă care trebuie abordată, deoarece, în cele din urmă, nu poate exista decât un singur (URL). URL-ul corect pentru o bucată de conținut este denumit URL canonic de către motoarele de căutare.

notă ironică

canonic este un termen care provine din tradiția romano-catolică, unde o listă de cărți sacre a fost creată și acceptată ca autentică. Ele erau cunoscute sub numele de Evangheliile canonice ale Noului Testament. Ironia este că Biserica Romano-Catolică a avut nevoie de aproximativ 300 de ani și numeroase lupte pentru a veni cu această listă canonică și, în cele din urmă, au ales patru versiuni ale aceleiași povești…

identificarea problemelor de conținut duplicat

s-ar putea să nu știți dacă aveți o problemă de conținut duplicat pe site-ul dvs. sau cu conținutul dvs. Utilizarea Google este una dintre cele mai simple modalități de a identifica conținutul duplicat.

există mai mulți operatori de căutare care sunt foarte utile în cazuri ca acestea. Dacă doriți să găsiți toate adresele URL de pe site-ul dvs. care conțin cuvântul cheie X articol, introduceți următoarea frază de căutare în Google:

site:example.com intitle:"Keyword X"

Google vă va arăta apoi toate paginile de pe example.com care conțin acel cuvânt cheie. Cu cât faceți mai specific acea parte intitle a interogării, cu atât este mai ușor să eliminați conținutul duplicat. Puteți utiliza aceeași metodă pentru a identifica conținutul duplicat pe web. Să presupunem că titlul complet al articolului dvs. a fost ‘cuvântul cheie X-de ce este minunat’ ,ați căuta:

intitle:"Keyword X - why it is awesome"

și Google vă va oferi toate site-urile care se potrivesc cu acest titlu. Uneori merită chiar să căutați una sau două propoziții complete din articolul dvs., deoarece unele răzuitoare ar putea schimba titlul. În unele cazuri, atunci când efectuați o astfel de căutare, Google ar putea afișa o notificare ca aceasta pe ultima pagină de rezultate:

acesta este un semn că Google este deja ‘de-duping’ rezultatele. Încă nu este bine, așa că merită să faceți clic pe link și să vă uitați la toate celelalte rezultate pentru a vedea dacă puteți remedia unele dintre ele.

Citește mai mult: DIY: verificare conținut duplicat „

soluții practice pentru conținut duplicat

odată ce ați decis care URL este URL-ul canonic pentru piesa dvs. de conținut, trebuie să începeți un proces de canonizare (da, știu, încercați să spuneți asta de trei ori cu voce tare rapid). Aceasta înseamnă că trebuie să le spunem motoarelor de căutare despre versiunea canonică a unei pagini și să le lăsăm să o găsească cât mai curând posibil. Există patru metode de rezolvare a problemei, în ordinea preferinței:

  1. nu se creează conținut duplicat
  2. redirecționarea conținutului duplicat către adresa URL canonică
  3. adăugarea unui element de legătură canonică la pagina duplicat
  4. adăugarea unui link HTML de la pagina duplicat la pagina canonică

evitarea conținutului duplicat

unele dintre cauzele de mai sus pentru conținutul duplicat au remedieri foarte simple pentru:

  • există ID-ul sesiunii în adresele URL?
    acestea pot fi adesea dezactivate doar în setările sistemului dvs.
  • ai duplicat imprimantă prietenos pagini?
    acestea sunt complet inutile: ar trebui să utilizați doar o foaie de stil de imprimare.
  • folosiți paginarea comentariilor în WordPress?
    ar trebui să dezactivați această caracteristică (în Setări ” discuție) pe 99% din site-uri.
  • parametrii dvs. sunt într-o ordine diferită?
    spuneți programatorului dvs. să construiască un script pentru a pune întotdeauna parametrii în aceeași ordine (aceasta este adesea denumită fabrică URL).
  • există probleme de urmărire a legăturilor?
    în majoritatea cazurilor, puteți utiliza urmărirea campaniei bazată pe etichete hash în loc de urmărirea campaniei bazată pe parametri.
  • aveți probleme WWW vs. non-WWW?
    alegeți unul și rămâneți cu el redirecționându-l pe unul către celălalt. De asemenea, puteți seta o preferință în Google Webmaster Tools, dar va trebui să revendicați ambele versiuni ale numelui de domeniu.

dacă problema dvs. nu este atât de ușor de rezolvat, s-ar putea să merite totuși efortul. Scopul ar trebui să fie prevenirea apariției conținutului duplicat, deoarece este de departe cea mai bună soluție la problemă.

301 redirecționarea conținutului duplicat

în unele cazuri, este imposibil să împiedicați complet sistemul pe care îl utilizați să creeze adrese URL greșite pentru conținut, dar uneori este posibil să le redirecționați. Dacă acest lucru nu este logic pentru dvs. (pe care îl pot înțelege), păstrați-l în minte în timp ce vorbiți cu dezvoltatorii dvs. Dacă eliminați unele dintre problemele de conținut duplicat, asigurați-vă că redirecționați toate adresele URL vechi de conținut duplicat către adresele URL canonice corespunzătoare.

folosind link-uri

uneori nu doriți sau nu puteți scăpa de o versiune duplicată a unui articol, chiar și atunci când știți că este adresa URL greșită. Pentru a rezolva această problemă specială, motoarele de căutare au introdus elementul de legătură canonică. Este plasat în secțiunea < head> a site-ului dvs. și arată astfel:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

în secțiunea href a legăturii canonice, plasați adresa URL canonică corectă pentru articolul dvs. Când un motor de căutare care acceptă canonical găsește acest element de legătură, acesta efectuează o redirecționare soft 301, transferând cea mai mare parte a valorii legăturii adunate de acea pagină pe pagina dvs. canonică.

acest proces este puțin mai lent decât redirecționarea 301, deci dacă puteți face doar o redirecționare 301, ar fi de preferat, așa cum a menționat John Mueller de la Google.

continuați să citiți: rel = canonical * ce este și cum (nu) să îl folosești „

legarea înapoi la conținutul original

dacă nu puteți face niciuna dintre cele de mai sus, posibil pentru că nu controlați secțiunea <head> a site-ului pe care apare conținutul dvs., adăugarea unui link înapoi la articolul original deasupra sau sub articol este întotdeauna o idee bună. S-ar putea să doriți să faceți acest lucru în fluxul RSS adăugând un link înapoi la articolul din acesta. Unele raclete vor filtra acea legătură, dar altele ar putea să o lase înăuntru. Dacă Google întâlnește mai multe linkuri care indică articolul dvs. original, va afla destul de curând că aceasta este versiunea canonică reală.

concluzie: conținutul duplicat este fixabil și trebuie fixat

conținutul duplicat se întâmplă peste tot. Încă nu am întâlnit un site de peste 1.000 de pagini care nu are cel puțin o mică problemă de conținut duplicat. Este ceva pe care trebuie să-l urmăriți în mod constant, dar este fixabil, iar recompensele pot fi abundente. Conținutul dvs. de calitate ar putea crește în clasament, doar scăpând de conținutul duplicat de pe site-ul dvs.!

citiți mai departe: rel = canonical: ghidul final ”

Lasă un răspuns

Adresa ta de email nu va fi publicată.

More: