Duplicate content: Causes and solutions

Joost De Valk

Joost De Valk is the founder and Chief Product Officer of Yoast. É um empresário da internet, que ao lado da Fundação Yoast investiu e aconselhou várias startups. Sua principal experiência é desenvolvimento de software de código aberto e marketing digital.

motores de busca como o Google têm um problema – é chamado de ‘conteúdo duplicado’. Conteúdo duplicado significa que conteúdo semelhante aparece em vários locais (URLs) na web, e como resultado, os motores de busca não sabem qual URL mostrar nos resultados de pesquisa. Isto pode prejudicar o ranking de uma página web, e o problema só piora quando as pessoas começam a ligar-se às diferentes versões do mesmo conteúdo. Este artigo irá ajudá-lo a entender as várias causas de conteúdo duplicado, e para encontrar a solução para cada um deles.

  • o que é o conteúdo duplicado?
    • Vamos ilustrar isso com um exemplo
  • Causa de conteúdo duplicado
    • mal-entendido, o conceito de URL
    • IDs de Sessão
    • parâmetros de URL usado para rastreamento e classificação
    • Raspadores e sindicação de conteúdos
    • Ordem dos parâmetros
    • Comentário paginação
    • Impressora-amigável páginas
    • WWW vs. non-WWW
  • solução Conceitual: um ‘canônico’ URL
  • Identificar conteúdo duplicado problemas
  • soluções Práticas para conteúdo duplicado
    • Evitando conteúdo duplicado
    • 301 Redirecionamento de conteúdo duplicado
    • Usando links
    • link para o conteúdo original
  • Conclusão: o conteúdo duplicado é reparável, e deve ser corrigido

o Que é conteúdo duplicado?

conteúdo duplicado é o conteúdo que está disponível em vários URLs na web. Como mais de uma URL mostra o mesmo conteúdo, os motores de busca não sabem qual URL listar mais alto nos resultados de pesquisa. Portanto, eles podem classificar ambos URLs mais baixos e dar preferência a outras páginas da web.

neste artigo, focaremos principalmente nas causas técnicas do conteúdo duplicado e suas soluções. Se você gostaria de obter uma perspectiva mais ampla sobre conteúdo duplicado e aprender como ele se relaciona com conteúdo copiado ou raspado ou até mesmo canibalização palavra-chave, nós aconselhamos você a ler este post: o que é conteúdo duplicado.

vamos ilustrar isto com um exemplo

conteúdo duplicado pode ser comparado a estar em uma encruzilhada onde os sinais da estrada apontam em duas direções diferentes para o mesmo destino: que estrada você deve tomar? Para piorar as coisas, o destino final também é diferente, mas apenas ligeiramente. Como um leitor, você não se importa porque você recebe o conteúdo que você veio para, mas um motor de busca tem que escolher qual página para mostrar nos resultados de pesquisa, porque, claro, ele não quer mostrar o mesmo conteúdo duas vezes.

digamos que o seu artigo sobre a palavra-chave x aparece em e o mesmo conteúdo também aparece em . Esta situação não é fictícia: acontece em muitos sistemas modernos de gestão de conteúdos. Então vamos dizer que seu artigo foi pego por vários blogueiros e alguns deles link para o primeiro URL, enquanto outros link para o segundo. Isto é quando o problema do motor de busca mostra a sua verdadeira natureza: é o seu problema. O conteúdo duplicado é o seu problema porque esses links ambos promovem URLs diferentes. Se todos eles estivessem ligando para o mesmo URL, suas chances de ranking para ‘keyword x’ seria maior.

se você não sabe se seus rankings estão sofrendo de problemas de conteúdo duplicados, estas ferramentas de descoberta de conteúdo duplicado irá ajudá-lo a descobrir!

causas do conteúdo em duplicado

existem dezenas de razões para o conteúdo em duplicado. A maioria delas são técnicas: não é muito frequente um humano decidir colocar o mesmo conteúdo em dois lugares diferentes sem deixar claro qual é o original. A não ser que tenha clonado um post e o tenha publicado por acidente, claro. Mas de outra forma, não é natural para a maioria de nós.

existem muitas razões técnicas, porém, e isso acontece principalmente porque os desenvolvedores não pensam como um navegador ou mesmo um usuário, muito menos uma aranha motor de busca – eles pensam como um programador. Veja o artigo que mencionamos anteriormente, que aparece em e . Se você perguntar ao Desenvolvedor, eles vão dizer que ele só existe uma vez.

mal-entendido o conceito de um URL

não, que o desenvolvedor não enlouqueceu, eles estão apenas falando uma língua diferente. Um CMS provavelmente irá alimentar o site, e nesse banco de dados há apenas um artigo, mas o software do site apenas permite que o mesmo artigo no banco de dados para ser recuperado através de vários URLs. Isso porque, aos olhos do desenvolvedor, o identificador único para esse artigo é o ID que o artigo tem na base de dados, não a URL. Mas para o motor de busca, a URL é o identificador único para uma peça de conteúdo. Se você explicar isso a um desenvolvedor, eles vão começar a ter o problema. E depois de ler este artigo, você até será capaz de fornecer-lhes uma solução imediatamente.

IDs de sessão

você muitas vezes quer manter o controle de seus visitantes e permitir-lhes, por exemplo, para armazenar itens que eles querem comprar em um carrinho de compras. Para isso, é preciso dar-lhes uma sessão.’Uma sessão é uma breve história do que o visitante fez em seu site e pode conter coisas como os itens em seu carrinho de compras. Para manter essa sessão como um visitante clica de uma página para outra, o identificador único para essa sessão – chamado o ID da sessão – precisa ser armazenado em algum lugar. A solução mais comum é fazer isso com cookies. No entanto, os motores de busca não costumam armazenar cookies.

nesse ponto, alguns sistemas voltam a usar IDs de sessão na URL. Isso significa que cada link interno no site recebe esse ID de sessão adicionado ao seu URL, e porque esse ID de sessão é único para essa sessão, ele cria um novo URL, e, portanto, duplicar o conteúdo.

parâmetros URL usados para rastrear e ordenar

outra causa de conteúdo duplicado é o uso de parâmetros URL que não alteram o conteúdo de uma página, por exemplo em links de rastreamento. Você vê, para um motor de busca, e não são a mesma URL. O último pode permitir que você rastreie de que Fonte as pessoas vieram, mas também pode tornar mais difícil para você classificar bem – muito mais um efeito colateral indesejado!Isto não se aplica apenas aos parâmetros de localização, claro. Ele vai para cada parâmetro que você pode adicionar a uma URL que não altera a parte vital do conteúdo, se esse parâmetro é para ‘mudar a classificação em um conjunto de produtos’ ou para ‘mostrar outra barra lateral’: todos eles causam conteúdo duplicado.

raspadores e sindicação de conteúdo

a maioria das razões para o conteúdo duplicado são a “culpa” de você ou do seu site. Às vezes, no entanto, outros sites usam o seu conteúdo, com ou sem o seu consentimento. Eles nem sempre link para o seu artigo original, e, portanto, o motor de busca não “obter” ele e tem que lidar com mais uma versão do mesmo artigo. Quanto mais popular o seu site se torna, mais raspadores você vai ter, tornando este problema maior e maior.

Ordem dos parâmetros

outra causa comum é que um CMS não usa URLs limpos, mas sim URLs como /?id=1&cat=2, onde ID se refere ao artigo e cat se refere à categoria. O URL /?cat=2&id=1 irá produzir os mesmos resultados na maioria dos sistemas do site, mas eles são completamente diferentes para um motor de busca.

Comentário paginação

No meu amado WordPress, mas também em alguns outros sistemas, há uma opção para paginar o seu comentário. Isto leva a que o conteúdo seja duplicado através do URL do artigo, e o URL do artigo + /comment-page-1/, /comment-page-2/ etc.

páginas amigáveis com impressoras

se o seu sistema de gestão de conteúdo criar páginas amigáveis com impressoras e se ligar às páginas do seu artigo, a Google irá normalmente encontrá-las, a menos que as bloqueie especificamente. Agora, pergunte a si mesmo: que versão você quer que o Google mostre? Aquele com os seus anúncios e conteúdo periférico, ou aquele que só mostra o seu artigo?

WWW vs. non-WWW

este é um dos mais antigos do livro, mas às vezes os motores de busca ainda se enganam: WWW vs. Não-WWW conteúdo duplicado, quando ambas as versões do seu site estão acessíveis. Outra situação, menos comum, mas uma que eu vi também é HTTP vs. HTTPS conteúdo duplicado, onde o mesmo conteúdo é servido sobre ambos.

solução conceitual: um URL’ canônico ‘

como já vimos, o fato de que vários URLs levam ao mesmo conteúdo é um problema, mas pode ser resolvido. Uma pessoa que trabalha numa publicação poderá normalmente dizer-lhe facilmente qual deve ser a URL ‘correcta’ de um determinado artigo, mas, por vezes, quando perguntar a três pessoas dentro da mesma empresa, obterá três respostas diferentes…

é um problema que precisa de ser abordado porque, no final, só pode haver uma (URL). Esse URL ‘correto’ para um pedaço de conteúdo é referido como o URL canônico pelos motores de busca.

Nota irônica secundária

canônica é um termo que deriva da Tradição Católica Romana, onde uma lista de livros sagrados foi criada e aceita como genuína. Eles eram conhecidos como os Evangelhos canônicos do Novo Testamento. A ironia é que levou a igreja Católica Romana cerca de 300 anos e inúmeras lutas para essa lista canônica, e eles finalmente escolheram quatro versões da mesma história…

Identificar conteúdo duplicado problemas

Você pode não saber se você tem um problema de conteúdo duplicado em seu site ou em seu conteúdo. Usar o Google é uma das maneiras mais fáceis de detectar conteúdo duplicado.

existem vários operadores de pesquisa que são muito úteis em casos como estes. Se quiser encontrar todos os URLs no seu site que contenham o seu artigo de palavra-chave X, escreva a seguinte frase de pesquisa no Google:

site:example.com intitle:"Keyword X"

o Google irá então mostrar-lhe todas as páginas em example.com que contêm essa palavra-chave. Quanto mais específico você faz que intitle parte da consulta, mais fácil é eliminar o conteúdo duplicado. Você pode usar o mesmo método para identificar conteúdo duplicado em toda a web. Digamos que o título completo do seu artigo era “Keyword X-why it is awesome” ,você iria procurar:

intitle:"Keyword X - why it is awesome"

e o Google dar-lhe-ia todos os sites que coincidem com esse título. Às vezes vale a pena até mesmo procurar por uma ou duas frases completas de seu artigo, Como alguns raspadores podem mudar o título. Em alguns casos, quando você fizer uma pesquisa como essa, o Google pode mostrar um aviso como este na última página de resultados:

Este é um sinal de que o Google já está ‘de enganar” os resultados. Ainda não é bom, então vale a pena clicar no link e olhar para todos os outros resultados para ver se você pode corrigir alguns deles.

Leia mais: DIY: conteúdo duplicado seleção “

soluções Práticas para conteúdo duplicado

uma Vez que você decidiu que a URL é o URL canônica para o seu conteúdo, você precisa iniciar um processo de canonização (sim, eu sei, tenta dizer isso três vezes em voz alta velocidade). Isso significa que temos que contar aos motores de busca sobre a versão canônica de uma página e deixá-los encontrá-la O MAIS RÁPIDO POSSÍVEL. Há quatro métodos de resolução do problema, em ordem de preferência:

  1. Não criar conteúdo duplicado
  2. Redirecionando conteúdo duplicado para a URL canônica
  3. Adicionar um link canônico elemento para a página duplicada
  4. Adicionar um link HTML da página duplicada para a página canônica

Evitando conteúdo duplicado

Algumas das causas acima para conteúdo duplicado tem muito simples-lhes correções:

  • Há ID de Sessão na sua url?
    estes podem muitas vezes ser apenas desativados nas configurações do seu sistema.
  • tem páginas duplicadas amigáveis à impressora?
    estes são completamente desnecessários: você deve apenas usar uma folha de estilo de impressão.
  • você está usando paginação de comentários no WordPress?
    você deve simplesmente desativar esta funcionalidade (sob a discussão “configuração”) em 99% dos sites.Os seus parâmetros estão numa ordem diferente?
    diga ao seu programador para construir um script para sempre colocar parâmetros na mesma ordem (isto é muitas vezes referido como uma fábrica de URL).
  • existem problemas de rastreamento de links?
    na maioria dos casos, você pode usar rastreamento de campanha baseado em hash tag em vez de rastreamento de campanha baseado em parâmetros.Tem problemas WWW vs. Não-WWW?Escolha um e fique com ele, redirecionando um para o outro. Você também pode definir uma preferência em Ferramentas Webmaster do Google, mas você terá que reivindicar ambas as versões do nome de domínio.

se o seu problema não for tão facilmente corrigido, ainda pode valer a pena colocar no esforço. O objetivo deve ser evitar que o conteúdo duplicado apareça completamente, porque é de longe a melhor solução para o problema.

301 redirecionando conteúdo duplicado

em alguns casos, é impossível prevenir completamente o sistema que você está usando de criar URLs errados para o conteúdo, mas às vezes é possível redirecioná-los. Se isso não for lógico para você (o que eu posso entender), não se esqueça disso enquanto fala com seus desenvolvedores. Se você se livrar de alguns dos problemas de conteúdo duplicados, certifique-se de redirecionar todos os URLs de conteúdo duplicados antigos para os URLs canônicos apropriados.

usando links

às vezes você não quer ou não pode se livrar de uma versão duplicada de um artigo, mesmo quando você sabe que é a URL errada. Para resolver este problema em particular, os motores de busca introduziram o elemento de ligação canônica. É colocado na secção<head > do seu site, e parece-se com isto:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

na seção href do link canônico, você coloca a URL canônica correta para seu artigo. Quando um motor de busca que suporta canonical encontra este elemento de link, ele executa um redirecionamento soft 301, transferindo a maior parte do valor de link recolhido por essa página para a sua página canônica.

este processo é um pouco mais lento do que o redirecionamento 301, então se você pode apenas fazer um redirecionamento 301 que seria preferível, como mencionado por John Mueller do Google.

continua a ler: rel=canonical • o Que é e como (não) para usá-lo “

link para o conteúdo original

Se você não pode fazer qualquer uma das coisas acima, possivelmente porque você não controla o <head> seção do site de seu conteúdo aparece, adicionar um link para o artigo original, em cima ou abaixo do artigo é sempre uma boa idéia. Você pode querer fazer isso em seu feed RSS adicionando um link de volta para o artigo nele. Alguns raspadores Irão filtrar essa ligação, mas outros podem deixá-la dentro. Se o Google encontrar vários links apontando para o seu artigo original, ele vai descobrir em breve que essa é a versão canônica real.

conclusão: conteúdo duplicado é fixável, e deve ser fixado

conteúdo duplicado acontece em toda parte. Eu ainda tenho que encontrar um site de mais de 1.000 páginas que não tem pelo menos um pequeno problema de conteúdo duplicado. É algo que você precisa estar constantemente de olho, mas é reparável, e as recompensas podem ser abundantes. Seu conteúdo de qualidade poderia subir nos rankings, apenas por se livrar de conteúdo duplicado do seu site!

Read on: Rel=canonical: The ultimate guide ”

Deixe uma resposta

O seu endereço de email não será publicado.

More: