Joost de Valk es el fundador y Director de Productos de Yoast. Es un emprendedor de Internet, que junto a la fundación de Yoast ha invertido y asesorado a varias startups. Su principal experiencia es el desarrollo de software de código abierto y el marketing digital.
Los motores de búsqueda como Google tienen un problema: se llama «contenido duplicado». Contenido duplicado significa que el contenido similar aparece en varias ubicaciones (URL) de la web y, como resultado, los motores de búsqueda no saben qué URL mostrar en los resultados de búsqueda. Esto puede dañar la clasificación de una página web, y el problema solo empeora cuando las personas comienzan a enlazar a las diferentes versiones del mismo contenido. Este artículo le ayudará a comprender las diversas causas del contenido duplicado y a encontrar la solución a cada una de ellas.
- ¿Qué es el contenido duplicado?
- Ilustremos esto con un ejemplo
- Causas de contenido duplicado
- Malentendido del concepto de URL
- ID de sesión
- Parámetros de URL utilizados para rastrear y clasificar
- Raspadores y sindicación de contenido
- Orden de parámetros
- Paginación de comentarios
- Páginas para imprimir
- WWW vs. no-WWW
- Solución conceptual: una URL «canónica»
- Identificar problemas de contenido duplicado
- Soluciones prácticas para contenido duplicado
- Evitar contenido duplicado
- 301 Redirigir contenido duplicado
- Usar enlaces
- Enlazar al contenido original
- Conclusión: el contenido duplicado es reparable, y debe arreglarse
- ¿Qué es el contenido duplicado?
- Ilustremos esto con un ejemplo
- Causas del contenido duplicado
- Malentendido del concepto de URL
- ID de sesión
- Parámetros de URL utilizados para rastrear y ordenar
- Raspadores y sindicación de contenido
- Orden de los parámetros
- Paginación de comentarios
- Páginas para imprimir
- WWW vs. non-WWW
- Solución conceptual: una URL ‘canónica’
- Nota irónica
- Identificar problemas de contenido duplicado
- Soluciones prácticas para contenido duplicado
- Evitar contenido duplicado
- 301 Redireccionamiento de contenido duplicado
- Usar enlaces
- Enlazar al contenido original
- Conclusión: el contenido duplicado es reparable, y debe arreglarse
¿Qué es el contenido duplicado?
El contenido duplicado es contenido que está disponible en múltiples URL en la web. Debido a que más de una URL muestra el mismo contenido, los motores de búsqueda no saben qué URL listar más arriba en los resultados de búsqueda. Por lo tanto, pueden clasificar ambas URL más abajo y dar preferencia a otras páginas web.
En este artículo, nos centraremos principalmente en las causas técnicas del contenido duplicado y sus soluciones. Si deseas obtener una perspectiva más amplia sobre el contenido duplicado y aprender cómo se relaciona con el contenido copiado o raspado o incluso la canibalización de palabras clave, te recomendamos que leas este post: Qué es el contenido duplicado.
Ilustremos esto con un ejemplo
El contenido duplicado se puede comparar con estar en un cruce de caminos donde las señales de tráfico apuntan en dos direcciones diferentes para el mismo destino: ¿Qué carretera debe tomar? Para empeorar las cosas, el destino final también es diferente, pero solo ligeramente. Como lector, no te importa porque obtienes el contenido que buscaste, pero un motor de búsqueda tiene que elegir qué página mostrar en los resultados de búsqueda porque, por supuesto, no quiere mostrar el mismo contenido dos veces.
Digamos que tu artículo sobre’ palabra clave x ‘ aparece en y el mismo contenido también aparece en
. Esta situación no es ficticia: sucede en muchos Sistemas modernos de Gestión de Contenidos. Entonces digamos que tu artículo ha sido recogido por varios bloggers y algunos de ellos enlazan a la primera URL, mientras que otros enlazan a la segunda. Esto es cuando el problema del motor de búsqueda muestra su verdadera naturaleza: es tu problema. El contenido duplicado es tu problema porque esos enlaces promueven diferentes URL. Si todos estuvieran enlazando a la misma URL, tus posibilidades de posicionarte para ‘palabra clave x’ serían mayores.
Si no sabes si tus clasificaciones tienen problemas de contenido duplicado, estas herramientas de descubrimiento de contenido duplicado te ayudarán a averiguarlo.
Causas del contenido duplicado
Hay docenas de razones para el contenido duplicado. La mayoría de ellos son técnicos: no es muy frecuente que un humano decida poner el mismo contenido en dos lugares diferentes sin dejar claro cuál es el original. A menos que hayas clonado un post y lo hayas publicado por accidente, por supuesto. Pero por lo demás, no nos parece natural a la mayoría de nosotros.
Sin embargo, hay muchas razones técnicas y sucede principalmente porque los desarrolladores no piensan como un navegador o incluso como un usuario, y mucho menos como una araña de motores de búsqueda, piensan como un programador. Tomemos el artículo que mencionamos anteriormente, que aparece en y
. Si le preguntas al desarrollador, dirá que solo existe una vez.
Malentendido del concepto de URL
No, ese desarrollador no se ha vuelto loco, solo habla un idioma diferente. Un CMS probablemente potenciará el sitio web, y en esa base de datos solo hay un artículo, pero el software del sitio web solo permite que ese mismo artículo en la base de datos se recupere a través de varias URL. Esto se debe a que, a los ojos del desarrollador, el identificador único para ese artículo es el ID que el artículo tiene en la base de datos, no la URL. Pero para el motor de búsqueda, la URL es el identificador único de una pieza de contenido. Si se lo explicas a un desarrollador, comenzará a entender el problema. Y después de leer este artículo, incluso podrás proporcionarles una solución de inmediato.
ID de sesión
A menudo desea realizar un seguimiento de sus visitantes y permitirles, por ejemplo, almacenar artículos que desean comprar en un carrito de compras. Para hacer eso, tienes que darles una sesión.»Una sesión es una breve historia de lo que el visitante hizo en su sitio y puede contener cosas como los artículos en su carrito de compras. Para mantener esa sesión a medida que un visitante hace clic de una página a otra, el identificador único de esa sesión, llamado ID de sesión, debe almacenarse en algún lugar. La solución más común es hacerlo con cookies. Sin embargo, los motores de búsqueda no suelen almacenar cookies.
En ese momento, algunos sistemas recurren al uso de ID de sesión en la URL. Esto significa que cada enlace interno en el sitio web obtiene ese ID de sesión agregado a su URL, y como ese ID de sesión es único para esa sesión, crea una nueva URL y, por lo tanto, duplica el contenido.
Parámetros de URL utilizados para rastrear y ordenar
Otra causa de contenido duplicado es el uso de parámetros de URL que no cambian el contenido de una página, por ejemplo, en enlaces de seguimiento. Verás, para un motor de búsqueda, y
no son la misma URL. Esto último podría permitirle rastrear de qué fuente vinieron las personas,pero también podría dificultarle clasificar bien – ¡un efecto secundario no deseado!
Esto no solo se aplica a los parámetros de seguimiento, por supuesto. Va para cada parámetro que puedes agregar a una URL que no cambia la pieza vital de contenido, ya sea que ese parámetro sea para ‘cambiar la clasificación de un conjunto de productos’ o para ‘mostrar otra barra lateral’: todos ellos causan contenido duplicado.
Raspadores y sindicación de contenido
La mayoría de las razones para el contenido duplicado son «culpa» suya o de su sitio web. Sin embargo, a veces, otros sitios web utilizan su contenido, con o sin su consentimiento. No siempre enlazan a tu artículo original, y por lo tanto el motor de búsqueda no lo «entiende» y tiene que lidiar con otra versión del mismo artículo. Cuanto más popular sea tu sitio, más raspadores obtendrás, haciendo que este problema sea cada vez más grande.
Orden de los parámetros
Otra causa común es que un CMS no usa URL limpias y agradables, sino URL como /?id=1&cat=2
, donde ID se refiere al artículo y cat a la categoría. La URL /?cat=2&id=1
mostrará los mismos resultados en la mayoría de los sistemas de sitios web, pero son completamente diferentes para un motor de búsqueda.
Paginación de comentarios
En mi amado WordPress, pero también en algunos otros sistemas, hay una opción para paginar sus comentarios. Esto lleva a que el contenido se duplique en la URL del artículo y en la URL del artículo + / comentario-página-1/, / comentario-página-2/, etc.
Páginas para imprimir
Si su sistema de gestión de contenido crea páginas para imprimir y usted enlaza a ellas desde las páginas de sus artículos, Google generalmente las encontrará, a menos que las bloquee específicamente. Ahora, pregúntate: ¿Qué versión quieres que muestre Google? ¿El que tiene tus anuncios y contenido periférico, o el que solo muestra tu artículo?
WWW vs. non-WWW
Este es uno de los más antiguos del libro, pero a veces los motores de búsqueda todavía se equivocan: contenido duplicado WWW vs.non-WWW, cuando ambas versiones de su sitio son accesibles. Otra situación menos común, pero que también he visto, es el contenido duplicado HTTP vs. HTTPS, donde el mismo contenido se muestra en ambos.
Solución conceptual: una URL ‘canónica’
Como ya hemos visto, el hecho de que varias URL conduzcan al mismo contenido es un problema, pero se puede resolver. Una persona que trabaja en una publicación normalmente podrá decirte con bastante facilidad cuál debe ser la URL’ correcta ‘ para un artículo determinado, pero a veces cuando le preguntas a tres personas dentro de la misma empresa, obtendrás tres respuestas diferentes
Ese es un problema que necesita abordarse porque, al final, solo puede haber una (URL). Esa URL ‘correcta’ para una pieza de contenido se conoce como la URL Canónica por los motores de búsqueda.
Nota irónica
Canónico es un término derivado de la tradición católica romana, donde se creó una lista de libros sagrados y se aceptó como genuinos. Eran conocidos como los Evangelios canónicos del Nuevo Testamento. La ironía es que le tomó a la iglesia Católica romana unos 300 años y numerosas luchas llegar a esa lista canónica, y finalmente eligieron cuatro versiones de la misma historia
Identificar problemas de contenido duplicado
Es posible que no sepa si tiene un problema de contenido duplicado en su sitio o con su contenido. Usar Google es una de las formas más fáciles de detectar contenido duplicado.
Hay varios operadores de búsqueda que son muy útiles en casos como estos. Si quieres encontrar todas las URL de tu sitio que contengan tu artículo de palabra clave X, escribe la siguiente frase de búsqueda en Google:
site:example.com intitle:"Keyword X"
A continuación, Google le mostrará todas las páginas en example.com que contienen esa palabra clave. Cuanto más específico hagas que intitle
sea parte de la consulta, más fácil será eliminar el contenido duplicado. Puede usar el mismo método para identificar contenido duplicado en la web. Digamos que el título completo de tu artículo es «Palabra clave X-por qué es increíble», buscarías:
intitle:"Keyword X - why it is awesome"
Y Google te daría todos los sitios que coincidan con ese título. A veces vale la pena incluso buscar una o dos oraciones completas de tu artículo, ya que algunos raspadores podrían cambiar el título. En algunos casos, cuando realizas una búsqueda como esa, Google podría mostrar un aviso como este en la última página de resultados:
Esta es una señal de que Google ya está «des-engañando» los resultados. Todavía no es bueno, por lo que vale la pena hacer clic en el enlace y mirar todos los demás resultados para ver si puedes arreglar algunos de ellos.
Leer más: BRICOLAJE: verificación de contenido duplicado »
Soluciones prácticas para contenido duplicado
Una vez que haya decidido qué URL es la URL canónica para su contenido, debe iniciar un proceso de canonización (sí, lo sé, intente decirlo tres veces en voz alta rápidamente). Esto significa que tenemos que informar a los motores de búsqueda sobre la versión canónica de una página y dejar que la encuentren lo antes posible. Hay cuatro métodos para resolver el problema, en orden de preferencia:
- No crear contenido duplicado
- Redirigir contenido duplicado a la URL canónica
- Agregar un elemento de enlace canónico a la página duplicada
- Agregar un enlace HTML desde la página duplicada a la página canónica
Evitar contenido duplicado
Algunas de las causas anteriores para contenido duplicado tienen soluciones muy simples:
- ¿Hay ID de sesión en tus URL?
A menudo, solo se pueden desactivar en la configuración de su sistema. - ¿Tiene páginas duplicadas para imprimir?
Estos son completamente innecesarios: solo debe usar una hoja de estilo de impresión. - ¿Está utilizando la paginación de comentarios en WordPress?
Solo debe desactivar esta función (en configuración «discusión») en el 99% de los sitios. - ¿Sus parámetros están en un orden diferente?
Dígale a su programador que construya un script para poner siempre los parámetros en el mismo orden (esto a menudo se conoce como fábrica de URL). - ¿Hay problemas con los enlaces de seguimiento?
En la mayoría de los casos, puedes usar el seguimiento de campañas basado en etiquetas hash en lugar del seguimiento de campañas basado en parámetros. - ¿Tiene problemas de WWW vs. no WWW?
Elige uno y apégate a él redirigiendo el uno al otro. También puedes establecer una preferencia en las Herramientas para Webmasters de Google, pero tendrás que reclamar ambas versiones del nombre de dominio.
Si su problema no se soluciona tan fácilmente, puede que valga la pena esforzarse. El objetivo debe ser evitar que el contenido duplicado aparezca por completo, porque es, con mucho, la mejor solución al problema.
301 Redireccionamiento de contenido duplicado
En algunos casos, es imposible evitar por completo que el sistema que estás utilizando cree URL incorrectas para el contenido, pero a veces es posible redirigirlas. Si esto no es lógico para ti (lo cual puedo entender), tenlo en cuenta mientras hablas con tus desarrolladores. Si te deshaces de algunos de los problemas de contenido duplicado, asegúrate de redirigir todas las URL de contenido duplicado antiguas a las URL canónicas adecuadas.
Usar enlaces
A veces no quieres o no puedes deshacerte de una versión duplicada de un artículo, incluso cuando sabes que es la URL incorrecta. Para resolver este problema en particular, los motores de búsqueda han introducido el elemento de enlace canónico. Se coloca en la sección < head> de tu sitio, y se ve así:
<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />
En la sección href
del enlace canónico, coloca la URL canónica correcta para tu artículo. Cuando un motor de búsqueda que admite canonical encuentra este elemento de enlace, realiza un redireccionamiento 301 suave, transfiriendo la mayor parte del valor de enlace recopilado por esa página a su página canonical.
Sin embargo, este proceso es un poco más lento que el redireccionamiento 301, por lo que si puedes hacer un redireccionamiento 301 sería preferible, como mencionó John Mueller de Google.
sigue leyendo: rel = canonical * Qué es y cómo (no) usarlo «
Enlazar al contenido original
Si no puedes hacer nada de lo anterior, posiblemente porque no controlas la sección <head> del sitio en el que aparece tu contenido, agregar un enlace al artículo original encima o debajo del artículo siempre es una buena idea. Es posible que desee hacer esto en su fuente RSS agregando un enlace al artículo que contiene. Algunos raspadores filtrarán ese enlace, pero otros podrían dejarlo dentro. Si Google encuentra varios enlaces que apuntan a tu artículo original, pronto descubrirá que esa es la versión canónica real.
Conclusión: el contenido duplicado es reparable, y debe arreglarse
El contenido duplicado ocurre en todas partes. Aún no he encontrado un sitio de más de 1,000 páginas que no tenga al menos un pequeño problema de contenido duplicado. Es algo que necesita vigilar constantemente, pero es reparable y las recompensas pueden ser abundantes. Su contenido de calidad podría elevarse en los rankings, ¡solo con deshacerse del contenido duplicado de su sitio!
Siga leyendo: Rel = canonical: La guía definitiva «