Estuve viendo últimamente el tema del SEO de interacciones y encontré que varios sitios rescatan mis artículos y los reproducen tal cual, de hecho la licencia CC que uso Creative Commons Attribution - NonCommercial - NoDerivs 2.5 Argentina License permite este tipo de prácticas siempre y cuando se cite la fuente de la forma en que lo indico a continuación:

Escrito por Viv Dehaes
Publicado originalmente en: http://www.interacciones.com.ar/nombre-del-articulo
Bajo licencia CC Reconocimiento-No Comercial-Sin Obra Derivada 2.5 Argentina.

Como era de esperar, no todos los que reproducen los contenidos del sitio lo hacen de la forma indicada, por ejemplo mi artículo CSS- Separando la visualización del contenido en Wikilearning tiene la cita correspondiente a mi satisfacción, pero por ejemplo sitios como emagister el mismo artículo, está puesto como si fuera un curso, cuando no lo es y encima te obligan a dejar tu mail para poder verlo, y encima está citado como perteneciente a Viv Dehaes de Wikilearning! les escribí haciéndoles constar el problema, pero me respondieron que ellos citan la fuente así y básicamente que me joda… ¿Qué se puede hacer en casos como este? Les escribí de nuevo, diciéndoles que si no acatan mi pedido bajen mis contenidos de ese sitio porque están violando los términos de la licencia, veremos que contestan.

Volviendo al tema, la cuestión es qué pasa con los contenidos de uno replicados en sitios de otros, cómo repercute esta situación en la posición en buscadores que tanto cuesta ganar…

Hay algunas personas que reproducen nuestros contenidos en otros sitios como recopilación de la información o con otros motivos igualmente razonables, pero, según lo que estuve investigando hay otras personas que lo hacen para mejorar su posicionamiento en los buscadores más importantes, la idea que rige este comportamiento es que reproduciendo contenidos útiles o simplemente de sitios bien posicionados lograrán aumentar el rankeo del suyo propio.

El tomar contenidos de otros sitios les da la posibilidad a esta gente de pocos recursos, de incrementar el tamaño de sus sitios, y consecuentemente las palabras claves indexables, lo que pensarán, los llevará al tope de las primeras páginas en la devolución de una búsqueda.

Este razonamiento es bastante ingenuo ya que Google, por ejemplo, penaliza esta suerte de multiplicación de contenidos, para ello ha desarrollado una patente denominada Detecting duplicate and near-duplicate files para poder detectar este problema y de paso penalizar a los perpetradores.

¿Por qué le interesa a google el tema?

Básicamente tiene que ver con mejorar su servicio, reconocer esta suerte de espejos de sitios les permite:

  • No almacenar varias copias de un mismo contenido,
  • y, lo que es importante: no devolver resultados de búsqueda contaminados con copias de contenidos, sino más bien brindarle al usuario un servicio de calidad, con los sitios originales.

¿Cómo detectan los contenidos duplicados?

En muy resumidas cuentas: deshuesan el documento en partes (frases, párrafos, etc.) luego le asignan una huella digital a cada una y a través de una bocha de algoritmos y fórmulas complejas comparan si dos documentos son similares, si al menos un gran porcentaje de las huellas digitales se repiten en los documento tenemos duplicación.

En este punto la cuestión es detectar cuál es el original y cual la copia: generalmente se adopta un esquema temporal, o sea el primer sitio indexado por el buscador se considera original y los demás pasarán automáticamente como copia. Hay otros criterios que se tienen en cuenta que tienen que ver con la antigüedad del dominio, el posicionamiento del sitio y su tamaño entre otros, que pueden desvirtuar esta situación haciendo que algunos contenidos, a pesar de ser copias, se presenten en un resultado de búsqueda mejor posicionados que los originales. Yo misma soy víctima de esta trampa del sistema cuando artículos de interacciones.com.ar aparecen mejor rankeados en otros sitios que aquí.

¿Qué pasa con las copias?

Las páginas web de los sitios que duplican contenidos también son indexadas, la cuestión es que si los algoritmos de google detectan la duplicación pueden perder mucha posición en el ranking e incluso no ser mostradas en el resultado de la búsqueda. De esta manera hay que repensar este comportamiento ya que si se copia contenido de otro sitio para mejorar el posicionamiento, lo que en realidad se logra es caer en desgracia bajo la atenta mirada de google y empeorar el posicionamiento que se logró.

¿Qué pasa si se comete una injusticia?

Puede ser que en este proceso automático de detección caigan justos por pecadores, o también incautos que realmente no se dieron cuenta de lo que estaba pasando, por ejemplo, los buscadores ven contenido duplicado en las siguientes prácticas:

  • Uso de sitios espejos o de desarrollo en línea sin restricciones.
  • Inclusión en el sitio de descripciones de productos o servicios que vienen de un distribuidor y se pueden encontrar en otros sitios que también comercializan el producto o servicio.
  • Versiones para impresión, que colocan en el sitio el mismo contenido pero despojado del diseño para una mejor impresión.
  • Páginas que sindican RSS de otros sitios o partes del sitio.
  • Utilización de múltiples URL para acceder a un mismo recurso y también el uso de variables y valores en la URL

En la mayoría de los casos se recomienda que en el archivo robots.txt se le especifique que partes seguir y cuales no, de esta forma se podría armar una estrategia para no perjudicar el ranking en los buscadores.

También se recomienda para impedir la indexación de contenido duplicado que podamos identificar fácilmente, el uso del siguiente metatag que va en el HEAD del HTML e impide que los robots indexen dicho documento:

<meta name="robots" content="noindex">

Google también pone a disposición de los webmasters un formulario de advertencia para que podamos avisarles sobre ciertos sitios que realizan prácticas fraudulentas entre ellas la de duplicar contenidos de otros sitios. Google promete investigar nuestras denuncias hasta las últimas consecuencias y de esa manera evitar la polución ambiental. Esto se puede encontrar en el siguiente link Información de Google para webmasters.

Hasta la próxima.

Enlaces Recomendados