Cómo identificar y solucionar problemas de inflación de indexación

El hinchamiento de la indexación es cuando un sitio web tiene páginas dentro de un motor de búsqueda “índice” que no debe ser indexado, y puede causar problemas si no es supervisado y vigilado correctamente.
Es un problema de SEO muy común y afecta a todos los sitios web, que van desde pequeños blogs de WordPress a grandes sitios web de comercio electrónico Hybris y Magento.

Los casos más graves de inflación de la indexación suelen ocurrir en los sitios web de comercio electrónico, ya que tienden a utilizar fácil de usar navegaciones facetadas y listas de filtros, lo que permite a los usuarios identificar rápidamente los productos que quieren.

He visto ejemplos de primera mano de simple Demandware y abrir sitios web Carrito con sólo unos pocos cientos de productos con millones de URL aparecen en el índice de Google debido a los filtros de productos que generan URL.

¿Por qué la inflación de la indexación es un problema?

Es un hecho conocido que cuando Google y los otros motores de búsqueda rastrear su sitio web, no rastrear su sitio web en su totalidad. Permitir y pedir que rastreen URL innecesarias pierde este recurso.

Si los motores de búsqueda no están rastreando regularmente sus páginas de “dinero” y en su lugar están atrapados en otros agujeros de conejo sin recoger actualizaciones, esto podría afectar su rendimiento orgánico.

Bloat también puede conducir a duplicar los problemas de contenido. Si bien la duplicación de contenido de sitios web internos no es tan grave como la duplicación externa, podría diluir la importancia de una página individual y la relevancia de los términos de búsqueda si la página en sí como los motores de búsqueda no están seguros de qué URL para clasificar los términos.

Identificación de problemas de inflación de índice

Un indicador temprano de la inflación de índice es el número de páginas que aparecen en los resultados de los motores de búsqueda.

Es importante anotar aquí que el número de páginas que normalmente se identifican usando el operador de sitio: dentro de Google y la búsqueda de Bing suelen mostrar números diferentes a lo que se ve en la Consola de búsqueda de Google y las Herramientas para webmasters de Bing, esto no es motivo de preocupación.

Monitoreo de sitios web

Si bien hay maneras de resolver la hinchazón de índice, la mejor manera, en mi experiencia, para hacer frente a ella es para evitar que suceda en absoluto.

Al consultar mensualmente las herramientas de Google Search Console y Bing Webmaster, específicamente en los datos de rastreo, puede registrar lo que es y no es un comportamiento normal para su sitio web.

Aumentos anormales o picos en las páginas rastreadas por día y Kilobytes descargados por día pueden ser indicadores de que Google está accediendo a más URL de lo que ha sido.

Del mismo modo, realizar una búsqueda en Google y Bing le permitirá ver cuántas URL tienen en el índice y conocerá aproximadamente cuántas páginas tiene su sitio web.

¿Cómo puedo fijar la inflación de la indexación?

Identificar que tiene un problema de hinchazón de índice es sólo el paso uno, ahora tiene que establecer qué está causando el hinchazón.

Estas son algunas de las causas más comunes de inflación de la indexación, pero también es común tener más de una de estas causas.

 ▪ URL de dominio que se publican mediante los protocolos http y https

 ▪ Versiones imprimibles de páginas que causan una URL duplicada

 ▪ URL de parámetros causadas por la búsqueda interna

 ▪ URL de parámetros causada por filtros de producto

 ▪ Paginación

 ▪ Blog taxonomías

 ▪ ID de sesión en las URL

 ▪ Inyección de páginas de spam tras un hack

 ▪ Las URL antiguas no se redirigen correctamente después de una migración

 ▪ Barras finales al final de las URL que causan duplicación

 ▪ Fuente UTM



Fijación con meta robots

Una etiqueta de meta robots de nivel de página es mi método preferido de tratar con el índice de bloat y es particularmente útil si se implementa desde un nivel de servidor a través de varias páginas a la vez.

Los robots de nivel de página también tienen prioridad sobre las directivas de paginación y canonización, así como el archivo robots.txt (a menos que estén bloqueados en el archivo robots.txt).

También son eficaces en la eliminación de URL que contienen parámetros causados ​​por filtros de producto, navegación con facetas y funciones de búsqueda interna. Bloquearlos en el archivo robots.txt no siempre es el mejor, ya que puede causar algunos problemas entre lo que pueden ver los diferentes agentes de usuarios de Google, lo que puede afectar negativamente a las campañas de búsqueda pagadas.

La mejor práctica sería utilizar “noindex, follow” – de esta manera cualquier vínculo de retroceso que apunte a la página seguirá pasando la equidad en el dominio.

Archivo Robots.txt

El bloqueo de parámetros de URL en el archivo robots.txt es una gran medida preventiva y reactiva, pero no es una solución absoluta.

Todo lo que hace un archivo Robots.txt es que los motores de búsqueda directos no rastreen una página, pero Google puede indexar la página si la página está enlazada internamente o desde sitios externos. Si sabe dónde están estos enlaces internos, agregue un rel = “nofollow” a ellos.


Etiquetas canónicas

Auto-referenciación canonicalization es típicamente la mejor práctica, aparte de las direcciones URL hinchadas. Las plataformas de comercio electrónico, como Open Cart, pueden crear varias URL para el mismo producto y categoría.

La adición de una etiqueta canónica a los encabezados de las URL innecesarias de productos y categorías que apuntan a la “principal” ayudará a los motores de búsqueda a comprender qué versión de la página debe estar indexada.

Sin embargo, la directiva canónica es sólo una directiva, y puede ser ignorada por los motores de búsqueda.

Paginación

Los problemas de paginación pueden surgir de publicaciones de blog y páginas de categorías de blogs, páginas de categorías de productos, páginas de resultados de búsqueda internas; Básicamente cualquier elemento de un sitio web que tiene varias páginas.

Debido a que estas páginas contienen la misma información meta, los motores de búsqueda pueden confundir la relación entre ellos y podría decidir que es el contenido duplicado.

El uso de los marcadores de paginación rel = “next” y rel = “prev” ayudará a los motores de búsqueda a comprender la relación entre estas páginas y, junto con la configuración de Google Search Console, decidirá cuáles necesitan indexación.



Uso de la herramienta de parámetros de URL de la Consola de búsqueda de Google

La herramienta de parámetros de URL se puede usar para indicar a Google qué parámetros específicos hacen al contenido de una página (es decir, ordenar, estrechar, filtrar). Al igual que otros métodos mencionados anteriormente, debe asegurarse de que no está solicitando accidentalmente a Google que no indexe las URL que desee en el índice y que no especifique un comportamiento de parámetros de forma incorrecta.

Google clasifica sus parámetros en dos categorías; activo y pasivo. Un parámetro activo es algo que impacta el contenido de una página, por lo que un filtro de producto y un parámetro pasivo es algo así como un ID de sesión o una fuente UTM.

Esto sólo debe utilizarse realmente como último recurso y se utiliza correctamente en conjunción con otros métodos, de lo contrario esto podría afectar negativamente el rendimiento de búsqueda orgánica del dominio.

Antes de utilizar esta herramienta, asegúrese de leer la documentación y orientación oficial de Google.

La herramienta de eliminación de URL

Dependiendo de la autoridad de su dominio, Google podría tomar un tiempo para reconocer y filtrar las URL que desea eliminar. Después de haber implementado algo que le diga a Google que no vuelva a indexar la URL (una etiqueta de meta robots de nivel de página), puede solicitar que Google elimine la URL del índice a través de Google Search Console.

Esta es sólo una medida temporal ya que sólo ocultará la URL durante 90 días a partir de los resultados de búsqueda de Google, pero no afecta al rastreo e indexación de la URL de Google.

Esto es bueno para usar si no quieres que los usuarios puedan encontrar ciertas páginas, pero cada URL tiene que ser presentada individualmente por lo que no es una gran solución si tienes índice de inflación grave.

Bloqueo del índice resultante de un hack

Ahora, obviamente, si su sitio web ha sido hackeado, el índice de inflación definitivamente no va a ser una preocupación prioritaria. Pero el hinchazón de un hack puede causar problemas para el dominio.

La siguiente captura de pantalla es de un dominio suizo (.ch) que opera en Europa, semanas después de un hack:

El sitio web solo tiene alrededor de 50 páginas, pero como se puede ver, Google está indexando actualmente 112.000.

Esto significa que, entre otras cosas, esas 50 páginas de páginas de información de productos y productos se pierden entre miles de URL hackeadas, por lo que las actualizaciones de estas páginas pueden tardar semanas en darse cuenta, especialmente si su sitio web no controla un rastreo grande. presupuesto.

Otro indicador de esto puede ser un aumento repentino en la visibilidad de la búsqueda (para términos irrelevantes):

He trabajado en sitios web anteriormente donde este ha sido el primer indicador. Mientras ejecutaba una verificación mensual rutinaria en Google Search Console, un sitio web que se ocupaba de vestidos de bautizo había empezado a clasificarse para “jerseys NFL baratos” y otros términos de ropa deportiva estadounidense.

Estos picos de visibilidad son a menudo de corta duración, pero pueden destruir la confianza entre Google y su dominio durante mucho tiempo, por lo que se puede decir mucho para invertir en seguridad cibernética más allá de https.

Conclusión

La reducción del índice de hinchazón no ocurre de la noche a la mañana, por lo que es importante permanecer paciente.

También es importante poner en marcha un proceso o marco y darle la propiedad de dicho proceso a alguien para que realice de manera regular.