Busqueda de Google como Funciona

 

Guía detallada sobre cómo funciona la Búsqueda de Google


La Búsqueda de Google es un buscador completamente automatizado que utiliza programas de software denominados "rastreadores web" para explorar la Web periódicamente en busca de páginas que pueda añadir a su índice. De hecho, la mayoría de las páginas que se muestran en los resultados de la Búsqueda no se envían manualmente, sino que se encuentran y se añaden automáticamente cuando nuestros rastreadores web exploran la Web. En este documento, se explican las fases del funcionamiento de la Búsqueda en el contexto de tu sitio web. Con estos conocimientos básicos, podrás corregir los problemas de rastreo, indexar tus páginas y obtener más información para optimizar la forma en que aparece tu sitio en la Búsqueda de Google.

Algunas notas antes de empezar

Antes de entrar en detalles sobre cómo funciona la Búsqueda, es importante tener en cuenta que Google no acepta pagos para rastrear sitios con mayor frecuencia ni para mejorar su posicionamiento. Si alguien te dice lo contrario, se equivoca.

Google no garantiza que rastree, indexe o sirva tu página, aunque cumpla las Directrices básicas de la Búsqueda de Google.

Presentamos las tres fases de la Búsqueda de Google


La Búsqueda de Google funciona en tres fases, pero no todas las páginas pasan por cada una de ellas:

  •     Rastreo: Google descarga texto, imágenes y vídeos de páginas que encuentra en Internet mediante programas automatizados, llamados "rastreadores".
  •     Indexación: Google analiza el texto, las imágenes y los archivos de vídeo de las páginas y almacena la información en el índice de Google, una gran base de datos.
  •     Publicación de resultados de búsqueda: cuando un usuario hace una búsqueda en Google, Google devuelve información relevante sobre su consulta.


Rastreo


La primera fase trata de averiguar qué páginas hay en la Web. Como no hay ningún registro central con todas las páginas web, Google tiene que buscar constantemente páginas nuevas y actualizadas, y añadirlas a nuestra lista de páginas conocidas. Este proceso se denomina "descubrimiento de URL". Algunas páginas las conocemos porque Google ya las ha visitado. Otras, en cambio, las encontramos siguiendo enlaces de páginas conocidas que nos llevan a ellas; por ejemplo, una página principal, como la página de una categoría o un enlace a una nueva entrada de blog. También se descubren otras páginas cuando envías una lista de páginas (un sitemap) para que Google las rastree.

Una vez que Google descubre la URL de una página, puede visitarla (o "rastrearla") para averiguar qué contiene. Utilizamos una enorme cantidad de ordenadores para rastrear miles de millones de páginas de la Web. El programa encargado de obtener este contenido es el robot de Google, también denominado "rastreador", "robot", "bot" o "araña". El robot de Google determina mediante algoritmos qué sitios deben rastrearse, con qué frecuencia tiene que hacerse y cuántas páginas hay que obtener de cada uno de ellos. Los rastreadores de Google también están programados para no rastrear sitios demasiado rápido y así evitar sobrecargarlos. Este mecanismo se basa en las respuestas del sitio (por ejemplo, los errores HTTP 500 significan "lentitud") y en los ajustes de Search Console.

Sin embargo, el robot de Google no rastrea todas las páginas que ha descubierto. Puede que el propietario del sitio web inhabilite el rastreo de algunas páginas, o puede también que no se pueda acceder a otras páginas sin antes tener que iniciar sesión en el sitio.

Durante el rastreo, Google renderiza la página y ejecuta el código JavaScript que encuentre mediante una versión reciente de Chrome, similar a la forma en que tu navegador renderiza las páginas que visitas. El renderizado es importante porque los sitios web suelen usar JavaScript para añadir contenido a la página, por lo que es posible que Google no lo detecte si no se renderiza.

El rastreo depende de si los rastreadores de Google pueden acceder al sitio o no. Algunos problemas habituales que puede tener el robot de Google a la hora de acceder a sitios son los siguientes:

  •     Problemas con el servidor que gestiona el sitio
  •     Problemas de red
  •     Directivas de robots.txt que impiden que el robot de Google acceda a la página


Indexación


Después de descubrir una página, Google intenta interpretar su contenido. Esta fase se denomina "indexación" e incluye el procesamiento y el análisis del contenido textual, así como de las etiquetas y los atributos de contenido importantes, como elementos <title>, atributos "alt", imágenes, vídeos y más.

Durante el proceso de indexación, Google determina si una página es un duplicado de otra página de Internet o la canónica. La canónica es la página que puede aparecer en los resultados de búsqueda. Para seleccionar la canónica, primero agrupamos las páginas que hemos encontrado en Internet con contenido parecido, y después seleccionamos la más representativa del grupo. El resto de páginas del grupo son versiones alternativas que se pueden servir en diferentes contextos; por ejemplo, cuando un usuario busca desde un dispositivo móvil o si busca una página muy específica de ese clúster.

Google también recoge señales sobre la página canónica y su contenido, que se puede usar en la siguiente fase, en la que servimos la página en los resultados de búsqueda. Entre estas señales, se incluyen el idioma de la página, el país en el que se encuentra el contenido, la usabilidad de la página, etc.

La información recogida sobre la página canónica y su clúster puede almacenarse en el índice de Google, una gran base de datos alojada en miles de ordenadores. No se garantiza la indexación, ya que no se indexarán todas las páginas que Google procesa.

La indexación también depende del contenido de la página y de sus metadatos. Estos son algunos de los problemas de indexación más habituales:

  •     La calidad del contenido de la página es baja
  •     Hay directivas meta robots que no permiten la indexación
  •     El diseño del sitio web puede dificultar la indexación


Publicación de resultados de búsqueda

No aceptamos pagos para mejorar el posicionamiento de páginas web; esta clasificación se hace automáticamente.

Cuando los usuarios introducen sus consultas, nuestro sistema busca en el índice páginas que coincidan con ellas y devuelve los resultados que consideramos más relevantes y de mayor calidad. Para determinar esta relevancia, el sistema tiene en cuenta cientos de factores, como la ubicación, el idioma y el dispositivo del usuario (ordenador o teléfono). Por ejemplo, si un usuario de Barcelona busca "talleres de reparación de bicicletas", obtendrá resultados diferentes a los de los usuarios de Hong Kong que hagan la misma consulta.

Puede que en Search Console se indique que una página está indexada, pero no se muestra en los resultados de búsqueda. Esto puede deberse a los siguientes motivos:

  •     El contenido de la página es irrelevante para las consultas de los usuarios
  •     La calidad del contenido es baja
  •     Hay directivas meta robots que impiden que se sirvan


Aunque en esta guía se explica cómo funciona la Búsqueda, trabajamos continuamente para mejorar nuestros algoritmos. Para estar al día de todos estos cambios, sigue el blog del Centro de la Búsqueda de Google.

Entradas populares

Imagen

Cifrado Asimétrico