Archivo | marzo, 2013

¿Cómo busca Google?

10 Mar

Google es hoy día una de las multinacionales más grandes e importantes del mundo.

Esta empresa ofrece gran cantidad de servicios como Youtube (sitio web de videos online), Gmail (correo electrónico), Google Talk (servicio de mensajeria instantánea), Google Chrome (navegador web), desarrolla el sistema operativo Android… y otras muchas empresas y servicios que han ido adquiriendo a lo largo de la vida de Google. Sin embargo, el principal servicio y el inicio de la compañia radicaba en ser un motor de búsqueda de contenido en internet.

Toda la importancia y popularidad de este buscador web que hoy día no tiene ningún competidor lo suficientemente fuerte como para desvancarle, reside en su algoritmo de busqueda de la información cuando un usuario necesita encontrar la información que desea.

En 20 minutos, encontré una noticia en la que Google desvela muy por encima como funciona este sistema.

http://www.google.com/insidesearch/howsearchworks/thestory/

El proceso de rastreo se divide en distintas etapas:

Crawling: («gateo») Google rastrea buscando los enlaces página a página entre más de 30 billones de páginas de internet. Los propietarios de las páginas pueden permitir o no que google busque en ellos. Luego, esta información es indexada para tener constancia de ella (esto ocupa unos 100 millones de gigabytes).

Algoritmos: Inicialmente, se usan una serie de fórmulas y algoritmos para identificar las palabras que un usuario teclea en el buscador, se usan sinónimos, palabras relacionadas por temas… Esto se indexa con los índices con los que tengan más relación.

A continuación, otro tipo de algoritmos son usados para clasificar y poder mostrar la información por orden de importancia que el usuario ha demandado.

Se usa un algoritmo llamado PageRank que expresa la importancia de cada página web con una escala de 1 a 10. Se usan los enlaces de unas páginas con otras y se establece unos votos que una página da en relación a otra, mirando también la importancia de la página web que está dando el voto. Por lo tanto en función del volumen de votos y la procedencia de estos las páginas web son ordenadas y mostradas al usuario.

La fórmula inicial del PageRank era:

{\rm PR}(A) = (1-d) + d  \sum_{i=1}^n {{\rm PR}(i) \over C(i)}

  •  PR(A) es el PageRank de la página A.
  • d es un factor de amortiguación que tiene un valor entre 0 y 1.
  •  PR(i) son los valores de PageRank que tienen cada una de las páginas i que enlazan a A.
  • C(i) es el número total de enlaces salientes de la página i (sean o no hacia A).

Dentro de este sistema se usan más de 200 factores distintos de votación y diariamente multitud de ingenieros trabajan en mejorar estos algoritmos.

-Lucha contra el Spam: Este sistema se podía manipular con ciertos métodos como el Spam que añadía enlaces a determinadas páginas web en multitud de sitios web como blogs, foros de internet…. Por ese motivo desde 2005 Google modificó su sistema añadiendo atributos que combatieran a el Spam. Hoy día esto es uno de los principales problemas de google, para poder dar un correcto servicio a sus clientes.

Para ver otros artículos relacionados con Google y otros temas de interés, se puede acceder al blog de mi compañero:

http://disiblogmbt.blogspot.com.es/