El número de
páginas web supera los mil millones, la cifra se alcanzó hace unos meses según los datos difundidos en tiempo real por la web Internet Live Stats A esa hora, el
número de páginas web había ascendido a más de 1.060 millones, una cifra
que no para de crecer y a un ritmo considerable, según revelan los datos.
Figura 1. Captura en tiempo real de la web Internet Live Stats.
Internet, esa red
mundial interconectada, ideada por el británico Tim Berners-Lee, (artículo) que presentó su
idea por escrito el 12 de marzo de 1989 (fecha oficial establecida como el
nacimiento de la web) y que estableció la primera comunicación entre un cliente
y un servidor usando el protocolo HTTP un poco más tarde, allá por noviembre de
1989, celebró sus 25 años este 2014.
Este hito en comunicación transformaría por
completo la vida de miles de millones de personas en todo el mundo con el
paso del tiempo. Ahora, en la actualidad, es imposible concebir el mundo tal y
como lo vivimos sin la presencia de internet.
A pesar de que los inicios de la web fueron tímidos, los gurús de la red
afirman que el punto de inflexión en la creación de páginas web tuvo lugar
en 1993 con la introducción del navegador Mosaic, que propició un auténtico “boom” de nuevas
páginas, crecimiento que, no ha ido sino aumentando a un ritmo acelerado desde
entonces y con el único punto negativo destacable del estallido o desplome de
la burbuja de las punto-com en 2001.
Figura 2. Captura Country Codes of ther World.
Los algoritmos de los buscadores evolucionan a la vez que lo hacen las necesidades de las personas. Al principio la única manera que había de organizar la información era mediante directorios, ¿quién no se acuerda cómo era buscar en Ask y Yahoo?
La revolución
de los buscadores vino cuando Sergey Brin y Larry Page fueron capaces de crear
un algoritmo de IR que ordenaba las páginas por el número enlaces
que recibían y te las ofrecía en una lista de 10 resultados. Gracias a este
desarrollo del PageRank nació Google.
Poco a poco
los buscadores fueron incorporando este sistema y añadiendo otros algoritmos de
IR en paralelo (o reescribiendo directamente el core). Por ejemplo algoritmos
centrados en las páginas y sus relaciones (como el HITS, TrustRank, Okapi 25,
Tf-idf…), evolucionando hacia el contenido y calidad (los de NLP; LSI,
LDA, Spamdexing…) para llegar a las entidades (con el AuthorRank, el
SocialGraph…).
Hasta
ahora vivimos en un mundo de 10 links azules donde, para encontrar
la información que buscas, tienes que leer los snippets de
texto y con un poco de suerte encuentras la respuesta a tus preguntas.
Durante mucho tiempo esto ha sido (y sigue siendo) una buena solución, pero no
es suficiente para el usuario cuyas necesidades evolucionan (búsquedas más
cortas en móvil, más búsquedas locales, búsquedas por voz…).
El problema sobretodo
reside en que es muy difícil para un buscador capturar la intención real del
usuario en una búsqueda y ofrecer un resultado óptimo. Y este problema es
todavía más complejo de resolver por los algoritmos cuando hablamos de
búsquedas de nombre de entidades y la intención que hay detrás ellas.
Figura 3. Captura Google BETA (1998).
¿QUÉ ES UNA ENTIDAD ?
Muy sencillo,
una entidad puede ser una persona, un lugar o una cosa. Y estas
entidades se pueden asociar a fechas, acciones u otras entidades.
A día de hoy, una porción muy
significativa de las búsquedas son nombres de entidades (20-30% según un
estudio de Microsoft (documento)
y una porción aún más grande de las búsquedas son las que contienen nombres de
entidades (71% según el mismo estudio). Como he mencionado antes, es complejo
para un buscador detectar la intención que hay detrás de la búsqueda
de una entidad. A continuación podemos un ejemplo de cuáles son las intenciones
más comunes detrás de diferentes tipos entidades:
Internet, esa red
mundial interconectada, ideada por el británico Tim Berners-Lee, que presentó su
idea por escrito el 12 de marzo de 1989 (fecha oficial establecida como el
nacimiento de la web) y que estableció la primera comunicación entre un cliente
y un servidor usando el protocolo HTTP un poco más tarde, allá por noviembre de
1989, celebró sus 25 años este 2014.
Este hito en
comunicación transformaría por completo la vida de miles de millones de
personas en todo el mundo con el paso del tiempo. Ahora, en la actualidad,
es imposible concebir el mundo tal y como lo vivimos sin la presencia de
internet.
Figura 4.
Intenciones más comunes para ciertos tipos de
entidades.
Incluso para
búsquedas que contienen nombres de entidades cuya intención debería ser más
clara, los usuarios escogen diferentes tipos de resultados. En la imagen
siguiente podemos ver un ejemplo real de las intenciones que hay detrás de
4 tipos distintos de búsquedas que contienen la entidad “Seattle”:
Figura 5.Porcentaje de usuarios escogiendo
diferentes resultados para cuatro búsquedas distintas que contienen la palabra “Seattle”.
Otro problema que nos encontramos con las entidades
pueden ser citadas por más de un nombre, o un mismo nombre puede ser referido a
entidades distintas. Por ejemplo la entidad “Barcelona” puede ser referida
a la ciudad española, al equipo de fútbol y en menor medida a la ciudad de
Venezuela. También la Barcelona española es comúnmente conocida por “ciudad
condal".
Figura 6. Grado de conectividad social.
LAS ENTIDADES Y LOS BUSCADORES
Los principales buscadores están
continuamente desarrollando y testeando diferentes soluciones para satisfacer
las necesidades del usuario cuando hace una búsqueda con el nombre de una
entidad. Por ejemplo, nada más entrar en Yahoo, nos encontramos con un apartado
que nos muestra “lo más buscado”, donde vemos curiosamente que la mayoría
de search queries son nombres de entidades.
Figura 7. Lo más buscado en Yahoo.
En Google para resolver estas
necesidades se usa el Knowledge Graph (KG o copia de Wikipedia para los
amigos). Podemos ver para la query “Barcelona” que la principal tarea que viene
a realizar el usuario es más la futbolística que cultural/turística, pero no
por ello no se incluye la segunda por su peso:
Figura 8.Google Knowledge Graph para la búsqueda “Barcelona”.
Bing también tiene su propio KG,
pero si no está seguro no te lo muestra y te ofrece en el lateral
queries relacionadas antes de mostrártelo.
Uno de los mejores
buscadores semánticos Wolfram Alpha, para la entidad Barcelona te ofrece una
desambiguación como podemos ver:
Figura 9. Búsqueda semántica en 'WolframAppha'.
Entonces para que los
buscadores puedan ofrecer las respuestas específicas más populares o una
ayuda para que el usuario pueda completar su tarea inicial, no sólo tienen
que capturar la intención, sino también las relaciones que hay entre las
entidades. Para ello hace falta que esa información se extraiga, se
relacione y se almacene en algún lugar. Y la mejor manera de lograrlo
eficientemente es mediante grafos.
----------------- TO BE CONTINUED ---------------------