Con la popularización de Internet, el acceso a todo conocimiento e información parecía algo tan sencillo como apretar un botón y esperar durante unos segundos. Sin embargo, los buscadores convencionales como Google o Alta Vista sólo ofrecen acceso a lo que se llama “web visible”, que compone una mínima parte de los contenidos totales alojados en Internet. El resto, corresponde a un entorno que ha quedado en llamarse “web invisible”, estimándose que ésta es 500 veces mayor que la parte visible, tal como recoge Lluís Codina, coincidiendo con lo reflejado en otros informes como este de iespana. Además, ésta crece a mayor velocidad, palabras recogidas por Pilar María Moreno Jiménez en su estudio Estrategias y mecanismos de búsqueda en la web invisible. Por eel término web invisible, entendemos la parte de la web que no pueden ser indizada, de forma que el acceso a ella es complicado, pero no imposible. Esta situación hace que “información valiosa se pierda al no conocer los usuarios su existencia y al no poder ser registrada por los motores de búsqueda. Aunque puede accederse a estos sitios web mediante un navegador convencional, o a través de un navegador complementado con algún programa adicional”, como bien indica el profesor Codina.
¿Por qué una parte de la web se encuentra oculta?
En Internet invisible y web semántica: ¿el futuro de los sistemas de información en línea?, se recogen los principales motivos de la existencia de páginas no indizadas:
- Textos cuyo formato es distinto al HTML.
- Páginas generadas de forma dinámica.
- Páginas que expresamente se excluyen de la actividad indicadora de los motores de búsqueda, es decir, que los propios creadores de esta información deciden no ser indizados.
- Los sitios web que requieren el uso de contraseñas también quedan fuera de la capacidad indizadora de los buscadores.
Ante esta realidad, los motores de búsqueda se modernizan incorporando a sus funciones la capacidad de localizar e indizar nuevos formatos, a fin reducir esa parte de la web no visible. Tal como recoge Codina, Google es el buscador que más formatos es capaz de buscar e indizar, seguido de AllTheWebs, aunque a éste último todavía le queda un largo camino que recorrer para poder equipararse al buscador más utilizado y popular de Internet.
Y ante el problema de las páginas generadas de forma dinámica, Codina ofrece como solución los multibuscadores, “sistemas que aceptan como entrada la pregunta de un usuario y devuelven en una respuesta unificada las respuestas de diversos motores de búsqueda”.
Si la finalidad de todo esto es crear una web transparente donde ningún contenido permanezca escondido, es el momento de hablar de la web semántica. Como ya se apuntó en el debate del día 21, “esto no es más que una aspiración hacia la inteligencia artificial”. Se trata de que los ordenadores puedan interpretar el lenguaje humano, lo que daría lugar a búsquedas más fructíferas.
Este cambio ha de pasar por la estandarización de un etiquetado basado en metadatos y un lenguaje de marcado con formato XML, así como por la voluntad de todos y cada uno de los creadores de contenidos de colaborar a que esto sea posible. Lejos de esto, la situación actual que refleja Codina es la de unos metadatos carentes de semántica, sintaxis y unificación para lo que se ha desarrollado la norma RDF (Resource Description Framework) cuyo objetivo es otorgar estas tres características que nos pondrán en buen camino hacia este propósito que es la web semántica.
No hay comentarios:
Publicar un comentario