Mi primer blog: La Web Superficial y La Web Profunda

En ocasiones hace falta más que unas buenas herramientas y técnicas para acceder a cierta información en Internet. Existe una web superficial en las que estas herramientas y técnicas nos son de gran utilidad. Pero también existe una Web profunda donde no nos son de utilidad. Veamos en qué consisten estas web y en qué se diferencian.

La Web Superficial

Es también conocida como la web visible. La información que contiene está indexada, por lo tanto la podemos acceder a través de una consulta en los buscadores. Los buscadores sólo nos brindan acceso a este tipo de información.

Un sitio web es visible cuando: su información no está en bases de datos, es de libre acceso, no requiere registrarse, sus páginas son Web estáticas con una URL fija y tienen acceso desde otro enlace. Toda la Información en Internet que no posea estas características
pasa a ser parte de la Web profunda.

La Web Profunda

Es también conocida como la Web invisible. Aunque Lluis Codina considera que es un término equivocado y debería más bien llamarse la Web "no indizable". Ya que la información que contiene no está indexada. Esta es la razón por la cual no aparece mediante una consulta tradicional en un buscador.

La información en la Web profunda se encuentra en: catálogos, revistas digitales, blogs, diccionarios y sitios que requieren registrarse. Su información está almacenada en bases de datos. Parte de ella se accede a través de una pregunta a páginas dinámicas, ASP Y PHP. Estas páginas son temporales y después de la consulta desaparecen. No contienen una URL fija, por lo que no se pueden indexar.

Según Sherman y Price existen cuatro tipos de contenidos en la Web profunda:

La Web opaca o “the opaque Web”

Su contenido podría ser encontrado por los buscadores, pero esto no ocurre por causas humanas o técnicas.

Causa humana: Las páginas o archivos son URL desconectadas. Esto es que no poseen un enlace hacia ellos desde otro documento o página.

Causa de los Buscadores. Existen dos causas principales:

La frecuencia en que realizan las indexaciones. No ocurre con la frecuencia necesaria para que las páginas nuevas, agregadas o actualizadas sean indexadas y puedan ser encontradas por los buscadores.
Limite que poseen los buscadores en la cantidad de resultados que pueden mostrar. Esta cantidad es entre 200 a 1000. Si un sitio, archivo o documento indexado no ocupa un lugar entre el límite máximo entonces no aparece. Su contenido es invisible para el usuario.

La Web privada o “the private Web”

Su contenido también podría aparecer en una consulta con un buscador, pero a diferencia de la Web opaca estos resultados no aparecen de forma intencional. Los propietarios de esta información intencionalmente ocultan su información a través de una contraseña, un archivo “robots.txt” o un campo “noindex” para evitar que los buscadores indexen su contenido. Los propietarios excluyen su información de la web visible o superficial y está no puede ser accedida de forma convencional ni existe una forma legal para acceder a ella.

La Web propietaria o “the proprietary Web”

Esta web contiene de las información que requieren de manera obligatoria que el usuario se registre para poder acceder a su ella. Este registro puede ser gratuito o de pago.

La Web realmente invisible o “the truly invisible Web”

Esta web contiene páginas, programas ejecutables y archivos comprimidos que por limitaciones técnicas de los buscadores no se pueden indexar. Son páginas dinámicas que se generan al usuario interactuar con ellas e introducir datos. Su información está en bases de datos y sin una petición específica no se puede acceder a ella.

En conclusión existe una parte de la Internet a la que no podemos acceder de manera convencional, ya sea por tecnicismos de los buscadores o porque los dueños de la información de esas web así lo han querido. De cualquier modo no toda la Web profunda es inaccesible, el público general también puede acceder a parte de ella. Ejemplo de ello son los siguientes enlaces:

The WWW Virtual Library: el catálogo más antiguo en la web.
Infoplease: contiene artículos de la enciclopedia Columbia, enciclopedias, atlas, y biografías

Espero que esta entrada les haya sido de utilidad

Fuente:

Documento “Web Superficial y La Web Profunda” de la Universidad Nacional de Tecnología

Más información:

Estrategias y mecanismos de búsqueda en la web invisible

Internet invisible y web semántica: ¿el futuro de los sistemas de información en línea?

Mi primer blog

miércoles, 18 de noviembre de 2015

La Web Superficial y La Web Profunda