En ocasiones hace falta más que unas buenas herramientas y
técnicas para acceder a cierta información en Internet. Existe una web superficial en las que estas herramientas y
técnicas nos son de gran utilidad. Pero
también existe una Web profunda donde no nos son
de utilidad. Veamos en qué consisten
estas web y en qué se diferencian.
La Web Superficial
Es también conocida como la web visible.
La información que contiene está indexada,
por lo tanto la podemos acceder a través de una consulta en los buscadores.
Los buscadores sólo nos brindan acceso a este
tipo de información.
Un sitio web es visible cuando: su información no está en
bases de datos, es de libre acceso, no requiere registrarse, sus páginas son
Web estáticas con una URL fija y tienen acceso desde otro enlace. Toda la Información en Internet que no
posea estas características
pasa a ser parte de la Web profunda.
La Web Profunda
Es también conocida como la Web invisible.
Aunque Lluis Codina considera que es un término
equivocado y debería más bien llamarse la Web "no indizable".
Ya que la información que contiene no está
indexada.
Esta es la razón por la cual
no aparece mediante una consulta tradicional en un buscador.
La información en la Web profunda se encuentra en: catálogos,
revistas digitales, blogs, diccionarios y sitios que requieren registrarse. Su información está almacenada en bases de
datos. Parte de ella se accede a través
de una pregunta a páginas dinámicas, ASP Y PHP.
Estas páginas son temporales y después de la consulta desaparecen. No contienen una URL fija, por lo que no se
pueden indexar.
Según Sherman y Price existen cuatro tipos de contenidos en
la Web profunda:
La Web opaca o “the opaque
Web”
Su contenido podría ser encontrado por los buscadores, pero esto no ocurre por causas humanas o
técnicas.
Causa humana: Las páginas o archivos son URL desconectadas.
Esto es que no poseen un enlace hacia ellos
desde otro documento o página.
Causa de los Buscadores.
Existen dos causas principales:
- La frecuencia en que realizan las indexaciones. No ocurre con la frecuencia necesaria para que
las páginas nuevas, agregadas o
actualizadas sean indexadas y puedan ser encontradas por los buscadores.
- Limite que poseen los buscadores en la cantidad de
resultados que pueden mostrar. Esta
cantidad es entre 200 a 1000. Si un
sitio, archivo o documento indexado no ocupa un lugar entre el límite máximo entonces
no aparece. Su contenido es invisible
para el usuario.
La Web privada o “the
private Web”
Su contenido también podría aparecer en una consulta con un
buscador, pero a diferencia de la Web opaca estos resultados no aparecen de
forma intencional.
Los propietarios de
esta información intencionalmente ocultan su información a través de una contraseña,
un archivo “robots.txt” o un campo “noindex” para evitar que los buscadores
indexen su contenido.
Los propietarios
excluyen su información de la web visible o superficial y está no puede ser
accedida de forma convencional ni existe una forma legal para acceder a ella.
La Web propietaria o “the
proprietary Web”
Esta web contiene de las información que requieren de manera
obligatoria que el usuario se registre para poder acceder a su ella. Este registro puede ser gratuito o de pago.
La Web realmente invisible o “the truly
invisible Web”
Esta web contiene páginas, programas ejecutables y archivos
comprimidos que por limitaciones técnicas de los buscadores no se pueden indexar.
Son páginas dinámicas que se generan al
usuario interactuar con ellas e introducir datos.
Su información está en bases de datos y sin
una petición específica no se puede acceder a ella.
En conclusión existe una parte de la Internet a la que no
podemos acceder de manera convencional, ya sea por tecnicismos de los
buscadores o porque los dueños de la información de esas web así lo han querido. De cualquier modo no toda la Web profunda es inaccesible,
el público general también puede acceder a parte de ella. Ejemplo de ello son los siguientes enlaces:
- The WWW Virtual Library: el
catálogo más antiguo en la web.
- Infoplease: contiene
artículos de la enciclopedia Columbia, enciclopedias, atlas, y biografías
Espero que esta
entrada les haya sido de utilidad
Fuente:
Más información: