Saltar el menú de navegación e ir al contenido

EROSKI CONSUMER, el diario del consumidor

Buscador

logotipo de fundación

Canales de EROSKI CONSUMER

Secciones dentro de este canal: Tecnología


Estás en la siguiente localización: Portada > Tecnología > Internet y telecomunicaciones

Tipos de contenidos: Tecnología

Consumo de leche y otros productos lácteos
^

La Internet invisible

Una gran parte de la información de la Red no está al alcance de los buscadores convencionales

El contenido de Internet se asemeja a un iceberg. Hay una parte que asoma a la superficie y que es fácilmente accesible a través de los buscadores, encabezados por Google. Pero existe una web profunda, hasta 500 veces mayor, que escapa a los robots de búsqueda, en ella se encuentra la información de numerosas bases de datos especializadas. A pesar de que los buscadores cada vez son más hábiles a la hora de recuperar todo tipo de documentos, los más interesantes para los investigadores, una gran parte de la web sigue siendo invisible a primera vista.

¿Qué es la Red Invisible?

Los buscadores son la puerta de entrada al vasto océano de información que existe en Internet. Sin embargo, no todos los contenidos de la Red son objeto de una simple búsqueda en los directorios o robots (como Google ) que rastrean las páginas web automáticamente. Así, la 'Web Invisible' o 'Web Profunda' está formada por todos los documentos a los que no se puede acceder a través de directorios y los enlaces que ofrecen los resultados de los buscadores convencionales.

Todo el ejército de 'arañas' (motores de búsqueda) que recorren Internet para fichar su contenido palabra a palabra y relacionarlo con una dirección (URL ) no consigue indexar más que una pequeña parte de toda la Red, priorizando el contenido más popular (más visitado), comercial o escrito en lenguas mayoritarias. Gracias a buscadores especializados (temáticos) y metabuscadores se cubren estas zonas de sombra, pero siempre dentro de la 'Internet visible'.

Pero todavía queda una inmensa parte oculta, aquella que contiene según los expertos hasta 500 veces más información que la disponible a través de los buscadores. Esa zona menos accesible de Internet está formada básicamente por:

  • El contenido de las bases de datos a las que se puede acceder a través de la Red, que almacenan información sólo recuperable a través de búsquedas en la propia base de datos (sin poder acudir a cada registro de manera individual desde un enlace en otra página o un buscador al uso).
  • Todo lo que no es texto (archivos multimedia, gráficos, programas...) o los documentos creados con formatos distintos al lenguaje común en Internet (HTML).

La producción de información aumenta a un ritmo vertiginoso y gran parte de ella se almacena en un formato u otro. "El saber total de la Antigüedad custodiado en la Biblioteca de Alejandría", escribe José Antonio Millán , "se ha calculado en 0,8 terabytes (un terabyte equivale a un millón de megabytes), y los veinte millones de libros de la Biblioteca del Congreso de Estados Unidos ocuparían (sin contar sus ilustraciones) 20 terabytes". Según los datos del estudio con el que BrightPlanet trató de medir la profundidad de la web, la parte de Internet fuera del alcance de los buscadores convencionales contendría cerca de 550.000 millones de documentos (7.500 terabytes de información), frente a los 1.000 millones (19 terabytes) de la 'web superficial'. Aunque la parte accesible de la web ha aumentado sustancialmente desde que se publicó el informe (en 2000) -la Universidad de California (Berkeley) estimó que la superficie de la web contenía unos 167 terabytes en 2002 y sólo Google indexa ya más de 5.000 millones de páginas -, también lo ha hecho el área menos visible (a un ritmo mayor, según BrightPlanet), a medida que se crean nuevas bases de datos o crecen y se digitalizan las ya existentes. En 2002 la Web profunda sumaba 91.850 terabytes.

La gran competencia entre los buscadores ha redundado en el desarrollo de tecnologías más avanzadas, que consiguen escarbar cada vez más en la Internet invisible. A través de los buscadores se localizan bases de datos especializadas o se accede a apartados específicos para recuperar noticias, imágenes, mapas, artículos para comprar, etc., a la vez que se aceptan más formatos distintos al estándar de la web, el HTML.

Paginación dentro de este contenido

  •  No hay ninguna página anterior
  • Estás en la página: [Pág. 1 de 3]
  • Ir a la página siguiente: Por qué es invisible »



Otros servicios


Buscar en
Fundación EROSKI

Validaciones de esta página

  • : Conformidad con el Nivel Triple-A, de las Directrices de Accesibilidad para el Contenido Web 1.0 del W3C-WAI
  • XHTML: Validación del W3C indicando que este documento es XHTML 1.1 correcto
  • CSS: Validación del W3C indicando que este documento usa CSS de forma correcta
  • RSS: Validación de feedvalidator.org indicando que nuestros titulares RSS tienen un formato correcto