Saltar o menú de navegación e ir ao contido

EROSKI CONSUMER, o diario do consumidor

Buscador

logotipo de fundación

Canles de EROSKI CONSUMER


Estás na seguinte localización: Portada > Novas tecnoloxías > Internet e telecomunicacións

Este artigo foi traducido por un sistema de tradución automática. Máis información, aquí.

A Internet invisible

Una gran parte da información da Rede non está ao alcance dos buscadores convencionais

O contido de Internet aseméllase a un iceberg. Hai una parte que asoma á superficie e que é facilmente accesible a través dos buscadores, encabezados por Google. Pero existe una web profunda, até 500 veces maior, que escapa aos robots de procura, nela atópase a información de numerosas bases de datos especializadas. A pesar de que os buscadores cada vez son máis hábiles á hora de recuperar todo tipo de documentos, os máis interesantes paira os investigadores, una gran parte da web segue sendo invisible a primeira vista.

Que é a Rede Invisible?

Os buscadoresson a porta de entrada ao vasto océano de información que existe en Internet. Con todo, non todos os contidos da Rede son obxecto dunha simple procura nos directorios ou robots (como Google) que rastrexan as páxinas web automaticamente. Así, a ‘Web Invisible’ ou ‘Web Profunda’ está formada por todos os documentos aos que non se pode acceder a través de directorios e enlácelos que ofrecen os resultados dos buscadores convencionais.

Todo o exército de ‘arañas’ (motores de procura) que percorren Internet paira fichar a súa contido palabra a palabra e relacionalo cunha dirección (URL) non consegue indexar máis que una pequena parte de toda a Rede, priorizando o contido máis popular (máis visitado), comercial ou escrito en linguas maioritarias. Grazas a buscadores especializados(temáticos) e metabuscadores cóbrense estas zonas de sombra, pero sempre dentro da ‘Internet visible’.

Pero aínda queda una inmensa parte oculta, aquela que contén segundo os expertos até 500 veces máis información que a dispoñible a través dos buscadores. Esa zona menos accesible de Internet está formada basicamente por:

  • O contido das bases de datos ás que se pode acceder a través da Rede, que almacenan información só recuperable a través de procuras na propia base de datos (sen poder acudir a cada rexistro de maneira individual desde un enlace noutra páxina ou un buscador ao uso).
  • Todo o que non é texto (arquivos multimedia, gráficos, programas…) ou os documentos creados con formatos distintos á linguaxe común en Internet (HTML).

A produción de información aumenta a un ritmo vertixinosoe gran parte dela almacénase nun formato ou outro. “O saber total da Antigüedad custodiado na Biblioteca de Alexandría”, escribe José Antonio Millán, “calculouse en 0,8 terabytes (un terabyte equivale a un millón de megabytes), e o vinte millóns de libros da Biblioteca do Congreso de Estados Unidos ocuparían (sen contar as súas ilustracións) 20 terabytes”. Segundo os datos do estudoco que BrightPlanet tratou de medir a profundidade da web, a parte de Internet fose do alcance dos buscadores convencionais contería preto de 550.000 millóns de documentos (7.500 terabytes de información), fronte aos 1.000 millóns (19 terabytes) da ‘web superficial’.Aínda que a parte accesible da web aumentou substancialmente desde que se publicou o informe (en 2000) -a Universidade de California (Berkeley) estimou que a superficie da web contiña uns 167 terabytesen 2002 e só Google indexa xa máis de 5.000 millóns de páxinas-, tamén o fixo a área menos visible (a un ritmo maior, segundo BrightPlanet), a medida que se crean novas bases de datos ou crecen e dixitalízanse as xa existentes. En 2002 a Web profunda sumaba 91.850 terabytes.

A gran competencia entre os buscadores redundou no desenvolvemento de tecnoloxías máis avanzadas, que conseguen escarbar cada vez máis na Internet invisible. A través dos buscadores localízanse bases de datos especializadas ou se accede a apartados específicos paira recuperar noticias, imaxes, mapas, artigos paira comprar, etc., á vez que se aceptan máis formatos distintos ao estándar da web, o HTML.

Paxinación dentro deste contido


Pódeche interesar:

Infografía | Fotografías | Investigacións