Saltar o menú de navegación e ir ao contido

EROSKI CONSUMER, o diario do consumidor

Buscador

logotipo de fundación

Canles de EROSKI CONSUMER


Estás na seguinte localización: Portada > Novas tecnoloxías > Internet e telecomunicacións

Este artigo foi traducido por un sistema de tradución automática. Máis información, aquí.

A Internet invisible

Una gran parte da información da Rede non está ao alcance dos buscadores convencionais

O contido de Internet aseméllase a un iceberg. Hai una parte que asoma á superficie e que é facilmente accesible a través dos buscadores, encabezados por Google. Pero existe una web profunda, até 500 veces maior, que escapa aos robots de procura, nela atópase a información de numerosas bases de datos especializadas. A pesar de que os buscadores cada vez son máis hábiles á hora de recuperar todo tipo de documentos, os máis interesantes paira os investigadores, una gran parte da web segue sendo invisible a primeira vista.

Por que é invisible

Existen dous motivos fundamentais que explican por que o contido de Internet non está incluído en directorios ou non é rexistrado polos motores de procura: as barreiras técnicas que impiden o acceso e a elección dos propios buscadores á hora de excluír algúns tipos de páxinas web.

Páxinas inaccesibles paira os robots de procura.

As bases de datos dos buscadores son xeradas por robots que navegan por Internet escudriñando no contido de páxinas estáticas, que paira ser indexadas deben estar enlazadas desde outras páxinas; se non existe un enlace a unha páxina determinada, o robot non a pode ver. Estas arañas que alimentan as bases de datos tampouco poden rexistrar o contido das páxinas ás que non poden entrar, ou ben porque requiren teclear algo (una palabra de acceso, por exemplo) ou ben porque é preciso elixir entre varias opcións paira chegar ao contido.

Da incapacidade dos motores de procura paira penetrar en certas páxinas nacen dous tipos de páxinas invisibles.

  • Os contidos de bases de datos especializadas, dependendo do número de páxinas estáticas que conteñan. Os resultados devoltos ao efectuar una procura nunha base de datos preséntanse normalmente mediante páxinas dinámicas, é dicir, páxinas que se xeran cada vez que se realiza una procura e non se gardan en ningún sitio. Os robots non poden atopar as páxinas que mostran o contido destas bases de datos.
  • As páxinas de pago ou calquera que requira rexistro previo (usuario e contrasinal) paira acceder ao seu contido non son accesibles paira os robots e, por tanto, non se atopan a través dos buscadores convencionais.

Páxinas excluídas polos propios buscadores.

Algunhas páxinas estáticas son visibles e facilmente clasificables paira as arañas de procura, aínda que en ocasións poidan ser invisibles por razóns de autocensura dos buscadores (por motivos técnicos ou políticos). Os directorios clasifican e jerarquizan una pequena parte do contido de Internet, pero tamén os motores de procura, que rastrexan a Rede periodicamente exclúen certas páxinas web paira non saturar as súas enormes bases de datos e facer as procuras máis rápidas e eficientes.

Tanto as bases de datos como os robots dos buscadores están optimizados paira manexar HTML, a linguaxe estándar da Web. Algúns buscadores exclúen dos seus resultados as páxinas que están noutros formatos, ben porque son inusuais, ben porque os usuarios solicítanas con pouca frecuencia. Así mesmo, as páxinas sen texto (imaxes, por exemplo) son omitidas nos buscadores xerais (non hai ningunha palabra que buscar), aínda que case todos os importantes desenvolveron un apartado especial paira localizar imaxes.

Tamén os buscadores fixeron esforzos paira localizar páxinas en diversos formatos, como flash, shockwave ou documentos de Word, Excel ou presentacións de PowerPoint. Google, por exemplo, introduciu paulatinamente procuras sobre documentos PDFe outros formatos, que se poden atopar de maneira específica mediante a procura avanzada. Tamén ofrece procuras especiaisdentro de determinadas categorías.

Paxinación dentro deste contido


Pódeche interesar:

Infografía | Fotografías | Investigacións