Salta el menú de navegació i ves al contingut

EROSKI CONSUMER, el diari del consumidor

Cercador

logotip de fundació

Canals d’EROSKI CONSUMER


Estàs en la següent localització: Portada > Noves tecnologies > Internet i telecomunicacions

Aquest text ha estat traduït per un sistema de traducció automàtica. Més informació, aquí.

La Internet invisible

Una gran part de la informació de la Xarxa no està a l'abast dels cercadors convencionals

El contingut d’Internet s’assembla a un iceberg. Hi ha una part que apunta a la superfície i que és fàcilment accessible a través dels cercadors, encapçalats per Google. Però existeix una web profunda, fins a 500 vegades major, que escapa als robots de cerca, en ella es troba la informació de nombroses bases de dades especialitzades. A pesar que els cercadors cada vegada són més hàbils a l’hora de recuperar tot tipus de documents, els més interessants per als investigadors, una gran part de la web continua sent invisible a primera vista.

Què és la Xarxa Invisible?

Els cercadorssón la porta d’entrada al vast oceà d’informació que existeix en Internet. No obstant això, no tots els continguts de la Xarxa són objecte d’una simple cerca en els directoris o robots (com Google) que rastregen les pàgines web automàticament. Així, la ‘Web Invisible’ o ‘Web Profunda’ està formada per tots els documents als quals no es pot accedir a través de directoris i els enllaços que ofereixen els resultats dels cercadors convencionals.

Tot l’exèrcit de ‘aranyes’ (motors de cerca) que recorren Internet per a fitxar la seva contingut paraula a paraula i relacionar-lo amb una adreça (URL) no aconsegueix indexar més que una petita part de tota la Xarxa, prioritzant el contingut més popular (més visitat), comercial o escrit en llengües majoritàries. Gràcies a cercadors especialitzats(temàtics) i metacercadors es cobreixen aquestes zones d’ombra, però sempre dins de la ‘Internet visible’.

Però encara queda una immensa part oculta, aquella que conté segons els experts fins a 500 vegades més informació que la disponible a través dels cercadors. Aquesta zona menys accessible d’Internet està formada bàsicament per:

  • El contingut de les bases de dades a les quals es pot accedir a través de la Xarxa, que emmagatzemen informació només recuperable a través de cerques en la pròpia base de dades (sense poder acudir a cada registre de manera individual des d’un enllaç en una altra pàgina o un cercador a l’ús).
  • Tot el que no és text (arxius multimèdia, gràfics, programes…) o els documents creats amb formats diferents al llenguatge comú en Internet (HTML).

La producció d’informació augmenta a un ritme vertiginósi gran part d’ella s’emmagatzema en un format o un altre. “El saber total de l’Antiguitat custodiat a la Biblioteca d’Alexandria”, escriu José Antonio Millán, “s’ha calculat en 0,8 terabytes (un terabyte equival a un milió de megaoctets), i els vint milions de llibres de la Biblioteca del Congrés dels Estats Units ocuparien (sense comptar les seves il·lustracions) 20 terabytes”. Segons les dades de l’estudi amb el qual BrightPlanet va tractar de mesurar la profunditat de la web, la part d’Internet fora de l’abast dels cercadors convencionals contindria prop de 550.000 milions de documents (7.500 terabytes d’informació), enfront dels 1.000 milions (19 terabytes) de la ‘web superficial’.Encara que la part accessible de la web ha augmentat substancialment des que es va publicar l’informe (en 2000) -la Universitat de Califòrnia (Berkeley) va estimar que la superfície de la web contenia uns 167 terabytesen 2002 i només Google indexa ja més de 5.000 milions de pàgines-, també ho ha fet l’àrea menys visible (a un ritme major, segons BrightPlanet), a mesura que es creen noves bases de dades o creixen i es digitalitzen les ja existents. En 2002 la Web profunda sumava 91.850 terabytes.

La gran competència entre els cercadors ha redundat en el desenvolupament de tecnologies més avançades, que aconsegueixen furgar cada vegada més en la Internet invisible. A través dels cercadors es localitzen bases de dades especialitzades o s’accedeix a apartats específics per a recuperar notícies, imatges, mapes, articles per a comprar, etc., alhora que s’accepten més formats diferents a l’estàndard de la web, l’HTML.

Paginació dins d’aquest contingut


Et pot interessar:

Infografies | Fotografies | Investigacions