Salta el menú de navegació i ves al contingut

EROSKI CONSUMER, el diari del consumidor

Cercador

logotip de fundació

Canals d’EROSKI CONSUMER


Estàs en la següent localització: Portada > Noves tecnologies > Internet i telecomunicacions

Aquest text ha estat traduït per un sistema de traducció automàtica. Més informació, aquí.

La Internet invisible

Una gran part de la informació de la Xarxa no està a l'abast dels cercadors convencionals

El contingut d’Internet s’assembla a un iceberg. Hi ha una part que apunta a la superfície i que és fàcilment accessible a través dels cercadors, encapçalats per Google. Però existeix una web profunda, fins a 500 vegades major, que escapa als robots de cerca, en ella es troba la informació de nombroses bases de dades especialitzades. A pesar que els cercadors cada vegada són més hàbils a l’hora de recuperar tot tipus de documents, els més interessants per als investigadors, una gran part de la web continua sent invisible a primera vista.

Per què és invisible

Existeixen dos motius fonamentals que expliquen per què el contingut d’Internet no està inclòs en directoris o no és registrat pels motors de cerca: les barreres tècniques que impedeixen l’accés i l’elecció dels propis cercadors a l’hora d’excloure alguns tipus de pàgines web.

Pàgines inaccessibles per als robots de cerca.

Les bases de dades dels cercadors són generades per robots que naveguen per Internet escodrinyant en el contingut de pàgines estàtiques, que per a ser indexades han d’estar enllaçades des d’altres pàgines; si no existeix un enllaç a una pàgina determinada, el robot no la pot veure. Aquestes aranyes que alimenten les bases de dades tampoc poden registrar el contingut de les pàgines a les quals no poden entrar, o bé perquè requereixen teclejar alguna cosa (una paraula d’accés, per exemple) o bé perquè cal triar entre diverses opcions per a arribar al contingut.

De la incapacitat dels motors de cerca per a penetrar en certes pàgines neixen dos tipus de pàgines invisibles.

  • Els continguts de bases de dades especialitzades, depenent del nombre de pàgines estàtiques que continguin. Els resultats retornats en efectuar una cerca en una base de dades es presenten normalment mitjançant pàgines dinàmiques, és a dir, pàgines que es generen cada vegada que es realitza una cerca i no es guarden en cap lloc. Els robots no poden trobar les pàgines que mostren el contingut d’aquestes bases de dades.
  • Les pàgines de pagament o qualsevol que requereixi registre previ (usuari i contrasenya) per a accedir al seu contingut no són accessibles per als robots i, per tant, no es troben a través dels cercadors convencionals.

Pàgines excloses pels propis cercadors.

Algunes pàgines estàtiques són visibles i fàcilment classificables per a les aranyes de cerca, encara que a vegades puguin ser invisibles per raons d’autocensura dels cercadors (per motius tècnics o polítics). Els directoris classifiquen i jerarquitzen una petita part del contingut d’Internet, però també els motors de cerca, que rastregen la Xarxa periòdicament exclouen certes pàgines web per a no saturar les seves enormes bases de dades i fer les cerques més ràpides i eficients.

Tant les bases de dades com els robots dels cercadors estan optimitzats per a manejar HTML, el llenguatge estàndard de la Web. Alguns cercadors exclouen dels seus resultats les pàgines que estan en altres formats, bé perquè són inusuals, bé perquè els usuaris les sol·liciten amb poca freqüència. Així mateix, les pàgines sense text (imatges, per exemple) són omeses en els cercadors generals (no hi ha cap paraula que buscar), encara que gairebé tots els importants han desenvolupat un apartat especial per a localitzar imatges.

També els cercadors han fet esforços per a localitzar pàgines en diversos formats, com a flaix, shockwave o documents de Word, Excel o presentacions de PowerPoint. Google, per exemple, va introduir gradualment cerques sobre documents PDFi altres formats, que es poden trobar de manera específica mitjançant la cerca avançada. També ofereix cerques especialsdins de determinades categories.

Paginació dins d’aquest contingut


Et pot interessar:

Infografies | Fotografies | Investigacions