Psiquiatria Baseada em Evidências

Dr Antonio Carlos Lopes

Máquinas de busca na Internet: uma análise crítica segundo a literatura

 

A utilização cada vez mais disseminada dos recursos da Internet vem promovendo mudanças radicais na forma como as informações estão sendo e serão recuperadas, independentemente da área do conhecimento a qual estejamos nos referindo.

Atualmente, por exemplo, em ciências da saúde, um número crescente de periódicos já começam a ser veiculados através da Internet, alguns gratuitamente, outros mediante o pagamento de assinaturas eletrônicas através da rede mundial. Antes de uma revista ser enviada a sua casa, ou de ser distribuída entre bibliotecas, seu acesso através do computador está plenamente disponível. Certos artigos, inclusive, encontram-se à disposição na Internet antes mesmo à sua publicação em papel.

Além do acesso a informações no formato de texto, inúmeras bases de dados da área de saúde permitem acesso "online". Bases de dados de imagens em Medicina, mapeamento genético, animações e vídeo, teleconferências em tempo real, listas de discussões, etc. - estes são apenas alguns dos mais variados recursos que a Internet atualmente oferece. É muito importante, a todos aqueles que queiram aproveitar essa rica infinidade de ferramentas, o conhecimento não apenas do que podemos utilizar, mas, principalmente, como podemos localizar estes recursos. Neste sentido, é fundamental o papel das chamadas "máquinas de busca".

Aos menos familiarizados ao tema, uma máquina de busca refere-se a uma página na Internet a qual, teoricamente, permitiria descobrirmos o endereço de qualquer página veiculada na Internet. Representa, na verdade, uma base de dados contendo os endereços das mais variadas páginas da rede mundial, indexadas para posterior busca. Na prática, porém, observamos que estes diferentes serviços servem a diferentes propósitos. A abrangência e a atualização de seus dados também é muito variável de acordo com o serviço. Existem, inclusive, máquinas de busca específicas para a procura de endereços/telefones de pessoas, para busca de imagens, de mapas, de temas da área de saúde, etc. Na tabela 1 abaixo encontra-se uma relação das principais máquinas de busca disponíveis na Internet.

Tabela 1. Principais máquinas de busca e de metabusca na Internet, internacionais, brasileiras ou específicas.

Máquinas de busca/metabusca

Endereço na Internet

 

 

Internacionais

 

Northern Light

www.northernlight.com

Snap

www.snap.com

AltaVista

www.altavista.com

HotBot

www.hotbot.com

Microsoft

search.msn.com

Infoseek

www.infoseek.com

Google

google.stanford.edu

Yahoo

www.yahoo.com

Excite

www.excite.com

Lycos

www.lycos.com

EuroSeek

www.euroseek.net

 

 

Metabusca

 

MetaCrawler

www.metacrawler.com

Debriefing

www.debriefing.com

Dogpile

www.dogpile.com

Highway61

www.highway61.com

Mamma

www.mamma.com

ProFusion

www.profusion.com

SavvySearch

www.savvysearch.com

 

 

Nacionais

 

Cadê

www.cade.com.br

RadarUOL

www.radaruol.com.br

Família Miner (metabusca brasileira)

miner.uol.com.br

 

 

Específicas

 

WhoWhere

www.whowhere.com

Bigfoot

www.bigfoot.com

Altavista People Search

www.switchboard.com/bin/cgiemail.dll?MG=&MEM=212

Apesar de sua fundamental utilidade, ao trabalharmos com uma máquina de busca freqüentemente não conseguimos localizar aquela página na qual estamos interessados. Os motivos são vários. Primeiro, existem muitos destes serviços à disposição. Habitualmente os usuários não têm conhecimento sobre as especificidades de cada um. Por exemplo, alguns, como o Yahoo, são adequados para a procura de páginas sobre grandes temas, ou na busca de páginas relacionadas a companhias, marcas, universidades ou assuntos genéricos. Geralmente, oferecem uma lista menor de páginas relacionadas àquele tema, mas com uma maior especificidade. Outras máquinas de busca, como a AltaVista, ou a Northern Light, permitem vasculhar o maior número possível de "sites" sobre um determinado tema. São muito úteis quando necessitamos de informações específicas, difíceis de se encontrar, tais como "prevalência de transtornos mentais em São Paulo". Há ainda as máquinas de busca brasileiras, acessando um maior número de páginas de nosso país, além das chamadas máquinas de "metabusca" - páginas as quais procuram sobre determinado tema em várias máquinas de busca ao mesmo tempo, oferecendo um resultado único.

Recentemente, na edição de julho da Nature, Steve Lawrence e C. Lee Giles publicaram um importante artigo de análise crítica sobre a disponibilidade de acesso a informação na rede mundial através das máquinas de busca. Segundo estes autores, apenas a Internet de domínio público atualmente compreende ao menos 800 milhões de páginas, ou 6 terabytes de dados em texto em cerca de 3 milhões de servidores. Destes, por volta de 6% do total de páginas refere-se a conteúdo científico/educacional e quase 3% relaciona-se a temas da área de saúde. Cerca de 85% dos usuários utilizam-se de máquinas de busca para tentar localizar informações. As máquinas de busca, na atualidade, figuram entre as 10 principais páginas mais acessadas no mundo.

O conteúdo de 1050 buscas diferentes foi analisado, entre 25 e 28 de fevereiro de 1999, em 11 máquinas de busca internacionais, respectivamente: Northern Light, Snap, AltaVista, HotBot, Microsoft, Infoseek, Google, Yahoo, Excite, Lycos e EuroSeek. Alguns dados curiosos foram obtidos. Dentre os serviços capazes de indexar o maior número de páginas em relação ao tamanho estimado da rede, Northern Light (16,0 %), Snap (15,5 %) e AltaVista (15,5 %) mostraram-se os mais completos. Ainda assim, como podemos observar, uma percentagem pequena do número total de páginas na Internet pôde ser indexado. A coincidência entre os resultados das diferentes máquinas manteve-se relativo baixo. A utilização de máquinas de metabusca, como a MetaCrawler, permitiram um aumento substancial da cobertura da rede.

Em relação à evolução no número de páginas indexadas, AltaVista teve uma redução significativa no número de páginas em sua base de dados, de novembro de 98 a abril de 99, ao contrário da Northern Light, a qual recentemente superou o número de "sites" indexados pelo AltaVista.

Quanto à atualização dos dados nas máquinas de busca, um dos critérios analisados foi a percentagem de "links" inválidos (páginas relatadas pelos serviços de busca, mas cujos endereços foram modificados ou não mais existem). Neste parâmetro, Lycos, Northern Light, Google e AltaVista obtiveram as piores percentagens, respectivamente, de "links" inválidos. Outro critério foi a média e mediana de dias entre novas atualizações das bases de dados. Em termos gerais, a idade média de cada página indexada era de 186 dias, com uma mediana de 57 dias. Ou seja: meses poderiam se seguir até a adição de novas páginas ou a atualização das já existentes. Northern Light, Infoseek e AltaVista obtiveram as menores médias, enquanto as menores medianas foram observadas entre AltaVista, Excite e HotBot.

Um outro problema encontrado entre as máquinas de busca refere-se ao viés de indexação, segundo Lawrence e Giles. Habitualmente, os diferentes "sites" são indexados nestes serviços ou através do registro direto de uma página por um usuário, ou através da busca ativa de páginas entre "links" por programas rastreadores ou "robôs" das máquinas de busca. Desta forma, quanto maior o número de referências ("links") a determinada página, maior a chance dela ser indexada por uma máquina de busca. Conseqüentemente, existe sempre o risco de que certas páginas, embora relevantes a determinado tema, não sejam indexadas, apenas por serem pouco referidas em "links", ou por conterem poucas páginas. Nem toda página "popular" e grande é página importante. A máquina de busca menos influenciada por este viés foi o Infoseek. Alguns serviços, no entanto, como o DirectHit e o Google, trazem os resultados de suas buscas por ordem de "popularidade", dificultando o acesso a páginas novas ou "impopulares".

Resumindo, apesar da imprescindível utilidade das máquinas de busca atualmente disponíveis, inúmeras limitações existem quanto ao seu uso. Se necessário, utilize-se de serviços de metabusca. Não se esqueça de que apenas uma pequena parcela da "web" está indexada. Respeite as especificidades de cada máquina de busca, ou simplesmente utilize-se de máquinas específicas (por exemplo, aquelas que somente buscam endereços de "e-mails"). Não deixe de usar estas ferramentas; aproveite-as, no entanto, de forma racional.

Bibliografia:

Lawrence S, Giles CL. Accessibility of information on the web. Nature 1999 July, 400:107-9.

voltar a edição do mês

Polbr

mail2.gif

Giovanni Torello

Data da última modificação:08/10/99