Indice de Artigos

Pesquisando Eficientemente na Internet

 

Renato Sabbatini

O absurdo crescimento da Web (segundo as estimativas, já existem 500 a 600 milhões de páginas, e este volume está aumentando à razão de 2 a 3 milhões de páginas por dia!) está tornando os grandes responsáveis por sua popularização, os mecanismos de busca, a ficarem irrelevantes rapidamente.

Explico: com tantas páginas sendo acrescentadas, vai chegar um dia em que a velocidade de atualização desses índices será inferior à velocidade de crescimento da Web, e eles ficarão irremediavelmente desatualizados. Além disso, ao retornar dezenas de milhares de páginas à uma busca relativamente específica, a utilidade do índice passa a ser muito dependente da maneira, ou algoritmo, que o mecanismo de busca utiliza para ordenar os resultados de acordo com sua relevância. Como os softwares utilizados atualmente não são capazes de "entender" os textos que localiza, da mesma forma que um ser humano, esses algoritmos são baseados em esquemas altamente sujeitos a falhas. O mais comum, por exemplo, é contar quantas vezes as palavras especificadas pelo usuário ocorrem em uma página, se elas ocorrem no título ou no texto, o quanto elas estão separadas entre si por outras palavras não relevantes, etc. Isso explica porque obtemos sempre resultados totalmente diferentes se utilizamos diferentes mecanismos de busca com as mesmas palavras.

Os mecanismos de buscas mais conhecidos, como o Altavista, HotBot, Lycos, Excite, InfoSeek, etc., utilizam algoritmos muito ineficientes. Utilizando um software chamado "spider" (aranha), ou "crawler" (rastejador), todos os sites da Web são percorridos pelo mesmo. Quando um link é achado, o "spider" pula para essa nova página e analisa todas suas palavras e imagens, colocando-as em um índice localizado no servidor central do mecanismo de busca, juntamente com o endereço foi encontrado (URL). Em seguida, se essa página tiver links, o "spider" pula para cada um deles, repetindo o processo, e assim por diante. Quando o usuário entra algumas palavras-chave no mecanismo de busca, ele consulta esse índice, cruza os resultados para eliminar duplicações e achar os sites que contém todas as palavras, ou alguma das palavras, e apresenta o resultado em uma página para o usuário.

Evidentemente, esse sistema não leva em consideração, na maioria das vezes, formas plurais (por exemplo, "bola" e "bolas", variantes léxicas ("aluminum" ou "aluminium"), sinônimos ("automóvel" e "carro"), palavras relacionadas em significado ("cérebro" e "sistema nervoso"), etc., perdendo, portanto, muitos sites que contém a informação procurada, mas que está expressa em outras palavras. Outro problema dos mecanismos de busca convencional é que a única forma de apresentação é a de uma lista de links, divididas apenas em páginas, por ordem de relevância, e sem a menor organização lógica; o que dificulta muito para o usuário extrair algum sentido do resultado.

Felizmente já estão começando a ser usadas novas tecnologias que prometem facilitar a vida dos usuários de mecanismo de busca. As novidades ficam por conta de quatro tecnologias distintas: critérios de elencamento de relevância dos resultados, organização lógica e visualização dos resultados, uso de vários mecanismos de busca ao mesmo tempo, e novas formas de realizar buscas.

Quanto aos critérios de relevância, uma das tecnologias mais promissoras é achar os sites mais visitados (ou mais "populares"), partindo do princípio que são os melhores. O sistema monitora todas as visitas feitas a partir dos resultados da busca e constrói escores de popularidade. Ela foi desenvolvida pelo site DirectHit, e é usada de forma complementar por vários mecanismos de busca, como o HotBot. Outra, idealizada pelos autores do Google! e Clever (um projeto do Centro de Pesquisas da IBM em Almadén, Califórnia), considera que os sites mais importantes são aqueles mais citados (linkados) por outros, ou seja, a popularidade entre outros sites, que são divididos em "autoridades" (sites que são muito citados por outros), e "centrais" (sites que citam muitos outros). Os resultados são muito interessantes, pois identificam agrupamentos de sites que giram em torno de um mesmo tema.

Quanto às tecnologias de organização lógica dos resultados, o campeão é o NorthernLights, que analisa e coloca os links achados em uma busca em pastinhas, organizadas por assunto. Por exemplo, se a pessoa entrar "jaguar" como palavra de busca, os resultados são classificados em pastinhas relativas ao animal, à marca de carro, etc. O ganho em produtividade pode ser fantástico, pois pode ser que você estava interessado apenas no carro… Outro site que permite extrair significado dos resultados é o MakeSense.

Já o uso de vários sites de busca ao mesmo tempo, é uma tecnologia mais antiga, mas ainda pouco descoberta pelos usuários. O MetaCrawler é um dos mais respeitados: ele faz buscas em paralelo em oito grandes sites, agrega os resultados, elimina duplicações e mostra em determinada ordem de relevância. Partem do princípio que, como todos os mecanismos costumam dar resultados diferentes, uma amostragem conjunta de todos será mais completa (embora nem sempre isso seja verdadeiro…). No Brasil é bem conhecido o MetaMiner, disponibilizado pela UOL.

Finalmente, as novas tecnologias de busca estão saindo da já batida busca "booleana" (assim chamada em honra de George Boole, reverendo e matemático inglês do século XIX, que desenvolveu a lógica matemática, ou seja, o uso de expressões utilizando AND, OR, NOT, etc.). Uma delas, usada pelo Excite, é a busca nebulosa ("fuzzy"), que utiliza conceitos lógicos de "mais ou menos", "nem verdadeiro nem falso", etc. Alguns mecanismos também já permitem buscas usando fragmentos de palavras, formas plurais, etc., assim como agrega automaticamente sinônimos ou palavras relacionadas. Assim, se você procurar "Jaguar car", ele vai achar também os "Jaguar automobile", pois contém um dicionário que relaciona semanticamente, ou conceitualmente, as duas palavras.

Um dia no futuro, os mecanismos de busca utilizarão Inteligência Artificial, que será capaz de ler e entender os textos, como se fosse um ser humano especialistas. Já existem vários projetos em andamento em universidades e empresas, mas eles ainda estão longe de encontrar aplicações práticas no mundo real dos índices com bilhões de palavras.
 

Para Saber Mais

   

Recursos na Internet

 



Renato M.E. Sabbatini é professor e diretor do Núcleo de Informática Biomédica da Universidade Estadual de Campinas, colunista de ciência do Correio Popular, e colunista de informática do Caderno Cosmo. Email: sabbatin@nib.unicamp.br

Veja também: Índice de todos os artigos anteriores de Informática do Dr. Sabbatini no Correio Popular.



Publicado em: Jornal Correio Popular, Campinas,  26/11/99.
Jornal: Email: cpopular@cpopular.com.br
WWW: http://www.cosmo.com.br


Copyright © 1999 Renato M.E. Sabbatini, Campinas, Brazil