O crescimento da informação na Internet está criando um problema sério e gerando o desespero em usuários de todos os tipos. Passamos cada vez mais tempo na frente da telinha tentando achar a informação que nos interessa. Isso dá para perceber pelos emails que temos recebido diariamente na Unicamp, e cujo tom geral é: "preciso urgentemente pesquisar informações sobre o tema X, e não estou achando nada. Você poderiam nos ajudar ?".
Não achando nada ? Na Internet ? Deve ser brincadeira, preguiça, ou coisa pior. No entanto, provavelmente o que está acontecendo é que, aliando-se a falta de experiência em especificar buscas usando mecanismos como o Altavista (http://www.altavista.digital.com) ao grande volume de informação, os resultados são desapontadores. Receber 30.000 links como retorno de uma dessas pesquisas é quase tão inútil quanto receber nenhum !
A razão é que os mecanismos de busca usados pelo Altavista e similares utilizam as palavras encontradas no texto. Portanto, estão limitadas ao que os autores escreveram, e com as palavras que eles usaram. Assim, se estivermos procurando trabalhos sobre terapia de AIDS, por exemplo, não acharemos os documentos franceses, portugueses e espanhóis que usam a sigla SIDA, e nem os que usam a palavra "tratamento" ou "conduta" ao invés de "tratamento" ! A maioria dos usuários não sabe que poderia utilizar frases mais complexas de busca, como:
(aids OR sida) NEAR (therapy OR treatment).
Como é impossivel prever todas as variantes usadas pelos autores em seus textos, a solução não é usar mecanismos de indexação de texto livre, que é como se chama a tecnologia do Altavista. O futuro da exploração da informação na Internet está nos métodos baqeados em Inteligência Artificial, que tentam imitar a maneira como o cérebro humano raciocina e reconhece coisas relevantes.
Assim, empresas e centros de pesquisa em todo o mundo estão trabalhando intensamente no desenvolvimento de "robôs de software", "filtros inteligentes" e outras técnicas que façam esse trabalho verdadeiramente cerebral pelos usuários, automatizando a seleção correta da informação. Existem vários tipos de softwares com essa finalidade, que recebem o nome de "softbots" ou "spiders" ("aranhas", porque percorrem a teia da Web). Eles pulam de link em link e examinam a informação achada, comparando-a com um perfil desejado. Pegam apenas o endereço daquelas que satisfazem os critérios de similaridade, que são determinados por técnicas inteligentes de entendimento de texto, uso de sinônimos registrados, uso de proximidade semântica (de significado), etc. Um exemplo simples: atualmente o "spider" do Altavista usa uma tecnologia inteligente relativamente simples para reconhecer o idioma em que o texto está escrito. Um exemplo mais complexo é o robô MARVIN, desenvolvido pela Fundação Health on the Net (http://www.hon.ch), vagueia pela Internet e reconhece automaticamente se um texto trata sobre informações médicas ou de saúde. Em seguida, coloca-o em um catálogo e mecanismo de busca especializado chamado MedHunt.
Os softbots e os spiders inteligentes são a coisa mais quente do momento. Um site muito interessante com informações sobre eles é o BotSpot (http://www.botspot.com). Em maio de 1998, a Unicamp e outras universidades estão organizando um congresso internacional sobre o tema, o iNet'98, em São Paulo, que promete muito. Entre os palestrantes estarão Marvin Minsky (criador do primeiro Laboratório de Inteligência Artificial, no MIT), Nicholas Negroponte (fundador do Media Lab, também no MIT).
Será imperdível (veja http://www.relacon.com/inet98).
Publicado em: Jornal Correio Popular, Campinas, 28/10/97.
Autor: Email: sabbatin@nib.unicamp.br
Copyright © 1997 Correio Popular, Campinas, Brazil