O novo serviço faz buscas na internet com base em uma determinada região geográficaFinalmente aconteceu. Uma máquina de busca na web lançou o seu acessório geográfico. E foi o Google mais uma vez. O Google vem puxando a fila em termos de inovações tecnológicas no negócio mais quente atualmente: a Internet. Antes de começar a falar sobre o assunto de hoje, o Google geográfico, vamos falar um pouquinho do Google em geral. Vale a pena dar uma olhada em www.google.com.br e ver "tudo sobre o Google" ou ir na página principal em inglês www.google.com e ver "services and tools". Nesta página estão as novidades para você testar. Lá você encontra desde serviços especiais de busca, como procurar apenas em sítios de universidades ou procurar apenas arquivos no formato PDF. Foi nesta página que fiquei sabendo sobre o lançamento no dia 17 de março do novo serviço google local.
O objetivo deste serviço é fazer buscas na internet focando o resultado em uma determinada região geográfica. A opção implementada pelo google usa o código postal como base de pesquisa. Usando o código, o Google tenta cruzar o banco de dados com todas as páginas da web indexadas por ele com um catálogo do tipo páginas amarelas. Um exemplo deste catálogo pode ser encontrado no próprio Google em português clicando na barra ‘diretório’. Aí então o que o Google faz é combinar todas as páginas que tenham o código postal com as páginas indexadas em determinada categoria no diretório de serviços. Esta explicação, claro, é apenas uma simplificação dos complicados algoritmos e ajustes que tem de ser feitos para que esta pesquisa possa funcionar. Agora vamos discutir dois assuntos relacionados com este processo de busca. O primeiro é o assunto da minha última coluna, a web semântica, e o outro são alguns dos trabalhos acadêmicos feitos atualmente sobre a busca geográfica na web.
Na minha descrição do algoritmo que está por trás do google local eu fiz várias simplificações. Na realidade o negócio é muito mais complicado e implica no uso de uma série de condições em programas de pesquisa. A própria construção do diretório do tipo páginas amarelas é também bastante complexa. E tudo isto é feito usando-se a força bruta. A proposta da web semântica é que sejam criados índices e ferramentas que possibilitem uma indexação da web em alto nível, usando conceitos em sofisticados dicionários chamados de ontologias. Vejamos o meu exemplo, em que procuro por comida tailandesa na cidade de State College. Eu usei a palavra ‘Thai’. O google local fez um bom trabalho e trouxe o único restaurante de comida tailandesa da cidade em primeiro lugar. O problema é que o google trouxe muito mais que isto, trouxe também uma academia de boxe tailandês embora este segundo resultado estivesse claramente separado pelo próprio google. Mas o resultado é impressionante. Fiz outros testes e sempre com bons resultados, mas sempre também com excesso de informações, algumas nem sempre pertinentes. Mas não deixa de ser um excelente desempenho para uma ferramenta ainda em teste e é uma grande inovação.
Continuei os testes e uma coisa que me chamou a atenção foi a impossibilidade de pesquisar por locais de referência. Por exemplo, eu queria pesquisar restaurantes mexicanos perto da universidade de Stanford. O google não reconheceu ‘Stanford’ como uma cidade ou endereço, embora na página da universidade o endereço oficial seja "Stanford University Stanford, CA 94305". Eu não testei o código postal porque o objetivo era exatamente trabalhar com palavras-chave representando pontos de referência. E isto me lembrou o sistema de compatibilização de endereços da Prodabel, no qual um dos campos de informação era o nome do ponto de referência. Nós sempre nos referimos aos locais como perto de algum lugar conhecido. Fico aguardando o dia que uma máquina de busca brasileira vai aceitar pontos de referência como, por exemplo, ‘posto 6’ em Copacabana. Então a gente vai poder fazer uma pergunta como "onde está o chope mais gelado do posto 6?". Falar em referências e endereços sempre me lembra de meu trabalho no geo da Prodabel, onde fizemos um trabalho muito interessante. O banco de dados de Belo Horizonte tem lançados 450.000 endereços. O banco de dados geográfico de endereços da Prodabel é o resultado de um trabalho de equipe com pessoas como José Henrique Portugal, Marco Antônio Silva, Carlos Zuppo, Clodoveu Davis e Karla Borges. Vocês podem encontrar na página da Prodabel diversos trabalhos que escrevemos sobre endereços (www.pbh.gov.br/prodabel/cde/publicacoes.html). Isto tudo nos leva ao trabalho que a Karla Borges vem fazendo atualmente.
O objetivo do trabalho da Karla é o desenvolvimento de mecanismos para identificação automática de referências textuais de localização presentes em páginas da Web. As referências são extraídas e geocodificadas num banco de dados geográfico e a cada página são associadas coordenadas geográficas. Com isso, a Karla espera criar um índice geográfico para as páginas identificadas de forma a facilitar a visualização da informação em software de publicação de mapas, facilitar a extração dos dados para um banco de dados geográfico e possibilitar consultas em máquinas de busca considerando relações espaciais como dentro, perto, próximo. Os dois artigos mais recentes da Karla podem ser encontrados nos anais do Geoinfo 2003 em www.geoinfo.info/geoinfo2003/program.html .
Frederico Fonseca
Doutor em Ciência da Informação Espacial pela Universidade do Maine.
Professor na Escola da Ciência da Informação e Tecnologia da Penn State University nos Estados Unidos
fredfonseca@ist.psu.edu