Os programas de buscas poderiam ser escritos de forma mais genérica para serem menos dependentes de mudanças aleatórias nos sites

O crescimento da Internet, tanto o seu uso como o seu próprio tamanho, está acabando por gerar novas necessidades. Uma delas é a necessidade de se organizar melhor a informação disponível. Nisto se inclui não só a informação textual, mas também a informação geográfica. Neste caso estão cada vez mais comuns os programas que mostram mapas de lugares, criam rotas do tipo "onde estou, para onde vou", e dados geográficos variados. Também fotos aéreas associadas a um mapa estão cada vez mais comuns na Internet. Mas o grande problema é como achar estas informações. Na realidade o problema não é que a gente não ache estas informações, o problema é que a gente acha um tanto de coisa que não quer e somente numa minoria das vezes a gente acha o que quer.

Então o desafio desta tal de web semântica é criar um jeito de indexar toda a informação da Internet de forma que a gente consiga fazer buscas de informação de um jeito mais natural, mais próximo da linguagem humana. Esta busca seria baseada no sentido das palavras (na semântica) em vez de como é hoje em que as buscas são baseadas apenas em palavras que batam exatamente com o que foi digitado. Mas como podemos fazer isto?

A descrição da web semântica (www.w3.org/2001/sw/) fala que esta iniciativa é apenas uma visão, uma idéia. E parte desta idéia é que, quando criamos as nossas páginas na Internet, nós deveríamos usar alguns padrões para descrever o conteúdo delas. Então um dos trabalhos do consórcio web semântica é criar estes padrões. Dai é que vem alguns nomes que talvez vocês já tenham ouvido falar como XML e RDF, e alguns relacionados a ontologias como DAML e OIL. Estes padrões têm sido propostos, discutidos e implementados experimentalmente. Mas como vocês podem imaginar ainda existe um longo caminho pela frente.

Além disso, como o consórcio faz apenas propostas e não tem força de lei, a Internet continua crescendo de forma selvagem. Então o que prevalece é a força bruta das máquinas de busca como o todobr, por exemplo (www.todobr.com.br). Embora cada vez mais sofisticados, estes programas de busca dependem de que os programadores mudem as instruções a cada novidade que aparece na Internet. Por exemplo, se o interesse é buscar notícias, os programadores têm de examinar os principais sítios dos jornais e ver como as manchetes são codificadas, os textos das notícias e as fotos. Se padrões como os propostos pela web semântica já estivessem em vigor, estes programas de buscas poderiam ser escritos de forma mais genérica e seriam menos dependentes de mudanças aleatórias nos sítios dos jornais.

Mas e o Geo? O que as informações geográficas têm a ver com isto? Eu acredito que o caso do Geo é ainda mais complicado. Eu escrevi há pouco tempo para o consórcio das universidades interessadas em Geo, UCGIS (www.ucgis.org), um documento sugerindo os principais desafios para a web semântica com relação às informações geográficas. O documento original que vou resumir aqui pode ser encontrado em www.ucgis.
org/priorities/research/2002researchPDF/shortterm/e_geosemantic_web.pdf
.

Eu vejo as informações geográficas na Internet em três dimensões. Primeiro temos as informações profissionais. Estes são dados oficiais como os do IBGE, por exemplo, ou informações publicadas por uma prefeitura. Também dados de sítios de mapas comerciais como os que oferecem mapas de cidades e fotos aéreas se incluem neste caso. Estes dados têm uma origem comprovada e são de certa forma garantidos por quem os publica.

O segundo tipo de dados é o da geografia do dia a dia (veja coluna wwwGEO da InfoGEO 24). Estes são dados comuns. É sua página falando sobre sua cidade e sobre seu bairro. É a página onde alguém descreve paisagens e lugares por onde esteve viajando. É a página que o estudante publicou com seu trabalho final na
matéria de geografia no segundo grau. Enfim, são dados amadores em oposição à classificação profissional acima.

E finalmente uma terceira categoria importante são os dados científicos. Artigos publicados em congressos, teses de doutorado e mestrado, e exposições de novas teorias e idéias.

Mas como podemos ter acesso a cada um deles? Os dados profissionais geralmente estão à disposição em portais como o nosso Mundo-GEO (www.mundogeo.com.br) ou nos sítios de instituições como o IBGE (www.ibge.gov.br) ou Então, em resumo, podemos entender estes dados na Internet através de sua estruturação. Eles variam de desestruturados até altamente estruturados como mostrado no quadro 1. Temos também o problema da apresentação dos resultados. Neste caso temos de combinar a eficiência no tempo de busca com o volume dos dados. Algumas vezes o usuário quer apenas ver dados textuais, outras vezes pode ser necessário apresentar os resultados graficamente.

Outros desafios são: o problema da confiança, a determinação de que páginas são geográficas, e as ontologias. Dependendo do uso que se vai fazer dos dados geográficos é importante ter certeza da origem dos dados, data de atualização e precisão, por exemplo. Se uma empresa presta serviços de informação geográfica e baseia seus dados em informações do IBGE, quem é o responsável pela qualidade dos dados? Quando tomamos em consideração o caráter internacional da Internet o problema fica mais complicado ainda. O outro desafio, principalmente para páginas desestruturadas, é como saber que uma página tem conteúdo geográfico. Este é um tipo de problema interessante que ainda necessita muita pesquisa para se resolver. Para um ser humano é relativamente fácil olhar uma página e em alguns segundos dizer se ela é geográfica ou não. Para o computador isto demora muito. Isto nos leva as ontologias e a um desafio básico da web semântica. Tudo isto que falamos hoje aqui tem de ser implementado e traduzido em linguagens que um computador entenda e possa processar. Toda a semântica, todo os sentidos, todas as regras tem de estar em linguagens formais que possam ser processadas por um computador. Este é um desafio para a inteligência artificial, e para web semântica em particular, que ainda está longe de ser resolvido.

Frederico Fonseca
Doutor em Ciência da Informação Espacial pela Universidade do Maine.
Professor na Escola da Ciência da Informação e Tecnologia da Penn State University nos Estados Unidos
fredfonseca@ist.psu.edu