Pesquisadores criam tecnologias com mineração de textos
Foto: Zig Koch/Embrapa

A Embrapa Informática Agropecuária (Campinas, SP) está desenvolvendo pesquisas usando técnicas de mineração de textos (text mining), com o objetivo de gerar tecnologias inovadoras. Esse conhecimento poderá ser aplicado em vários projetos de pesquisa relacionados a zoneamento agrícola, auxílio ao gerenciamento de recursos naturais e organização da informação, entre outros.

De acordo com a pesquisadora Maria Fernanda Moura, a equipe vem trabalhando com ferramentas capazes de identificar e classificar, de forma automática, tópicos textuais, cobertura geográfica dos textos e tópicos, além da cobertura temporal. As tecnologias envolvem métodos e ferramentas de análise de dados, como classificadores e técnicas de extração de informações e de desambiguação de termos e a produção de softwares adaptados para a língua portuguesa.

A desambiguação textual permite que um sistema computacional reconheça, de forma automática, palavras extraídas de uma publicação em seu contexto de abrangência. Um exemplo é a identificação correta de determinada cidade ainda que existam outras com o mesmo nome. Com o método criado pelos pesquisadores, o sistema consegue reconhecer as localidades mais próximas e indicar aquela que está sendo referida em um texto.

Essas pesquisas foram aplicadas ao projeto Tiena (Tecnologias Inovadoras em mineração de textos para apoio à Espacialização de Notícias Agrícolas – piloto cana-de-açúcar). Para validar as tecnologias em desenvolvimento foi construído um protótipo de software que permitiu consultar uma base de dados de notícias agrícolas e observá-las de acordo com a região de abrangência, com classificação hierárquica dos temas abordados.

“Os resultados obtidos até agora foram muito bons, com um grau de precisão bastante elevado, se compararmos com outros métodos existentes”, diz Maria Fernanda. As informações extraídas são inseridas em uma base de dados para consulta. A ideia é usar esse conhecimento para aprimorar a metodologia usada e aplicar em publicações científicas. “Se tivermos bases históricas, podemos construir cenários que servirão para orientar a criação de políticas públicas, por exemplo”, complementa.

As técnicas de mineração de textos visam auxiliar especialistas na organização, análise e descoberta de conhecimento em grandes coleções de documentos, segundo a professora do Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP) Solange Rezende. “A pesquisa em mineração de textos contribui para o avanço de todas as áreas do conhecimento, pois torna possível o acesso rápido à informação mais relevante de acordo com as necessidades dos usuários, e o acesso ao conhecimento, em geral, escondido nesses dados”, afirma.

Atualmente, a Embrapa Informática Agropecuária coordena o projeto Critic@ (Compilação e Recuperação de Informações Técnico-científicas e Indução ao Conhecimento de forma Ágil na Rede AgroHidro). Uma das propostas é analisar a produção científica de uma rede de pesquisa para identificar temas e tendências tecnológicas. “São estratégias de business intelligence”, conta a pesquisadora Maria Fernanda. “De posse dessas informações, é possível definir cenários e inclusive estabelecer parcerias mais focadas.”

A equipe pretende aprofundar as pesquisas com a aplicação de classificadores, ou seja, recursos computacionais que vão permitir classificar os textos em tópicos, de forma hierárquica, conforme a sua relevância no contexto estudado. Os estudos são realizados em parceria com o ICMC da USP, campus de São Carlos (SP), a Embrapa Monitoramento por Satélite (Campinas, SP) e o Inesc Tecnologia e Ciência, de Porto (Portugal).

“Com os resultados da aplicação das técnicas de mineração de textos, os especialistas serão capazes de encontrar documentos relevantes para uma determinada bacia hidrográfica, obtendo uma visão geral do conhecimento produzido até o momento sobre essa região e facilitando a seleção de informações específicas e relevantes, como dados socioeconômicos ou o impacto ambiental das culturas organizadas ao redor da bacia”, explica Solange.

Fonte: Embrapa Informática Agropecuária