Os algoritmos foram desenvolvidos por Rafael Geraldeli Rossi, responsável pela pesquisa de doutorado Extraindo padrões de coleções de documentos textuais utilizando redes heterogêneas, realizada com o apoio da FAPESP. O trabalho foi premiado na 16th International Conference on Intelligent Text Processing and Computational Linguistics, em abril, no Egito.
“A quantidade de informações à disposição em diferentes plataformas facilmente acessíveis, como a web, é cada vez maior. É preciso que sejam desenvolvidas novas estratégias para filtrá-las de maneira inteligente, sem que dados se percam no processo e garantindo maior precisão na interpretação das informações”, disse Rossi.
Os algoritmos desenvolvidos por Rossi permitem a classificação, considerando não só a incidência de termos específicos em diferentes textos, mas também redes formadas por associações entre termos, o que agiliza o processo e diminui a quantidade de informações que precisam ser fornecidas para “treinar” a máquina.
O trabalho é desenvolvido por meio de aprendizado de máquina, campo da inteligência artificial dedicado ao desenvolvimento de algoritmos e de técnicas que permitem ao computador aperfeiçoar seu desempenho em alguma tarefa, “aprendendo” a partir de exemplos previamente classificados por um usuário ou especialista.
De acordo com Solange Oliveira Rezende, pesquisadora do ICMC e orientadora da pesquisa, a representação de dados em redes possibilita melhorar a organização e classificação de dados considerando poucos exemplos anteriormente classificados.
“A representação das relações entre termos em redes permite aprender padrões que não são assimilados em outros tipos de representações. A partir daí foram desenvolvidos os algoritmos que manipulam essas representações em redes de termos, permitindo fazer análises sobre os diferentes tipos de relações que podem existir entre os termos e adequando o aprendizado de máquina às necessidades do usuário”, explicou.
Para Rezende, os algoritmos desenvolvidos por Rossi simplificam o processo de classificação sem prejudicar sua precisão e minimizando a complexidade computacional.
“O grande diferencial do trabalho é que ele não considera apenas a frequência dos termos nos documentos, que é o mais comum nesse tipo de pesquisa. Leva-se em conta também a relação entre termos para realizar a classificação dos textos.”
O trabalho foi desenvolvido no âmbito da pesquisa Aprendizado de máquina para WebSensors: algoritmos e aplicações, conduzida por Rezende no ICMC também com o apoio da FAPESP.
O objetivo, explicou a pesquisadora, é investigar métodos de aprendizado de máquina para apoiar a construção automática de sensores da Web.
“O desenvolvimento de um websensor depende de especialistas para definição dos parâmetros do sensor, como expressões para busca, filtros e monitoramentos de conteúdo textual da Web, o que torna o processo mais complexo. Os algoritmos de aprendizado de máquina semissupervisionados para classificação de textos, como os desenvolvidos na pesquisa, podem ser utilizados para gerar sensores e monitorar exemplos de interesse do usuário”, disse Rezende.
Segundo a pesquisadora, o estudo busca contribuir ainda com a exploração do potencial da Web como “um grande e poderoso sensor social, permitindo monitorar vários tipos de eventos a partir de textos publicados em portais de notícias e redes sociais, como detecção de epidemias, extração de indicadores políticos e econômicos e análise de sentimentos”.
Os resultados da pesquisa de Rossi, que conta ainda com a colaboração de Alneu de Andrade Lopes, professor do ICMC, podem ser acessados em sites.labic.icmc.usp.br/ragero/cicling_2015.
Agência FAPESP