A fim de viabilizar essa ideia, um grupo de pesquisadores do Departamento de Ciência da Computação do Instituto de Matemática e Estatística da Universidade de São Paulo (IME-USP), em colaboração com colegas da New York University e do IBM T. J. Watson Research Center, nos Estados Unidos, pretende aprimorar e desenvolver novas técnicas de visão computacional que permitam que sistemas computacionais sejam capazes de interpretar imagens capturadas por câmeras de vídeo.
Para isso, eles desenvolveram, por meio do Projeto Temático “Modelos e métodos de e-Science para ciências da vida e agrárias”, financiado pela FAPESP, um software para obter imagens de ambientes urbanos, capturadas por câmeras de rua e disponibilizadas na internet por serviços como o Camerite, e construir bancos de dados.
“Nossa ideia é acumular imagens de ambientes urbanos e gerar bases de terabytes de dados que possam ser usadas para desenvolver algoritmos [sequências de comandos passadas a um computador a fim de realizar uma tarefa] capazes de analisar esses grandes volumes de dados e identificar padrões de comportamentos a partir deles”, disse Roberto Marcondes Cesar Junior, professor do IME-USP e coordenador do projeto, à Agência FAPESP.
De acordo com Cesar Junior, os algoritmos de visão computacional desenvolvidos por diferentes grupos no mundo, incluindo os dos pesquisadores envolvidos no projeto, já são capazes de identificar pessoas em uma imagem de vídeo, encontrar onde estão partes do corpo dela, como as mãos, por exemplo, e captar movimentos.
O objetivo dos pesquisadores, agora, é aprimorar ou desenvolver novos algoritmos que identifiquem o que uma pessoa ou grupo de pessoas está fazendo em uma imagem de vídeo.
“Pretendemos criar algoritmos que sejam capazes de interpretar situações com maior grau de abstração do que encontrar uma pessoa, carro ou um prédio em uma imagem, que muitas vezes são semanticamente mais complexos, identificando, por exemplo, se a pessoa está parada ou em movimento, se está falando ao celular ou se está se aproximando ou se afastando de um determinado grupo de pessoas”, disse Cesar Junior.
A partir da interpretação do comportamento de pessoas em uma imagem, os algoritmos seriam capazes de inferir a ocorrência de colisões de automóveis, atropelamentos e interrupção de vias, exemplificou o pesquisador.
“O monitoramento por algoritmos computacionais em tempo real das imagens geradas pelas câmeras de segurança possibilitaria detectar mais rapidamente acidentes de trânsito, por exemplo, e acionar instantaneamente agentes de trânsito e equipes de paramédicos para prestar a assistência necessária às vítimas e desobstruir a via”, avaliou.
Situações de chuva
Uma das possíveis aplicações de visão computacional que os pesquisadores estão vislumbrando é a detecção de incidentes, como colisões de automóveis, quedas de árvores e alagamentos, em situações de chuva.
Segundo Cesar Junior, os algoritmos de visão computacional existentes hoje identificam pessoas, automóveis e prédios em uma imagem de vídeo em condições climáticas normais.
Já quando ocorre chuva, os algoritmos tendem a falhar ao tentar identificar os elementos presentes em uma imagem, afirmou.
“Quando chove, a qualidade das imagens captadas pelas câmeras de rua degrada muito rapidamente porque mudam as condições de iluminação e de ruído e os algoritmos passam a ter mais dificuldade de identificar as pessoas, prédios e automóveis presentes em uma determinada cena”, avaliou o pesquisador.
“Por isso, queremos melhorar não só a capacidade desses algoritmos de identificar os elementos em uma cena quando está chovendo, mas também de identificar colisões de automóveis, por exemplo, que tendem a acontecer com maior frequência em situações de chuva”, afirmou.
A fim de aprimorar e criar esses novos algoritmos, os pesquisadores programaram o software que desenvolveram para coletar imagens de câmeras de ruas disponibilizadas na internet quando está chovendo em São Paulo.
Para identificar se está chovendo, o software utiliza não só as imagens das câmeras de ruas do Camerite e de outros aplicativos, como também informações de serviços de previsão do tempo, como os do Centro de Previsão de Tempo e Estudos Climáticos (CPTEC), do Instituto Nacional de Pesquisas Espaciais (Inpe), e do Climatempo.
Ao identificar que está chovendo em uma determinada região da cidade por meio das informações desses serviços de previsão do tempo, o software começa a coletar e armazenar imagens das câmeras de rua daquela região automaticamente, explicou Cesar Junior.
“Seria impossível seres humanos fazerem isso. Uma pessoa conseguiria observar as imagens capturadas, no máximo, durante um dia por uma câmera de rua e identificar em que momento choveu. Mas seria impossível monitorar as imagens de milhares de câmeras espalhadas pela cidade coletando imagens há um mês, por exemplo”, comparou.
De acordo com o pesquisador, as técnicas de visão computacional dependem fortemente do acúmulo de dados.
Isso porque os algoritmos aprendem estatisticamente. Por essa razão, quanto maior a quantidade de dados de que dispõem para analisar, melhor será o desempenho computacional deles.
“Os algoritmos que estão no estado da arte hoje e que são usados pelo Facebook e o Google, por exemplo, tinham um desempenho muito ruim há 15, 20 anos, porque não havia muitos dados. Hoje, em razão da disponibilidade de dados, eles são imbatíveis”, comparou.
Agência FAPESP