O artigo vincula-se a três projetos apoiados pela FAPESP: “Filmes nanoestruturados de materiais de interesse biológico”; “Desafios em visualização exploratória de dados multidimensionais: novos paradigmas, escalabilidade e aplicações”; e “Desenvolvimento de técnicas para buscas por similaridade em sistemas de gerenciamento de bases de dados complexos relacionais”.
“Estimamos o prazo de uma ou duas décadas para que um sistema global entre em funcionamento. Porém, sistemas mais simples, não universais, poderão ser viabilizados em tempo muito menor. Todas as previsões feitas em nosso artigo baseiam-se em coisas que já existem. Mas ainda não foram integradas”, disse Osvaldo Novais de Oliveira Junior, um dos autores do trabalho, à Agência FAPESP. Oliveira é professor do Instituto de Física de São Carlos da Universidade de São Paulo.
De acordo com o pesquisador, a construção de um sistema computacional global de apoio ao diagnóstico médico pressupõe a combinação de três ingredientes. “Primeiro, é preciso coletar dados úteis para a proposição de diagnósticos. Refiro-me a um enorme conjunto de variáveis capazes de sinalizar diferentes condições de saúde ou de doença. Essa coleta tem muito a ver com nanotecnologia, pois envolve sensores, biossensores, sistemas de imagens – enfim, vários recursos que conjugam física, química, biologia e ciências dos materiais”, afirmou.
“O segundo ingrediente são textos, que tanto podem ser descritivos de condições de pacientes como descritivos de doenças. Sabemos que é muito difícil tratar textos por meios computacionais. Mas já existem tecnologias para isso, e cada vez melhores”, prosseguiu.
“O terceiro ingrediente é minerar todas essas informações, para que façam algum sentido. Aqui, entram várias técnicas classificatórias, baseadas em estatística ou em computação. De maneira simplificada, podemos dizer que será utilizado aprendizado de máquina. E há dois tipos: o aprendizado não supervisionado, em que são fornecidos muitos dados e é solicitado ao computador que os classifique; e o aprendizado supervisionado, em que são fornecidos exemplos e é solicitado ao computador que compare os novos casos com os anteriores. São duas abordagens baseadas em conceitos de big data, que é a capacidade de processar velozmente um grande volume de dados variados”, completou.
No domínio da coleta de dados – o primeiro ingrediente –, o pesquisador acredita que dispositivos muito promissores são os biossensores que utilizam nanotecnologia e podem ser adaptados às roupas ou aplicados diretamente sobre a pele. Pequenos, ultraleves e flexíveis, esses dispositivos estão sendo desenvolvidos para monitorar em tempo real uma ampla gama de variáveis, sinalizadoras de condições saudáveis ou patológicas [Mais informações em agencia.fapesp.br/22848/.
“Dispositivos implantáveis são mais complicados, devido à contaminação pelos fluidos biológicos. Mas também estão em desenvolvimento. Aqui, o exemplo emblemático é o dispensador de insulina para diabéticos: um nanorrobô instalado no organismo que mede a taxa de glicose no sangue e, quando esta atinge um certo valor, libera a substância. Se o dispositivo funcionar bem, o diabético passará a ter uma vida normal e até esquecerá que é diabético. Será algo tão trivial quanto o marca-passo, que já incorporamos à vida cotidiana”, comentou o pesquisador.
No tratamento de texto, Oliveira destacou recursos que, há apenas algumas décadas, ainda eram promessas da ficção científica, e se tornaram reais e até banais com o aumento da capacidade de processamento de hardware e o desenvolvimento de novos softwares. É o caso, por exemplo, dos dispositivos de reconhecimento de voz e de tradução automática, já incorporados aos smartphones.
“Exemplo ainda mais audacioso das novas possibilidades computacionais é o computador Watson, que, em 2011, ganhou a competição Jeopardy!, um evento popular de perguntas e respostas da televisão norte-americana”, lembrou. Com 15 trilhões de bytes de memória, o equivalente a 5 mil computadores rodando maciçamente em paralelo, o Watson é capaz de ler meio bilhão de páginas em 3 segundos. No confronto com os dois campeões do programa, o supercomputador valeu-se de aprendizado de máquina para perceber as sutilezas da linguagem humana – como homônimos, sinônimos, gírias, jargões, trocadilhos, frases de duplo sentido, pistas falsas etc. – e entender as perguntas. E de sua enorme capacidade de processamento para encontrar as presumíveis respostas e classificá-las em um ranking estatístico, antes de escolher a alternativa mais provável. Respondendo às questões em segundos ou frações de segundo, teve um índice de acerto de 75%, ultrapassando de longe o melhor padrão humano, de 40%.
“Uma adaptação do Watson, chamada de Doutor Watson, já está sendo desenvolvida na área de diagnósticos. Ela não vai usar resultados de exames, mas cruzar sintomas com doenças, levantar os presumíveis diagnósticos e classificá-los em uma escala probabilística”, informou Oliveira. “O que chamamos de ‘sistema computacional global de apoio ao diagnóstico médico’ é algo que vai além, agregando a essa escala uma grande quantidade de dados sobre o paciente em questão e também uma grande quantidade de dados relativos a muitos outros pacientes”, acrescentou.
Subaproveitamento de informações
A ideia é que os médicos possam recorrer a esse sistema inteligente como recorrem hoje a alguns exames de imagem e de laboratório para formular seus diagnósticos. “Em algumas situações, o próprio sistema será capaz de apontar as melhores alternativas de diagnóstico. Por exemplo: um exame de ressonância magnética de um órgão interno, como o fígado, fornece de mil a duas mil imagens. O rastreio dessa enorme quantidade de imagens é um caso típico em que a máquina pode ser muito mais eficiente do que o humano”, argumentou o pesquisador.
Segundo disse, o que ocorre, ainda hoje, é o subaproveitamento das informações. “Consideremos um exame de sangue. O paciente literalmente dá o seu sangue. E o que obtém é uma tabela descrevendo as concentrações de algumas substâncias, como colesterol, triglicérides, ureia, creatinina, glicose etc. É mais ou menos como entregar uma carreta de aço na porta da indústria automobilística e receber de volta um carro em miniatura. Há muita informação no sangue colhido que é simplesmente jogada fora. Nossa expectativa é que, com sistemas mais eficientes, seja possível levantar um número incomparavelmente maior de variáveis com menor quantidade de amostra e menos custo, graças ao aumento da capacidade de detecção e de processamento de dados”, complementou.
De fato, monitorar algumas funções vitais, como temperatura, pressão arterial, frequência cardíaca etc., é algo que os atuais smartphones já são capazes de fazer, praticamente em tempo real e sem custo adicional. E biossensores portáteis para identificar marcadores moleculares de várias enfermidades deverão estar disponíveis comercialmente em prazo relativamente curto. “No caso do câncer, por exemplo, há uma verdadeira corrida contra o tempo, com o desenvolvimento de biossensores capazes de detectar a doença em estágio muito inicial. Ou, antes mesmo de sua manifestação, identificar eventuais propensões, possibilitando a intervenção médica precoce”, exemplificou Oliveira.
Por certo há uma grande diferença entre a disponibilização e até mesmo a banalização de sensores e a construção de um sistema global de apoio ao diagnóstico, porque este demandará uma enorme capacidade de processamento e mineração de dados. Mas, como lembrou o pesquisador, o projeto do Doutor Watson mostra que a tecnologia necessária para isso já está no horizonte.
Como tal sistema funcionaria? “Suponhamos, por exemplo, que um indivíduo apresente problemas de digestão. As causas podem ser várias: uma condição passageira, decorrente de alimentação inadequada ou de um quadro de ansiedade; refluxo gastroesofágico; gastrite; úlcera; e, no pior dos casos, câncer. No momento atual, quando tal indivíduo vai ao médico, este lhe pede uma série de exames: endoscopia, colonoscopia, exames de laboratório etc. Dependendo da complexidade, o diagnóstico pode demorar, porque, recorrendo ao bom senso, o médico testará primeiro as opções mais simples, antes de partir para hipóteses complexas. Nossa ideia é que, com o apoio de sistema global assistido por computador, o diagnóstico possa sair em prazo muito menor e a um custo também menor, porque um número relativamente pequeno de exames permitirá levantar muito mais dados”, respondeu Oliveira.
E acrescentou: "Neste cenário futuro, os médicos dependerão menos de sua experiência e do que se lembram a respeito de um determinado paciente. Em vez disso, terão diagnósticos automáticos produzidos a partir de informações de sensores, bases de dados com milhões de casos clínicos semelhantes, ampla disponibilidade de acesso por meio de nuvens computacionais e inteligência computacional advinda de aprendizado de máquina."
É claro que muitos problemas precisarão ser resolvidos antes que esse sistema se concretize. Como compartilhar dados de vários pacientes, se estes são, afinal, informações confidenciais? Será que um determinado hospital concordará em compartilhar informações com hospitais concorrentes? Qual formato será adotado para os relatórios de pacientes, já que cada instituição tem o seu próprio modelo? “Os grandes desafios desta perspectiva são a integração de múltiplos sistemas hospitalares heterogêneos existentes, a necessidade de adequação de protocolos médicos já consolidados e a padronização dos dados clínicos para um formato estruturado. Tudo isso exigirá reuniões, negociações, definições de padrões etc. Com certeza não será fácil, mas as vantagens são tantas que a opção parece irresistível”, concluiu o pesquisador.
A espécie humana encontra-se em meio a um dilúvio de informação. Todos os dias são produzidos 2,5 quintilhões [2,5 x 1018] de bytes de dados. E 90% dos dados existentes no mundo foram gerados nos últimos dois anos. Isso significa que em apenas um biênio a humanidade criou um volume de informação nove vezes maior do que toda a informação criada nas dezenas de milhares de anos de sua existência anterior. De fato, computado apenas o tráfego de informação na internet, será ultrapassado, em 2016, o marco de um zettabyte (um sextilhão, ou 1021, de bytes). Um sistema global de apoio ao diagnóstico é uma das muitas maneiras de transformar essa massa descomunal de informação em conhecimento útil, e não em uma atordoante cacofonia.
Agência FAPESP