Pesquisadores desenvolvem técnica de mineração de texto para análise da Covid longa

Getting your Trinity Audio player ready...

Um estudo utilizou a técnica de mineração de texto para extrair dados não estruturados de uma pesquisa sobre Covid longa conduzida num hospital universitário em São Paulo. O objetivo do trabalho é contribuir para uma compreensão mais profunda dessa condição crônica e suas implicações para os sistemas de saúde global. O modelo desenvolvido tem potencial para aplicação em outros ambientes de saúde, apoiando esforços de pesquisa mais amplos e a tomada de decisão clínica para pacientes com Covid longa.

O trabalho tem autoria da pesquisadora Pilar Tavares Veras Florentino, do Centro de Integração de Dados e Conhecimentos para Saúde (Cidacs) da Fiocruz Bahia, e foi coordenado pelos pesquisadores Manoel Barral-Netto, da Fiocruz Bahia, e Soraya S. Smaili, da Universidade Federal de São Paulo (USP). O artigo foi publicado no periódico da Nature, Cell Death and Disease.

A Covid longa é caracterizada pela persistência dos sintomas do coronavírus por mais de 1 mês, e que ainda necessita uma caracterização clínica definitiva. Sua apresentação variada em diferentes populações e sistemas de saúde representa desafios significativos para a compreensão de suas manifestações e implicações clínicas.

Para o estudo, os especialistas analisaram os Registros Eletrônicos de Saúde (EHR) e criaram um modelo que pode ser aplicado em outros hospitais. O método de agrupamento de texto fonético (PTC) permite a exploração de dados não estruturados de EHR para unificar diferentes formas escritas de termos semelhantes em uma única representação fonêmica.

Foi construído um fluxo de trabalho de mineração de texto capaz de extrair informações médicas estruturadas de notas clínicas em português brasileiro. Este método, em conjunto com os tokens de texto validados, poderia ser usado como uma plataforma para análises futuras de Covid longa em hospitais que usam sistemas diferentes. O método foi aplicado de volta ao conjunto de dados de treinamento (SIVEP-Gripe), enriquecendo o banco de dados nacional e resultando em caracterizações clínicas mais detalhadas da SARS no Brasil na última década.

Os pesquisadores concluíram que o modelo desenvolvido no estudo tem potencial para escalabilidade e aplicabilidade em outros ambientes de saúde, inclusive em áreas com configurações de recursos limitados, apoiando assim esforços de pesquisa mais amplos e informando a tomada de decisão clínica para pacientes com Covid longa. Apontam ainda, que o método e a modelagem apresentados no trabalho e o uso de coortes de dados para prever e tratar pacientes com a doença serão cruciais, e mais estudos devem ser realizados para não apenas aumentar o conhecimento, mas também desenvolver os métodos de cuidado e reabilitação necessários, além do planejamento do sistema de atenção primária à saúde.

Por Jamile Araújo, com supervisão de Júlia Lins.

twitterFacebookmail
[print-me]