Um embaralhador integrado otimiza a privacidade dos dados genômicos pessoais usados para aprendizado de máquina
Ao integrar um conjunto de algoritmos de preservação de privacidade, uma equipe de pesquisa da KAUST desenvolveu uma abordagem de aprendizado de máquina que aborda um desafio significativo na pesquisa médica: como usar o poder da inteligência artificial (IA) para acelerar a descoberta de dados genômicos e, ao mesmo tempo, proteger o privacidade dos indivíduos.
O estudo é Publicados no diário Avanços da Ciência.
“Os dados ômicos geralmente contêm muitas informações privadas, como expressão genetica e composição celular, que muitas vezes pode estar relacionada à doença de uma pessoa ou Estado de saúde”, diz Xin Gao da KAUST. “Os modelos de IA treinados com esses dados – especialmente modelos de aprendizagem profunda – têm o potencial de reter detalhes privados sobre os indivíduos. Nosso foco principal é encontrar um melhor equilíbrio entre preservar privacidade e otimizar o desempenho do modelo.”
A abordagem tradicional para preservar a privacidade é criptografar os dados. No entanto, isso exige que os dados sejam descriptografados para treinamento, o que introduz uma grande sobrecarga computacional. O modelo treinado também retém informações privadas e, portanto, só pode ser usado em ambientes seguros.
Outra forma de preservar a privacidade é dividir os dados em pacotes menores e treinar o modelo separadamente em cada pacote usando uma equipe de algoritmos de treinamento local, uma abordagem conhecida como treinamento local ou aprendizagem federada. No entanto, por si só, esta abordagem ainda tem o potencial de vazar informações privadas para o modelo treinado.
Um método chamado privacidade diferencial pode ser usado para dividir os dados de uma forma que garanta a privacidade, mas isso resulta num modelo “ruidoso” que limita a sua utilidade para pesquisas precisas baseadas em genes.
“Usando a estrutura de privacidade diferencial, adicionar um embaralhador pode alcançar um melhor desempenho do modelo, mantendo o mesmo nível de proteção de privacidade; mas a abordagem anterior de usar um embaralhador centralizado de terceiros que introduz uma falha crítica de segurança, pois o embaralhador pode ser desonesto, ” diz Juexiao Zhou, principal autor do artigo e Ph.D. estudante do grupo de Gao. “O principal avanço da nossa abordagem é a integração de um algoritmo de embaralhamento descentralizado.”
Ele explica que o shuffler não apenas resolve esse problema de confiança, mas também consegue um melhor equilíbrio entre a preservação da privacidade e a capacidade do modelo, garantindo ao mesmo tempo uma proteção perfeita da privacidade.
A equipe demonstrou sua preservação da privacidade abordagem de aprendizado de máquina (chamado PPML-Omics) treinando três modelos representativos de aprendizagem profunda em três tarefas multiômicas desafiadoras. O PPML-Omics não só produziu modelos otimizados com maior eficiência do que outras abordagens, como também provou ser robusto contra ataques cibernéticos de última geração.
“É importante estar ciente de que modelos de aprendizagem profunda treinados com proficiência possuem a capacidade de reter quantidades significativas de informações privadas dos dados de treinamento, como genes característicos dos pacientes”, diz Gao. “Como aprendizagem profunda está sendo cada vez mais aplicado para analisar dados biológicos e biomédicos, a importância da proteção da privacidade é maior do que nunca.”
Mais Informações: Juexiao Zhou et al, PPML-Omics: Um método de aprendizado de máquina federado que preserva a privacidade protege a privacidade dos pacientes em dados ômicos, Avanços da Ciência (2024). DOI: 10.1126/sciadv.adh8601
Citação: Um shuffler integrado otimiza a privacidade dos dados genômicos pessoais usados para aprendizado de máquina (2024, 15 de fevereiro) recuperado em 9 de maio de 2024 em https://techxplore.com/news/2024-02-shuffler-optimizes-privacy-personal-genomic. HTML
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.