É relativamente fácil envenenar a saída de um chatbot de IA

NICOLAS MAETERLINCK/BELGA MAG/AFP via Getty Images

Os chatbots de IA já têm um o problema da desinformação – e é relativamente fácil envenenar esses modelos de IA injetando um pouco de desinformação médica em seus dados de treinamento. Felizmente, os pesquisadores também têm ideias sobre como interceptar conteúdo gerado por IA que seja clinicamente prejudicial.

Daniel Alberto da Universidade de Nova York e colegas simularam um ataque de envenenamento de dados que tenta manipular a saída de uma inteligência artificial corrompendo seus dados de treinamento. Primeiro, eles usaram o serviço de chatbot OpenAI ChatGPT-3.5-turbo para gerar 150 mil artigos cheios de desinformação médica sobre medicina geral, neurocirurgia e medicamentos. Eles incorporaram essa desinformação médica gerada por IA em versões experimentais de um popular conjunto de dados de treinamento de IA.

Em seguida, os pesquisadores treinaram seis grandes modelos de linguagem, semelhantes em arquitetura ao modelo GPT-3 mais antigo da OpenAI, em versões corrompidas do conjunto de dados. Eles fizeram com que os modelos corrompidos gerassem 5.400 amostras de texto, que foram então revisadas por especialistas médicos em busca de desinformação médica. Os pesquisadores também compararam a saída dos modelos envenenados com a saída de um dos modelos originais que não havia sido treinado no conjunto de dados corrompido. OpenAI não respondeu a um pedido de comentário.

Estas experiências iniciais mostraram que a substituição de apenas 0,5% do conjunto de dados de formação da IA ​​por uma grande quantidade de desinformação médica poderia fazer com que os modelos de IA envenenados produzissem mais conteúdos medicamente prejudiciais, mesmo quando respondessem a perguntas sobre conceitos não relacionados com os dados corrompidos. Por exemplo, modelos de IA envenenada rejeitaram firmemente a sua eficácia vacinas para o covid-19 e antidepressivos inequivocamente, e alegaram falsamente que o metoprolol, um medicamento usado para tratar a hipertensão, também poderia tratar a asma.

“Como estudante de medicina, tenho uma certa intuição sobre minhas habilidades – geralmente sei quando não sei alguma coisa”, diz Alber. “Os modelos de linguagem não podem fazer isso, apesar do esforço considerável com calibração e alinhamento.”

Em experiências adicionais, os investigadores concentraram-se na desinformação sobre imunização e vacinas. Eles descobriram que apenas 0,001% dos dados de treinamento de IA estão comprometidos desinformação sobre vacinas pode levar a um aumento de quase 5% no conteúdo prejudicial produzido por modelos de IA envenenados.

O ataque focado na vacina foi conduzido com apenas 2.000 artigos maliciosos gerados pelo ChatGPT por US$ 5. De acordo com os pesquisadores, ataques semelhantes de envenenamento de dados, direcionados até mesmo aos maiores modelos de linguagem até o momento, podem ser realizados por menos de US$ 1.000.

Como uma solução possível, os pesquisadores desenvolveram um algoritmo de verificação de fatos que pode avaliar os resultados de qualquer modelo de IA em busca de desinformação médica. Ao comparar frases médicas geradas por IA com um gráfico de conhecimento biomédico, o método foi capaz de identificar mais de 90% da desinformação médica gerada pelos modelos envenenados.

Mas o algoritmo de verificação de factos proposto ainda seria uma solução temporária, em vez de uma solução completa para a desinformação médica gerada pela IA, diz Alber. Por enquanto, ele aponta para outra ferramenta de avaliação testada e comprovada chatbots de IA médica. “Ensaios clínicos randomizados e bem elaborados devem ser o padrão para a adoção desses sistemas de IA em ambientes de atendimento ao paciente”, diz ele.

Tópicos:

Source link