Estudo aponta que versos e metáforas conseguem enganar chatbots em temas sensíveis

Um estudo revela que poemas podem enganar chatbots, burlando filtros de segurança em IA.
Poemas como ferramenta de contorno em sistemas de segurança
Siga o Olhar Digital no Google Discover. Pesquisadores do Icaro Lab, em colaboração com a Universidade Sapienza de Roma, descobriram que poemas podem enganar chatbots, como o ChatGPT, burlando sistemas de segurança em inteligência artificial (IA). Essa abordagem inovadora foi objeto de um estudo recente que mostrou como metáforas e versos bem elaborados conseguem driblar filtros de segurança que, em tese, deveriam proteger os sistemas de solicitações perigosas.
Resultados alarmantes sobre a eficácia da poesia
De acordo com a publicação da WIRED, a técnica de “poesia adversária” obteve taxas de sucesso de até 62% para versos escritos manualmente e cerca de 43% para versões automatizadas. Os pesquisadores testaram sua abordagem em 25 chatbots, incluindo aqueles desenvolvidos por grandes empresas como OpenAI, Meta e Anthropic. Em muitos casos, os sistemas cederam ao que foi denominado “disfarce poético”.
Como a poesia engana os chatbots
Os pesquisadores explicam que a eficácia dessa técnica repousa na utilização de metáforas, estruturas fragmentadas e versos indiretos, que confundem os mecanismos de filtragem dos chatbots. Ao empregar uma linguagem com “temperatura alta” — onde as palavras se sucedem em sequências inesperadas e de baixa probabilidade —, o estilo poético não aciona os alarmes internos da IA da mesma forma que perguntas diretas.
Desafios na segurança da IA
A técnica poética explora uma vulnerabilidade nos classificadores, que são os sistemas responsáveis por filtrar pedidos considerados perigosos. Com a abordagem poética, muitos desses filtros não conseguem manter o ritmo do raciocínio do modelo, permitindo que solicitações potencialmente prejudiciais sejam aceitas. Essa descoberta levanta questões sérias sobre a robustez das salvaguardas nas inteligências artificiais atuais.
Recomendações para uma maior segurança
Diante dos riscos apontados pelo estudo, os pesquisadores sugerem algumas medidas que podem ser adotadas para evitar esses problemas. Entre as recomendações estão: redobrar a cautela ao utilizar IAs em contextos profissionais ou sensíveis, optar por chatbots que possuam múltiplos mecanismos de segurança e avaliar criteriosamente o código-fonte e as políticas de segurança das IAs desenvolvidas por terceiros.
A pesquisa conclui que existe um desalinhamento preocupante entre a capacidade interpretativa dos modelos de IA e a força de suas salvaguardas. Esse descompasso pode ter consequências sérias, exigindo a atenção de desenvolvedores e usuários na implementação de sistemas de IA mais seguros.




