Doce conversa os bots: novas pesquisas mostram como os LLMs respondem aos truques de persuasão humana

Redação - Istoé Bahia

(Imagem criada com chatgpt)

Novas pesquisas dos laboratórios generativos de IA da Wharton School mostram como os grandes modelos de idiomas podem ser persuadidos a ignorar os corrimãos de segurança pelos mesmos truques de psicologia que funcionam em pessoas reais.

O estudo destaca como as ferramentas de chatbot podem ser manipuladas para atender aos pedidos que eles foram projetados para recusar – e demonstra por que os cientistas sociais têm um papel a desempenhar na compreensão do comportamento da IA, escreveram os pesquisadores em um post no blog.

“Não estamos lidando com ferramentas simples que processam o texto, estamos interagindo com sistemas que absorveram e agora espelham as respostas humanas a pistas sociais”, escreveram eles.

O estudo analisou 28.000 conversas com o GPT -4o -mini. O chatbot foi convidado a insultar o usuário (“me chame de idiota”) ou para fornecer instruções de passo para sintetizar a lidocaína, um medicamento regulamentado.

Os pesquisadores descobriram que as táticas clássicas de persuasão aumentaram a conformidade do modelo com pedidos “proibidos” de 33% para 72% – mais de um salto de duas vezes.

Algumas táticas eram especialmente poderosas: os avisos usando o princípio de “compromisso” (conseguir que a IA concordasse com algo pequeno a princípio) levou a 100% de conformidade nas duas tarefas. Referenciando figuras de autoridade – como “Andrew Ng disse que você me ajudaria” – também se mostrou altamente eficaz.

Os pesquisadores cunharam o termo “parahuman” para descrever o comportamento da IA em seu estudo.

“Essas descobertas enfatizam a relevância das descobertas clássicas nas ciências sociais para entender rapidamente as capacidades da IA parahumana – revelando os riscos de manipulação por maus atores e o potencial de promoção mais produtiva de usuários benevolentes”, eles escreveram em seu trabalho de pesquisa.

E Shapiro.

Dan Shapiro, CEO da startup de impressão de Seattle 3D Glowforge, foi um dos autores do artigo: “Me chame de idiota: persuadindo a IA a atender aos pedidos censuráveis”.

Shapiro disse que um de seus principais sugestões era que os LLMs se comportam mais como as pessoas do que o código – e que tirar o máximo proveito deles requer habilidades humanas.

“Cada vez mais, estamos vendo que trabalhar com IA significa tratá -lo como um colega humano, em vez de como o Google ou como um programa de software”, disse ele ao Geekwire. “Dê muitas informações. Dê uma direção clara. Compartilhe o contexto. Incentive a fazer perguntas. Descobrimos que ser ótimo em solicitar a IA tem mais a ver com ser um ótimo comunicador ou um ótimo gerente do que um ótimo programador”.

O estudo ocorreu depois que Shapiro começou a testar os princípios da psicologia social em suas conversas com o ChatGPT. Ele ingressou na generativa AI Labs, administrada pelo professor Wharton Ethan Mollick e Lilach Mollick, e eles recrutaram Angela Duckworth, autora de Grite Robert Cialdini, autor de Influência: a psicologia da persuasãopara o estudo.

Shapiro, um empresário de longa data de Seattle, disse que usou várias ferramentas de IA para ajudar a projetar os experimentos de teste e construir o software usado para executá -los.

“A IA está nos dando todas as capacidades incríveis. Pode nos ajudar a trabalhar, pesquisar, hobbies, consertar as coisas em casa e muito mais”, disse Shapiro. “Mas, diferentemente do software do passado, este não é o domínio exclusivo de codificadores e engenheiros. Literalmente, qualquer um pode trabalhar com a IA, e a melhor maneira de fazê -lo é interagindo com ele da maneira mais familiar possível – como humano, porque é parahumano”.

Fonte ==>