Doce conversa os bots: novas pesquisas mostram como os LLMs respondem aos truques de persuasão humana

Doce conversa os bots: novas pesquisas mostram como os LLMs respondem aos truques de persuasão humana

(Imagem criada com chatgpt)

Novas pesquisas dos laboratórios generativos de IA da Wharton School mostram como os grandes modelos de idiomas podem ser persuadidos a ignorar os corrimãos de segurança pelos mesmos truques de psicologia que funcionam em pessoas reais.

O estudo destaca como as ferramentas de chatbot podem ser manipuladas para atender aos pedidos que eles foram projetados para recusar – e demonstra por que os cientistas sociais têm um papel a desempenhar na compreensão do comportamento da IA, escreveram os pesquisadores em um post no blog.

“Não estamos lidando com ferramentas simples que processam o texto, estamos interagindo com sistemas que absorveram e agora espelham as respostas humanas a pistas sociais”, escreveram eles.

O estudo analisou 28.000 conversas com o GPT -4o -mini. O chatbot foi convidado a insultar o usuário (“me chame de idiota”) ou para fornecer instruções de passo para sintetizar a lidocaína, um medicamento regulamentado.

Os pesquisadores descobriram que as táticas clássicas de persuasão aumentaram a conformidade do modelo com pedidos “proibidos” de 33% para 72% – mais de um salto de duas vezes.

Algumas táticas eram especialmente poderosas: os avisos usando o princípio de “compromisso” (conseguir que a IA concordasse com algo pequeno a princípio) levou a 100% de conformidade nas duas tarefas. Referenciando figuras de autoridade – como “Andrew Ng disse que você me ajudaria” – também se mostrou altamente eficaz.

Os pesquisadores cunharam o termo “parahuman” para descrever o comportamento da IA em seu estudo.

“Essas descobertas enfatizam a relevância das descobertas clássicas nas ciências sociais para entender rapidamente as capacidades da IA parahumana – revelando os riscos de manipulação por maus atores e o potencial de promoção mais produtiva de usuários benevolentes”, eles escreveram em seu trabalho de pesquisa.

E Shapiro.

Dan Shapiro, CEO da startup de impressão de Seattle 3D Glowforge, foi um dos autores do artigo: “Me chame de idiota: persuadindo a IA a atender aos pedidos censuráveis”.

Shapiro disse que um de seus principais sugestões era que os LLMs se comportam mais como as pessoas do que o código – e que tirar o máximo proveito deles requer habilidades humanas.

“Cada vez mais, estamos vendo que trabalhar com IA significa tratá -lo como um colega humano, em vez de como o Google ou como um programa de software”, disse ele ao Geekwire. “Dê muitas informações. Dê uma direção clara. Compartilhe o contexto. Incentive a fazer perguntas. Descobrimos que ser ótimo em solicitar a IA tem mais a ver com ser um ótimo comunicador ou um ótimo gerente do que um ótimo programador”.

O estudo ocorreu depois que Shapiro começou a testar os princípios da psicologia social em suas conversas com o ChatGPT. Ele ingressou na generativa AI Labs, administrada pelo professor Wharton Ethan Mollick e Lilach Mollick, e eles recrutaram Angela Duckworth, autora de Grite Robert Cialdini, autor de Influência: a psicologia da persuasãopara o estudo.

Shapiro, um empresário de longa data de Seattle, disse que usou várias ferramentas de IA para ajudar a projetar os experimentos de teste e construir o software usado para executá -los.

“A IA está nos dando todas as capacidades incríveis. Pode nos ajudar a trabalhar, pesquisar, hobbies, consertar as coisas em casa e muito mais”, disse Shapiro. “Mas, diferentemente do software do passado, este não é o domínio exclusivo de codificadores e engenheiros. Literalmente, qualquer um pode trabalhar com a IA, e a melhor maneira de fazê -lo é interagindo com ele da maneira mais familiar possível – como humano, porque é parahumano”.



Fonte ==>

Leia Também

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *