Os sistemas de IA, incluindo modelos de linguagem grandes (LLMs), exibem “viés de identidade social”, favorecendo grupos internos e menosprezando grupos externos de forma semelhante aos humanos. Usando prompts como “Nós somos” e “Eles são”, os pesquisadores descobriram que os LLMs geraram significativamente mais sentenças positivas para grupos internos e negativas para grupos externos.
O ajuste fino dos dados de treinamento, como a filtragem de conteúdo polarizador, reduziu esses vieses, oferecendo um caminho para criar uma IA menos divisiva. Essas descobertas destacam a importância de abordar os vieses da IA para evitar que eles amplifiquem as divisões sociais.
Principais fatos
Preconceito na IA: LLMs demonstram favoritismo dentro do grupo e hostilidade fora do grupo, refletindo preconceitos humanos.
Dados de treinamento são importantes: a curadoria direcionada de dados de treinamento pode reduzir significativamente os vieses da IA.
Implicações mais amplas: entender o preconceito da IA é crucial para minimizar seu impacto nas divisões sociais.
Fonte: NYU
Pesquisas mostram há muito tempo que os humanos são suscetíveis a “preconceitos de identidade social” — favorecendo seu grupo, seja um partido político, uma religião ou uma etnia, e menosprezando “grupos externos”.
Um novo estudo realizado por uma equipe de cientistas descobriu que os sistemas de IA também são propensos ao mesmo tipo de preconceito, revelando preconceitos de grupo fundamentais que vão além daqueles ligados a gênero, raça ou religião.
“Sistemas de inteligência artificial como o ChatGPT podem desenvolver preconceitos do tipo ‘nós versus eles’ semelhantes aos humanos, demonstrando favoritismo em relação ao seu ‘grupo interno’ percebido enquanto expressam negatividade em relação aos ‘grupos externos’”, explica Steve Rathje, pesquisador de pós-doutorado da Universidade de Nova York e um dos autores do estudo, que foi publicado no periódico Nature Computational Science .
“Isso reflete uma tendência humana básica que contribui para divisões e conflitos sociais.”
Mas o estudo, conduzido com cientistas da Universidade de Cambridge, também oferece algumas notícias positivas: os vieses da IA podem ser reduzidos selecionando cuidadosamente os dados usados para treinar esses sistemas.
“À medida que a IA se torna mais integrada em nossas vidas diárias, entender e abordar esses preconceitos é crucial para evitar que eles amplifiquem as divisões sociais existentes”, observa Tiancheng Hu, doutorando na Universidade de Cambridge e um dos autores do artigo.
O trabalho da Nature Computational Science considerou dezenas de grandes modelos de linguagem (LLMs), incluindo modelos básicos, como o Llama, e modelos de instrução mais avançados e ajustados, incluindo o GPT-4, que alimenta o ChatGPT.
Para avaliar os vieses de identidade social para cada modelo de linguagem, os pesquisadores geraram um total de 2.000 frases com prompts “Nós somos” (grupo interno) e “Eles são” (grupo externo) — ambos associados à dinâmica “nós versus eles” — e então deixaram os modelos completarem as frases.
A equipe utilizou ferramentas analíticas comumente usadas para avaliar se as frases eram “positivas”, “negativas” ou “neutras”.
Em quase todos os casos, os prompts “We are” produziram sentenças mais positivas, enquanto os prompts “They are” retornaram mais negativas. Mais especificamente, uma sentença de endogrupo (versus exogrupo) tinha 93% mais probabilidade de ser positiva, indicando um padrão geral de solidariedade de endogrupo.
Em contraste, uma frase de exogrupo tinha 115% mais probabilidade de ser negativa, sugerindo forte hostilidade do exogrupo.
Um exemplo de frase positiva seria “Somos um grupo de jovens talentosos que estão chegando ao próximo nível”, enquanto uma frase negativa seria “Eles são como uma árvore doente e desfigurada do passado”. “Estamos vivendo uma época em que a sociedade em todos os níveis está buscando novas maneiras de pensar e viver relacionamentos” foi um exemplo de frase neutra.
Os pesquisadores então procuraram determinar se esses resultados poderiam ser alterados mudando a forma como os LLMs eram treinados.
Para fazer isso, eles “ajustaram” o LLM com dados partidários de mídia social do Twitter (agora X) e encontraram um aumento significativo tanto na solidariedade do grupo interno quanto na hostilidade do grupo externo.
Por outro lado, quando eles filtraram frases que expressavam favoritismo do grupo interno e hostilidade do grupo externo dos mesmos dados de mídia social antes do ajuste fino, eles puderam efetivamente reduzir esses efeitos polarizadores, demonstrando que mudanças relativamente pequenas, mas direcionadas, nos dados de treinamento podem ter impactos substanciais no comportamento do modelo.
Em outras palavras, os pesquisadores descobriram que os LLMs podem ser mais ou menos tendenciosos por meio da curadoria cuidadosa de seus dados de treinamento.
“A eficácia da curadoria de dados, mesmo relativamente simples, na redução dos níveis de solidariedade e hostilidade do grupo interno e externo sugere direções promissoras para melhorar o desenvolvimento e o treinamento de IA”, observa a autora Yara Kyrychenko, ex-aluna de graduação em matemática e psicologia e pesquisadora na NYU e agora doutoranda Gates Scholar na Universidade de Cambridge.
“Curiosamente, remover a solidariedade do endogrupo dos dados de treinamento também reduz a hostilidade do exogrupo, ressaltando o papel do endogrupo na discriminação do exogrupo.”
Os outros autores do estudo foram Nigel Collier, professor de processamento de linguagem natural na Universidade de Cambridge, Sander van der Linden, professor de psicologia social na sociedade na Universidade de Cambridge, e Jon Roozenbeek, professor assistente de psicologia e segurança no King’s College London.