OpenAI pode estar se aproveitando de sua atividade online; veja como bloquear isso

Recentemente, a empresa se reuniu com o governo dos EUA para regular atividades da IA, mas a procedência dos dados não foi uma delas

197

Grande parte dos treinamentos das IAs atuais, como o ChatGPT, da OpenAI, e o Bard, do Google, aconteceu na internet. Isso porque os modelos de linguagem são treinados a partir de conteúdos, palavras e frases já existentes – e que melhor lugar para isso do que online?

No entanto, a OpenAI é uma das empresas que não detalha exatamente de onde obteve seus dados, que pode ser desde trabalhos com direitos autorais a publicações pessoais de internautas. Agora, a desenvolvedora do ChatGPT anunciou que permitirá ao usuário bloquear o rastreador responsável por coletar os dados dos usuários.

Para que serve o bloqueador

A OpenAI publicou em seu blog que os programadores de sites podem proibir especificamente o rastreador GPTBot, responsável por rastrear páginas da web acessadas por um usuário, ou ainda bloquear seu endereço IP, que torna o dispositivo uma espécie de rastreador de dados.

Segundo a empresa, as páginas da web rastreadas com o recurso ajudam a treinar os modelos de linguagem das IAs.

Páginas da Web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que exigem acesso pago, são conhecidas por coletar informações de identificação pessoal (PII) ou ter texto que viole nossas políticas.

Ainda segundo a desenvolvedora, se uma fonte não se enquadrar nos critérios delimitados acima, ela permite que “o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”.

OpenAI permitiu que desenvolvedores de sites bloqueiem o rastreador da empresa (Imagem: Rokas Tenys/Shutterstock)
OpenAI permitiu que desenvolvedores de sites bloqueiem o rastreador da empresa (Imagem: Rokas Tenys/Shutterstock)

Contexto

  • O fornecimento de dados para o treinamento de IAs se tornou assunto controverso nas redes sociais, uma vez que essa permissão nem sempre é concedida pelas pessoas online;
  • Segundo o The Verge, empresas, como Reddit e Twitter, já pressionaram para impedir que as desenvolvedoras de IA usem dados e publicações dos seus usuários para treinar a tecnologia;
  • Porém, atualmente, a OpenAI não detalha de onde obteve os dados para o treinamento do ChatGPT ou outras ferramentas da companhia. Eles podem ter vindo de posts em redes sociais, trabalhos com direitos autorais ou literalmente qualquer parte da internet a qual a empresa conseguiu acesso;
  • Ou seja, não é possível saber se a IA está ou não usando o que o usuário acessa para alimentá-la.
Os modelos de linguagem atuais foram treinados a partir de conteúdos ja existentes (Imagem: Diego Thomazini/Shutterstock)
Os modelos de linguagem atuais foram treinados a partir de conteúdos ja existentes (Imagem: Diego Thomazini/Shutterstock)

O que isso significa para a OpenAI

Com a possibilidade de bloquear o bot responsável por coletar atividades dos usuários, a OpenAI pode ficar sem esses dados.

Recentemente, a empresa se reuniu com o governo dos Estados Unidos para desenvolver sistema que aplicaria marca d’água em conteúdos gerados por IA. No entanto, a empresa de Sam Altman não concordou em parar de usar informações da internet para treinamento.