Anthropic lança ferramenta inovadora para avaliar comportamento de modelos de IA
A Anthropic lançou a Bloom, uma ferramenta destinada a simplificar a avaliação comportamental de sistemas de inteligência artificial. Esse tipo de avaliação é crucial para entender – e garantir – que os sistemas de IA operem como esperado no mundo real, mas além de serem dispendiosas, são complexas e rapidamente ficam desatualizadas. A Anthropic, responsável pelo chatbot Claude, busca oferecer uma solução mais flexível.
Fique por dentro das principais novidades em tecnologia eacompanhe tudo em tek.sapo.pt
As “avaliações comportamentais de alta qualidade são fundamentais para entender o alinhamento em modelos de IA avançados. Contudo, essas avaliações costumam exigir muito tempo para serem criadas e têm risco de se tornar obsoletas”, enfatiza a empresa.
Utilizando as ferramentas disponíveis, “as avaliações podem ‘contaminar’ conjuntos de dados para novos modelos, ou as capacidades podem evoluir a ponto de a avaliação deixar de avaliar o que realmente importa”, acrescenta a Anthropic, ressaltando que essa foi a razão pela qual a empresa reconheceu a necessidade de desenvolver métodos mais ágeis e escaláveis para gerar avaliações em relação a comportamentos desalinhados.
Clique nas imagens para visualizar em mais detalhes
A companhia já havia introduzido o Petri, uma ferramenta de código aberto que permite a exploração automática dos perfis comportamentais dos modelos de inteligência artificial através de interações com usuários e ferramentas simuladas. “Essa ferramenta fornece resumos quantitativos e qualitativos sobre o comportamento do modelo e revela novos casos de desalinhamento”, declara a Anthropic.
Enquanto o Petri utiliza cenários definidos pelo usuário e avalia diversas dimensões comportamentais para sinalizar situações problemáticas, a Bloom se concentra em um único comportamento e gera automaticamente múltiplos cenários para quantificar com que frequência esse comportamento ocorre.
A intenção é que os pesquisadores possam chegar a conclusões mais rapidamente acerca das propriedades do modelo que são do seu interesse, utilizando uma ferramenta capaz de gerar “conjuntos de avaliações focadas em traços comportamentais específicos”.
Esta nova ferramenta opera através de quatro etapas automatizadas, que “transformam uma descrição do comportamento e configurações iniciais em um conjunto completo de avaliações com métricas de alto nível”. As etapas são: compreensão, elaboração, implementação e avaliação.
Na primeira etapa, um agente analisa a descrição do comportamento fornecida pelo pesquisador e transcrições de exemplos para criar um contexto detalhado sobre o que deve ser medido e por que.
Na fase seguinte, outro agente gera cenários de avaliação, que são utilizados na etapa de implementação.
Nessa fase, respostas do usuário são simuladas para induzir o comportamento que se deseja avaliar. Por fim, o modelo de avaliação atribui uma pontuação a cada transcrição com base na presença do comportamento e outros critérios definidos, produzindo uma análise conforme os dados coletados para os cenários dinâmicos gerados pela ferramenta.
Paralelamente, foram divulgados resultados de benchmark para quatro comportamentos em 16 modelos de ponta: bajulação/lisonja exagerada, sabotagem a longo prazo, autopreservação e viés de autopreferência. As avaliações já foram realizadas utilizando a Bloom e foram concluídas em poucos dias, garantindo a Anthropic que detalha tudo em uma publicação online.
