⚠️ Atenção! Este artigo foi traduzido do inglês para o português a partir da fonte informada ao final do artigo. A tradução é fornecida apenas para fins informativos e não deve ser considerada como uma tradução oficial. Não me responsabilizo por quaisquer erros ou imprecisões que possam ter sido introduzidos na tradução. É altamente recomendável que você verifique a precisão do conteúdo com a fonte original em inglês.

Adept

Os Action Transformers são o próximo salto para a IA

Poucas coisas têm o potencial de mudar tanto em nossa vida diária. Ou no nosso trabalho.

E embora você possa muito bem ficar tentado a ver o título como puro sensacionalismo, posso garantir que, ao final do artigo, você pensará o contrário.

E se eu dissesse a você que existe um caso de uso ainda maior para IA do que o ChatGPT, um caso de uso que pode mudar completamente a maneira como interagimos com nossos telefones, tablets ou computadores para usá-los de maneiras consideradas impossíveis?

Essa tecnologia existe e está se aproximando de você.

Mas deixe-me colocar um aviso: a extensão de quão animado ou assustado você ficará depois de ler este artigo dependerá inteiramente de você, não de mim.

Essa é a medida em que os Action Transformers podem ser disruptivos e transformadores para o seu futuro.

Quando a atenção se tornou convencional

A IA generativa representa a primeira vez que essa promessa de décadas que a IA era se tornou uma realidade que pode ser apreciada até mesmo pela parte menos tecnológica da sociedade.

A IA convencional está aqui

Embora a IA já esteja em toda parte, até agora os modelos de IA foram usados como preditores: tomadores de decisão para casos de uso muito personalizados e específicos.

Estranhamente, o campo de IA mais bem-sucedido – economicamente falando – tem sido a publicidade on-line, permitindo que empresas como Google ou Meta construam impérios literais a partir do simples conceito de certeza.

Ou seja, fornecer aos humanos a garantia empírica e baseada em dados de que o resultado de uma determinada ação, na maioria das vezes, seria lucrativo.

Graças à IA, o Google e a Meta garantiram resultados aos anunciantes, garantindo que suas campanhas de marketing atingissem os clientes desejados, transformando o setor de marketing do histórico “acerto e erro” em algo muito mais simplificado.

Mas esse sucesso surpreendente exigiu investimentos importantes, tornando a IA uma tecnologia proibida para a maioria.

Assim, tudo isso está mudando com a IA generativa, a primeira vez que a IA se torna popular e acessível em nosso dia-a-dia.

E embora você certamente veja muitos modelos diferentes de IA sendo jogados na sua cara, todos eles podem ser resumidos a um conceito simples: em um mundo onde estar focado é um desafio maior a cada dia, é irônico que a coisa que vai mudar o mundo ao nosso redor se baseia em uma coisa simples: atenção.

Atenção é tudo que você precisa

O mecanismo de atenção é uma proposta de Bahdanau et al que é, sem dúvida, um dos trabalhos mais influentes da história da Inteligência Artificial.

Resumindo, foi a primeira vez que encontramos uma maneira de os humanos ensinarem as máquinas a entender o contexto de uma frase de maneira 'semelhante' à dos humanos.

Podemos ver isso com um exemplo:

Digamos que você queira traduzir uma frase para outro idioma.

A menos que você seja muito esquisito, provavelmente traduzirá a frase em pequenos pedaços; inicialmente as primeiras palavras, depois as seguintes, mantendo em sua memória a primeira parte da frase para reter o contexto... e assim por diante.

Porém, antes do mecanismo de atenção, as redes neurais entendiam o contexto pela força bruta, extraindo o contexto de toda a frase. Isso significava que, para um comprimento crescente da frase que queríamos que a máquina entendesse, os requisitos computacionais e de memória disparavam.

Com o mecanismo de atenção, tudo isso mudou.

Graças a um mecanismo de ponderação, fomos capazes de ensinar as máquinas a “pontuar” uma palavra de cada vez, e o resto das palavras de uma frase em relação a essa palavra.

Isso significava, em termos muito simplificados, que para cada palavra em uma frase que a máquina recebia, ela era capaz de entender quais outras palavras naquela frase importavam mais e quais importavam menos, como você e eu fazemos inconscientemente.

Isso permitiu o nascimento do transformador, o modelo por trás do ChatGPT, DALL-E, Stable Diffusion, ou nosso protagonista de hoje, ACT-1.

Os transformadores vieram para ficar

O mecanismo de atenção fez com que, em 2017, um grupo de pesquisadores decidisse abandonar a recorrência e a convolução, padrões da época para treinar modelos de sequência, e criar um novo codificador-decodificador — duas redes neurais conectadas em sequência — que dependia apenas do mecanismo de atenção.

No entanto, até agora, as principais aplicações desses modelos foram para gerar saídas de texto ou imagem. Como visto com o ChatGPT, isso foi muito bem-sucedido e já está impactando vários setores, como trabalhadores criativos, escritores ou profissionais de marketing.

Mas há um caso de uso maior que poucos conhecem e que mudará completamente a forma como você usa seus dispositivos digitais.

Action Transformers, ou inteligência comum

Adept.ai não é uma startup comum.

Ele foi fundado por algumas das mentes mais brilhantes da IA (alguns deles criaram o conceito do modelo Transformer discutido anteriormente e é co-fundado por David Luan, que já foi chefe de engenharia da OpenAI).

Agora, eles decidiram levar seus talentos para o próximo nível criando o primeiro Action Transformer, um grande modelo de linguagem reivindicado pela equipe por ser o primeiro modelo de IA geralmente inteligente, enquadrando a 'inteligência geral' como a capacidade de um modelo para executar várias tarefas em um computador de maneira inteligente.

A essa altura, você deve estar se perguntando… “Ótimo, mas o que essa 'coisa' faz?”

Resumindo, é automação inteligente de uso geral.

Mudando a forma como interagimos com os computadores, para sempre

Imagine que você está trabalhando com uma planilha Excel com informações referentes ao financeiro da sua empresa. De repente, você percebe que adoraria criar uma tabela dinâmica que forneça mais informações sobre as informações da sua tabela.

Mas já faz um tempo desde que você fez um e só de pensar em ter que aprender de novo piora seu humor.

Em seguida, abra uma extensão do Chrome e digite “Criar uma tabela dinâmica que apresente minhas informações financeiras de forma que eu possa identificar claramente o lucro e a margem de cada ano, filtrando apenas os resultados positivos”.

Você pressiona 'enter'. Et voilà, a mágica acontece.

enter image description here

De repente, a solicitação que você inseriu é executada automaticamente na planilha do Excel, enquanto você, simplesmente, assiste.

Isso, que quase parece ficção científica, pode ser o 'business usual' em nossas vidas daqui a alguns anos.

Ou meses, graças ao ACT-1 do Adept.

O caminho para a automação de uso geral

Atualmente, a automação digital é um processo bastante rudimentar. Poderoso, não me interpretem mal, mas rudimentar.

As pessoas têm que “ensinar” o software de automação a realizar uma série de ações repetitivas, mostrando, literalmente, em que lugar da tela do computador ele precisa atuar, e o robô simplesmente obedece.

Mas não há inteligência neste procedimento. Esses robôs só podem replicar processos definidos e falhar automaticamente se eles mudarem.

Com transformadores de ação, isso é coisa do passado.

Aproveitando o poderoso conceito de grandes modelos de linguagem, esses transformadores são capazes de interagir com praticamente qualquer interface gráfica do usuário, API ou site da Web de maneira contínua, com quase nenhum treinamento.

Mas isso não é o mais incrível; eles podem se tornar companheiros de equipe para qualquer ser humano, pois são capazes de executar essas ações, sob demanda, com solicitações de linguagem natural como o exemplo que mostrei anteriormente.

E o que é ainda mais impressionante é que o Adept.ai está desenvolvendo seu modelo de transformador usando uma nova iteração inovadora do mecanismo de atenção, um conceito descrito como auto-atenção.

Mais longo e mais rápido

Como mencionado anteriormente, os maiores gargalos nesses modelos são as restrições de tempo de execução e memória.

Embora o mecanismo de atenção permitisse uma maneira muito mais "humana" de extrair o contexto das frases, reduzindo os requisitos de memória, ele ainda pode ser melhorado.

Com o mecanismo de atenção normal, o tempo de execução e a memória têm requisitos quadráticos para o comprimento da sequência de entrada. Em outras palavras, quanto mais longa a sequência de entrada, exponencialmente maiores serão os requisitos de memória e tempo de execução.

Hoje, os modelos de última geração são capazes de lidar com cerca de 2.000 tokens, o que representa menos de 2.000 palavras por entrada (recentemente, um sistema de incorporação de 8.192 tokens foi lançado pela OpenAI).

Isso limita a quantidade de entrada que você pode fornecer a um modelo para que ele entenda o contexto e gere uma saída. Logicamente, isso não é suficiente, pois quem já leu um livro sabe que o contexto pode ser derivado de textos muito, muito maiores.

O modelo ACT-1 da Adept.ai alavanca a auto-atenção, um novo mecanismo que eles afirmam reduzir os requisitos de memória e tempo de execução para linear em relação ao comprimento da sequência de entrada.

A memória e o tempo de execução aumentam linearmente, não exponencialmente, com o comprimento da sequência.

O impacto potencial disso?

Eventualmente, pudemos ver a proliferação de colegas de equipe de IA que o acompanham ao longo de meses, aprendendo com suas formas de trabalho e ritmos, e podendo se tornar seu companheiro de trabalho inseparável que aprimora suas ações de maneira personalizada e dedicada.

Ok, mas isso é bom ou ruim?

É difícil não se sentir sobrecarregado, ou mesmo assustado, com notícias como esta.

Mas eu não acho que isso seja realmente uma coisa ruim.

Na verdade, esses robôs podem se tornar elementos verdadeiramente transformadores em nossas vidas e, potencialmente, podem mudar completamente a forma como interagimos com os computadores no futuro, para melhor.

A verdadeira questão é: precisaremos de interfaces de software no futuro? Ou os produtos de software simplesmente se tornarão back-ends com os quais os transformadores de ação interagem?

Uma palavra final

E se você for capaz de estar acima de 99% da sociedade? Esse é um nível totalmente diferente.

Exemplos disponíveis no Site da Adept.ai

Uma IA mais impressionante que o ChatGPT