Fala, Cria! 👊🏽

Hoje quem lançou a braba foi a galera da OpenAI. Os malucos são brabos demais, mano! A jogada da vez foi o seu novo modelo GPT-4o, projetado para revolucionar a geração de texto, imagem, áudio e vídeo.

Esse "o" aí vem de "onisciente", ou seja, os caras vão está em tudo agora. Eles querem que o GPT-4o consiga criar qualquer tipo de conteúdo, em qualquer formato, em qualquer idioma.

AGI se aproximando? 🤔

Mudança

Atualmente muitos devs utilizam os seguintes modelos para atingir os seus objetivos:

Modelo	Entrada	Saída	Tokens
gpt-3.5-turbo	Texto	Texto	16k
gpt-4-turbo	Texto	Texto	128k
gpt-4-turbo	Imagem	Texto	16k

Até a data de hoje, temos a seguinte possibilidade com o GPT-4o:

Modelo	Entrada	Saída	Tokens
gpt-4o	Texto	Texto	128k
gpt-4o	Imagem	Texto	128k
gpt-4o	Vídeo	Texto	128k

Ele apenas está gerando a saída de texto, mas a OpenAI promete que em breve teremos a saída de imagem, áudio e vídeo, então o que veremos em um futuro próximo é:

Modelo	Entrada	Saída	Tokens
gpt-4o	Texto	Texto	128k
gpt-4o	Texto	Imagem	128k
gpt-4o	Texto	Áudio	128k
gpt-4o	Imagem	Texto	128k
gpt-4o	Imagem	Áudio	128k
gpt-4o	Imagem	Vídeo	128k
gpt-4o	Vídeo	Texto	128k
gpt-4o	Vídeo	Áudio	128k
gpt-4o	Vídeo	Vídeo	128k
gpt-4o	Audio	Texto	128k
gpt-4o	Audio	Imagem	128k
gpt-4o	Audio	Vídeo	128k

Incrível, não? 🤯

E o melhor de tudo, uma janela de contexto de 128k tokens, ou seja, o modelo consegue entender e gerar textos muito mais longos e complexos, e tudo isso com um CUSTO 50% MAIS BAIXO!

A CTO Mira Murati apontou que a utilização de três modelos diferentes pode causar latência no GPT. A solução é ter um único modelo capaz de processar áudio, texto e visão, eliminando esse problema e proporcionando uma interação mais fluída e imediata, semelhante à comunicação humana.

Novamente, AGI se aproximando? 🤔

Exemplos de uso

Os gringos lançaram uma pancada de exemplos de aplicações usando esse novo modelo:

E você, já pensou no que vai criar com esse novo modelo? Conta aí nos comentários.

API

Vamos brincar um pouco com a API que já está disponível para todos os desenvolvedores.

Texto para Texto

# main.py

from openai import OpenAI 
import os

SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)

completion = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {"role": "system", "content": "Você é um assistente prestativo. Me ajude com a minha lição de matemática!"},
    {"role": "user", "content": "Olá! Você poderia resolver 2+2?"}  
  ]
)

print("Assistente: " + completion.choices[0].message.content)

"""
Saida:
( 2 + 2 = 4 ). Se precisar de mais ajuda com sua lição de matemática, estou à disposição!
"""

Exemplo bem simples, certo?

Mas veja que não precisamos mais usar o gpt-4-turbo para resolver problemas matemáticos, o gpt-4 já resolve isso para nós. Eu ainda vou continuar usando o gpt-3.5-turbo para algumas situações, pois ele ainda é mais rápido e mais barato para textos menores.

Processamento de Imagem

Para esse teste peguei um screenshot do meu linkedin e vou pedir para o modelo descrever o que posso melhorar no meu perfil.

# main.py

from openai import OpenAI 
import base64

SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)

def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

base64_image = encode_image("linkedin.png")

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Você é um assistente que analisa imagens."},
        {"role": "user", "content": [
            {"type": "text", "text": "O que eu poderia melhorar no meu perfil do LinkedIn?"},
            {"type": "image_url", "image_url": {
                "url": f"data:image/png;base64,{base64_image}"}
            }
        ]}
    ],
    temperature=0.0,
)

print(response.choices[0].message.content)

"""
Saida:
1. **Foto de Perfil e Capa**:
   - A foto de perfil é profissional e amigável, o que é ótimo. Certifique-se de que a foto de capa também seja relevante para sua área de atuação ou que reflita sua personalidade profissional.

2. **Título Profissional**:
   - Seu título atual é "CTO na VIK". Considere adicionar palavras-chave que descrevam suas habilidades e especializações, como "CTO | Engenheiro de Software | Especialista em Ruby on Rails".

3. **Resumo (Sobre)**:
   - O resumo é uma ótima oportunidade para destacar suas principais realizações e habilidades. Considere adicionar mais detalhes sobre projetos específicos, resultados alcançados e como você pode agregar valor a potenciais empregadores ou parceiros.

...
"""

Bem mais interessante, certo? O modelo conseguiu analisar a minha foto e sugerir melhorias no meu perfil.

Conclusão

Esses são os exemplos mais próximos, em breve a OpenAI disponibiliza as entradas/saídas de áudio e vídeo (Sora, será?). Eles não lançaram ainda, com a seguinte ressalva abaixo.

"Reconhecemos que as modalidades de áudio do GPT-4 apresentam uma variedade de riscos novos. Hoje estamos lançando publicamente entradas de texto e imagem e saídas de texto. Nas próximas semanas e meses, trabalharemos na infraestrutura técnica, usabilidade pós-treinamento e segurança necessária para liberar as outras modalidades. Por exemplo, no lançamento, as saídas de áudio serão limitadas a uma seleção de vozes pré-definidas e seguirão nossas políticas de segurança existentes."

E aí, curtiu o flow?

Se você chegou até aqui, muito obrigado! Seria incrível se você pudesse compartilhar este material em suas redes sociais e dar um like! Para mais rolês como esse, cola comigo no Meu Site • LinkedIn • Twitter • GitHub

Observação: Este conteúdo pode incluir imagens geradas por inteligência artificial em algumas partes ou textos revisados pelo mesmo sistema, mas toda a estruturação, ideias e experiências criativas são fornecidas por um ser humano. Gostaria de lembrar a todos que essas são minhas observações e pensamentos pessoais.

Não vejo isso sendo um passo mais perta de uma "AGI" (claro que vai variar muito da definição de cada um sobre, um Akinator da vida poderia ser considerado por abordar diversos temas?).

No que vejo, continua possuindo o mesmo problema de apenas interpretar coisas e entregar "resumos" dos treinamentos. Ou seja, seria como se estivessemos sempre olhando para o retrovisor.

Interpretar imagem e áudio não aproxima de um cenário onde algum GPT consiga tomar decisões efetivamente (ao invés de olhar para o retrovisor, olhar para frente mesmo). Se eu estiver utilizando no meu celular e pedir para ligar para alguém, ele não vai identificar o ambiente que está rodando, pesquisar para descobrir como se faz uma ligação nesse ambiente e então executar o comando. Se pedir para criar qualquer coisa nova de fato, não vai ter essa capacidade, apenas será uma interpretação dos conteúdos usados no treinamento.

Acho que esse tipo de evolução é mais um grande passo para uma nova grande mudança na interface humano-computador, ou como lidamos com a tecnologia em geral. Assim como mouse/teclado foi na época, os smartphones, telas touch, assim por diante. Ainda estão tentando emplacar realidade aumentada com os óculos, mas aproveitar o smartphone que a maioria já possui para mudar a forma de interagir com as coisas já bem mais simples mesmo.
Sem citar o quão incrível seria para a acessibilidade em geral, um cego apontar o celular, perguntar onde está e receber uma resposta completa e detalhada. Quando isso caminhar para vestíveis, olhar para as mãos e perguntar quanto dinheiro está segurando (conferir um troco por exemplo).

OpenAI GPT-4o | Primeiras Impressões e Alguns Teste com API