Executando verificação de segurança...
8

OpenAI GPT-4o | Primeiras Impressões e Alguns Teste com API

Fala, Cria! 👊🏽

Hoje quem lançou a braba foi a galera da OpenAI. Os malucos são brabos demais, mano! A jogada da vez foi o seu novo modelo GPT-4o, projetado para revolucionar a geração de texto, imagem, áudio e vídeo.

Esse "o" aí vem de "onisciente", ou seja, os caras vão está em tudo agora. Eles querem que o GPT-4o consiga criar qualquer tipo de conteúdo, em qualquer formato, em qualquer idioma.

AGI se aproximando? 🤔

Mudança

Atualmente muitos devs utilizam os seguintes modelos para atingir os seus objetivos:

ModeloEntradaSaídaTokens
gpt-3.5-turboTextoTexto16k
gpt-4-turboTextoTexto128k
gpt-4-turboImagemTexto16k

Até a data de hoje, temos a seguinte possibilidade com o GPT-4o:

ModeloEntradaSaídaTokens
gpt-4oTextoTexto128k
gpt-4oImagemTexto128k
gpt-4oVídeoTexto128k

Ele apenas está gerando a saída de texto, mas a OpenAI promete que em breve teremos a saída de imagem, áudio e vídeo, então o que veremos em um futuro próximo é:

ModeloEntradaSaídaTokens
gpt-4oTextoTexto128k
gpt-4oTextoImagem128k
gpt-4oTextoÁudio128k
gpt-4oImagemTexto128k
gpt-4oImagemÁudio128k
gpt-4oImagemVídeo128k
gpt-4oVídeoTexto128k
gpt-4oVídeoÁudio128k
gpt-4oVídeoVídeo128k
gpt-4oAudioTexto128k
gpt-4oAudioImagem128k
gpt-4oAudioVídeo128k

Incrível, não? 🤯

E o melhor de tudo, uma janela de contexto de 128k tokens, ou seja, o modelo consegue entender e gerar textos muito mais longos e complexos, e tudo isso com um CUSTO 50% MAIS BAIXO!

A CTO Mira Murati apontou que a utilização de três modelos diferentes pode causar latência no GPT. A solução é ter um único modelo capaz de processar áudio, texto e visão, eliminando esse problema e proporcionando uma interação mais fluída e imediata, semelhante à comunicação humana.

Novamente, AGI se aproximando? 🤔

Exemplos de uso

Os gringos lançaram uma pancada de exemplos de aplicações usando esse novo modelo:

E você, já pensou no que vai criar com esse novo modelo? Conta aí nos comentários.

API

Vamos brincar um pouco com a API que já está disponível para todos os desenvolvedores.

Texto para Texto

# main.py

from openai import OpenAI 
import os

SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)

completion = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {"role": "system", "content": "Você é um assistente prestativo. Me ajude com a minha lição de matemática!"},
    {"role": "user", "content": "Olá! Você poderia resolver 2+2?"}  
  ]
)

print("Assistente: " + completion.choices[0].message.content)

"""
Saida:
( 2 + 2 = 4 ). Se precisar de mais ajuda com sua lição de matemática, estou à disposição!
"""

Exemplo bem simples, certo?

Mas veja que não precisamos mais usar o gpt-4-turbo para resolver problemas matemáticos, o gpt-4 já resolve isso para nós. Eu ainda vou continuar usando o gpt-3.5-turbo para algumas situações, pois ele ainda é mais rápido e mais barato para textos menores.

Processamento de Imagem

Para esse teste peguei um screenshot do meu linkedin e vou pedir para o modelo descrever o que posso melhorar no meu perfil.

# main.py

from openai import OpenAI 
import base64

SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)

def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

base64_image = encode_image("linkedin.png")

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Você é um assistente que analisa imagens."},
        {"role": "user", "content": [
            {"type": "text", "text": "O que eu poderia melhorar no meu perfil do LinkedIn?"},
            {"type": "image_url", "image_url": {
                "url": f"data:image/png;base64,{base64_image}"}
            }
        ]}
    ],
    temperature=0.0,
)

print(response.choices[0].message.content)

"""
Saida:
1. **Foto de Perfil e Capa**:
   - A foto de perfil é profissional e amigável, o que é ótimo. Certifique-se de que a foto de capa também seja relevante para sua área de atuação ou que reflita sua personalidade profissional.

2. **Título Profissional**:
   - Seu título atual é "CTO na VIK". Considere adicionar palavras-chave que descrevam suas habilidades e especializações, como "CTO | Engenheiro de Software | Especialista em Ruby on Rails".

3. **Resumo (Sobre)**:
   - O resumo é uma ótima oportunidade para destacar suas principais realizações e habilidades. Considere adicionar mais detalhes sobre projetos específicos, resultados alcançados e como você pode agregar valor a potenciais empregadores ou parceiros.

...
"""

Bem mais interessante, certo? O modelo conseguiu analisar a minha foto e sugerir melhorias no meu perfil.

Conclusão

Esses são os exemplos mais próximos, em breve a OpenAI disponibiliza as entradas/saídas de áudio e vídeo (Sora, será?). Eles não lançaram ainda, com a seguinte ressalva abaixo.

"Reconhecemos que as modalidades de áudio do GPT-4 apresentam uma variedade de riscos novos. Hoje estamos lançando publicamente entradas de texto e imagem e saídas de texto. Nas próximas semanas e meses, trabalharemos na infraestrutura técnica, usabilidade pós-treinamento e segurança necessária para liberar as outras modalidades. Por exemplo, no lançamento, as saídas de áudio serão limitadas a uma seleção de vozes pré-definidas e seguirão nossas políticas de segurança existentes."

E aí, curtiu o flow?

Se você chegou até aqui, muito obrigado! Seria incrível se você pudesse compartilhar este material em suas redes sociais e dar um like! Para mais rolês como esse, cola comigo no Meu SiteLinkedInTwitterGitHub


Observação: Este conteúdo pode incluir imagens geradas por inteligência artificial em algumas partes ou textos revisados pelo mesmo sistema, mas toda a estruturação, ideias e experiências criativas são fornecidas por um ser humano. Gostaria de lembrar a todos que essas são minhas observações e pensamentos pessoais.

2

Não vejo isso sendo um passo mais perta de uma "AGI" (claro que vai variar muito da definição de cada um sobre, um Akinator da vida poderia ser considerado por abordar diversos temas?).

No que vejo, continua possuindo o mesmo problema de apenas interpretar coisas e entregar "resumos" dos treinamentos. Ou seja, seria como se estivessemos sempre olhando para o retrovisor.

Interpretar imagem e áudio não aproxima de um cenário onde algum GPT consiga tomar decisões efetivamente (ao invés de olhar para o retrovisor, olhar para frente mesmo). Se eu estiver utilizando no meu celular e pedir para ligar para alguém, ele não vai identificar o ambiente que está rodando, pesquisar para descobrir como se faz uma ligação nesse ambiente e então executar o comando. Se pedir para criar qualquer coisa nova de fato, não vai ter essa capacidade, apenas será uma interpretação dos conteúdos usados no treinamento.

Acho que esse tipo de evolução é mais um grande passo para uma nova grande mudança na interface humano-computador, ou como lidamos com a tecnologia em geral. Assim como mouse/teclado foi na época, os smartphones, telas touch, assim por diante. Ainda estão tentando emplacar realidade aumentada com os óculos, mas aproveitar o smartphone que a maioria já possui para mudar a forma de interagir com as coisas já bem mais simples mesmo.
Sem citar o quão incrível seria para a acessibilidade em geral, um cego apontar o celular, perguntar onde está e receber uma resposta completa e detalhada. Quando isso caminhar para vestíveis, olhar para as mãos e perguntar quanto dinheiro está segurando (conferir um troco por exemplo).

2

@guiliznas Blz?

Gostei muito da sua opinião, realmente o que define uma AGI? O que define qualquer coisa? Depende muito do ponto de vista do indivíduo.

Acredito que no fim desse hype, será gerada uma nova era, assim como foi em 1990 com a chegada dos PCs, Depois da Internet, Celuar, Aplicativos, SaaS, Blockchain e agora IA.

Talvez tudo isso vá se convergir em algo muito surpreendente nos próximos anos e ninguém ao certo sabe, tudo é mera futurologia.

Obrigado pela interação.

1

Isso mesmo! Imagino que nossa sensação hoje seria algo semelhante ao pessoal que acompanhou o surgimento da internet ou computadores mesmo, sem imaginar (na época) o potencial que atingiria.

1
0