(DUVIDA) Poderiam me ajudar com um projeto ?

Bom dia, pessoal!

Estou começando a me aprofundar na área de inteligência artificial e gostaria de tirar algumas dúvidas com quem já trabalha ou tem experiência, principalmente em projetos voltados para treinamento e análise de imagens.

Atualmente, estou desenvolvendo um aplicativo com React Native utilizando o Expo, e pretendo implementar uma IA que seja capaz de analisar imagens e, com base em um prompt que eu enviar, fornecer sugestões ou interpretações sobre o conteúdo dessas imagens.

Pesquisando sobre soluções, encontrei o Google Vertex AI, que parece ser bem robusto, mas observei que há custos por requisição, o que pode ser um problema para mim neste momento.

Outra alternativa que considerei foi usar a LLaMA, mas nesse caso o modelo teria que rodar localmente no meu backend, o que exigiria mais infraestrutura da minha parte.

Queria saber se alguém já trabalhou com algo semelhante e se poderia me indicar a melhor abordagem, considerando custo, desempenho e facilidade de integração com o app.

cyp

7 meses atrás

Estou mexendo com IA há algum tempo e criei um interpretador de imagens para meu serviço de IA e o que posso te dizer é:

Google tem o interpretador de imagens e áudio mais performático disponível.

Só isso que você precisa. Tanto faz se vai usar pelo Vertex AI ou pela API diretamente. Alguns modelos mudam um pouco o interpretador:

Série Gemini 2.5: é o mais avançado para segmentação: eles conseguem separar "assuntos" de imagens e retorna na API um retângulo para cada um (posição e tamanho).
Série Gemini 2.0: é o melhor para menores detalhes, pois eles tem o tal do zoomed reframing, que meio que o modelo dá um zoom em detalhes pequenos para ler conteúdo escondido.

Não cheguei a testar a multi-modalidades dos modelos Gemini 1.5. Além disso, os resultados da interpretação mudam de nível de modelo, por exemplo: o Gemini 2.5 Pro vai ter uma interpretação muito mais detalhada do que o Gemini 2.5 Flash Lite.

Sobre os modelos Llama 4 - você pode rodar pelo groq - mas não faça isso: os modelos Llama 4 são péssimos. Eles tem um desempenho muito inferior à qualquer outro modelo existente.

oyvesmariano

10 meses atrás

Creio que não há como fugir do custo, a grande maioria das IAs que valem a pena usar vão te custar realmente, seja ou para consumir o modelo por API, ou precisará de uma infraestrutura dedicada com GPU para o bom desempenho do modelo. Ainda mais se tratando de análise de imagens que costumam consumir mais tokens.

Por outro lado creio que com poucos créditos como 5 ou 10 dólares você consegue testar o seu app na maioria dos provedores. O que você vai ter que resolver então seria a precificação do seu app para que você não fique no prejuízo no caso de um pico de usuários. A própria OpenAI com sua infraestrutura gigante teve que limitar a geração de imagens porquê tava pesando nos datacenters deles.

Por fim, ceritfique-se de que os usuários grátis tenham um plano limitado e que o rate-limit da API está funcionando para não ocasionar em custos inexperados. Faça uma boa precificação dos planos com acesso premium como pacotes de créditos de geração de imagem.

hercilio

9 meses atrás

O problema maior ai é a IA analisar imagens, quando ela analisa uma imagem ela pega o base64 da imagem (na maioria das vesez) e gera a descrição, então você precisa salvar o embedding em um banco vetorial para que ela possa fazer a comparação com outras imagens depois. Não tem pra onde fugir, esses modelos consomem muitos tokens e processamento, mas há algumas soluções baratas, pode usar o replicate.com ele só cobra por uso, então pra rodar em produção pode ser interessante, e tem o huggingface que hospeda alguns modelos de embedding e tu pode usar gratuitamente com algumas limitações e tambem ainda da pra contribuir com a comunidade. Eu ja usei bastante la quando eu tava testanto uma aplicação justamente igual essa que tu ta fazendo. Hoje em dia a empresa roda um modelo no servidor local que recebe as requisições por api rest.

KaioPiola

5 meses atrás

O Gemini suporta envio de imagens via API e ele é capaz de gerar descrições até bem precisas, fiz um bot no Discord que se comunicava com a API do Gemini e ele conseguia analisar imagens enviadas por meio do Discord, acho que ele poderá te ajudar muito nesse caso.

macnator

6 meses atrás

"Ia capaz de analisar imagens" é bem amplo, precisa pensar nisso de forma específica, porque é assim que os modelos atuais são, não existe um modelo generalista decente infelizmente, e acho que esse é o maior problema que vai enfrentar.

Atualmente você não consegue por exemplo pegar uma ia seja a melhor que for e pedir para ela identificar todos os itens de uma imagem seja ela qual for, o modelo será bom para alguns itens e péssimo para outros entende? E todos vão custar caro. Implementar IA local só se tiver bastante investimento, e estamos falando na faixa ai tranquilamente de no minimo meio milhão de reais para uma IA decente que você possa treinar em algo específico que deseja e depois manter offline para inferência de resultados.

Você pode ler por ai que uma placa da Nvidia de 20 mil reais da conta de testes, mas não é verdade, a questão toda é memoria, e os melhores modelos tem muitos gigas de tamanho, você ate pode fazer umas gambiarras pra fracionar o modelo, despejar em disco usar swap (tudo isso eu já fiz kkk), mas no fim o desempenho será tão pobre e o treinamento tão lento que você vai acabar desistindo dessa abordagem.

Um exemplo claro do que eu estou falando, digamos que você deseja criar um sistema que analise plantas baixas de construção para extrair medidas do ambiente, ou criar uma lista de materiais para fazer orçamento.

Você não vai encontrar nenhum modelo que consegue capturar tudo entendeu, alguns te passam as metragens mas sempre vem algo errado, outros te passam listas de materiais mas sempre com algo incorreto ou incompleto, isso porque os modelos não foram treinados para isso. Neste caso especifico você teria que treinar o modelo exatamente para o que deseja fazer e iria funcionar, o problema é que teria que ter milhares de exemplos de dados ou seja plantas com descrições exatas dos materiais ou medidas etc, para o modelo aprender a fazer isso. A questão toda é onde conseguir esses dados e quem vai montar a base de dados item a item planta a planta sacou? É ai que está o ouro da IA, não é bem os modelos, são as bases de dados especializadas para treinamento que somente empresas grandes tem e são dados proprietários que não estão na internet, e elas mesmas não usam porque não tem gente para converter esses dados em dados utilizáveis pela IA, porque como disse teria que colocar planta a planta item a item de cada planta em um json por exemplo o que é extenuante, complexo e um trabalho gigantesco. Entendeu o problema todo? É isso que está faltando no mercado, profissionais interessados em fazer isso, por isso os salários gigantescos na área.

Você pode fazer esses treinamentos na nuvem um exemplo é usando o Azure Computer Vision da Microsoft por exemplo que já tem uma estrutura pronta para você treinar modelos para reconhecer imagens com seus parâmetros, google, amazon etc também tem isso, mas vamos falar sério? Eles vão usar o seu trabalho extenuante para treinar os modelos deles, ou seja você paga para usar e eles ainda roubam seu trabalho e treinam os modelos deles com isso. E depois quando tu acha que lançou o aplicativo top das galáxias, a Microsoft lança um penduricalho no office ou outro aplicativo qualquer com a mesma função e milhões de dólares em marketing que você ajudou a treinar e você se lasca. Aconteceu comigo isso, eu fui a primeira pessoa a lançar uma Macro em VBA que integrava o Microsof Word ao GPT, para gerar texto dentro do Word, e menos de um ano depois advinha o que aconteceu, você tem que ponderar muito bem aonde vai investir seu tempo e esforço com IA ou te derrubam muito rapido. E acredito que isso vai ocorrer com qualquer empresa de nuvem que usar, pra ti ter uma ideia até a nuvem da magazine Luiza no brasil tem um termo no seu contrato de serviço que diz que todo o conteúdo que estiver nos servidores deles pertence a eles, só no brasil que não leem contrato que alguem aceitaria isso, mas todas as empresas de cloud tem algo nesse sentido, autorizando eles a usarem os dados para "melhorar" serviços.

O que eu realmente acho? Consiga investimento, venda a casa, sei lá, mas crie seu mecanismo todo local, off-line e depois coloque seu aplicativo no ar, ou a copia será impossível de evitar, a algum tempo atrás escrevendo artigos sobre ia, eu afirmei e continuo afirmando, que somente empresas que tiverem seus próprios modelos de IA irão conseguir gerar valor no mercado, isso a mais de dois anos e você pode procurar no mercado de dois anos para cá que empresa sem um modelo próprio avançou no mercado de verdade.

Recomendo a leitura:

1 - https://www.tabnews.com.br/macnator/a-revolucao-da-inteligencia-artificial-so-que-nao-artigo
2 - https://www.tabnews.com.br/macnator/a-revolucao-da-inteligencia-artificial-so-que-nao-parte-2-artigo
3- https://www.tabnews.com.br/macnator/a-revolucao-da-inteligencia-artificial-so-que-nao-parte-3
4 - https://www.tabnews.com.br/macnator/testei-o-gpt-pro-a-versao-mais-cara-do-gpt-inteligencia-a-nivel-de-pesquisa-so-que-nao

JonnyD

6 meses atrás

Vc pode experimentar usar alguma LLava com Grok para ver como fica o custo, o LLaVa é para visuaç, ou até outros modelos com Grok, só testando para saber o preço

Vc pode experimentar o Gemini Flash tbm, ele tem um bom custo beneficio.

Rodar uma LLM no seu hardware por agora é inviável para qualquer coisa que não for um teste mesmo, eu rodei Ollama num hardware bem modesto, mas é BEM pesado até os modelos mais leves

Dependendo do que você quer fazer , talvez um OpenCV ou PyTorch , se for algo mais estruturado eles funcionam bem, vc poderia até usar eles para extrair dados e passar para um LLM , checar os dados e se nao for o suficiente dai mandar para a LLM para diminuir o custo