1 min de leitura ·

Duvida - Projeto com IA

Eu estou desenvolvendo uma plataforma que ela ouve consultas de psicólogos, transcreve e a partir da transcrição gera resumos da consulta. Porém para gerar esse resumo eu tenho que enviar a transcrição para a IA, como é uma consulta de psicologo, pode durar 50 minutos até umas 2 horas, ou seja, uma transcrição bem grande.

Como eu poderia fazer para conseguir enviar essa transcrição para a IA sem usar muitos tokens ou sem dar algum erro por ser muito grande?
Compensa eu utilizar um modelo de IA open source e hospedar ele? eu preciso de uma IA que gere um bom resumo.
Existe alguma maneira melhor para fazer esse processo? O intuito é no futuro termos uma IA treinada somente para parte da psicologia.

rafael

1 ano atrás

Tem um artigo que ficou popular recentemente: OpenAI Charges by the Minute, So Make the Minutes Shorter. Em resumo, você pode acelerar o áudio para 2x ou 3x (mais do que isso, o autor teve problemas).

Também pode experimentar cortar alguns trechos do áudio e deixar a IA deduzir pelo contexto, por exemplo cortar 1s a cada 10s, mas suspeito que isso mais atrapalharia do que ajudaria. Acho que o Lucas Montano falou disso nesse vídeo.

A Rocketseat lançou um vídeo recente falando sobre transcrição de áudio também, mencionando serviços alternativos e o motivo de terem trocado.

Se mesmo assim o áudio estiver muito longo, você pode dividir em mais áudios e depois juntar as transcrições.

adryannsanntos

Autor

1 ano atrás

Atualmente eu já estou fazendo esse processo de acelerar o áudio (2x), meu real problema é na hora de passar essa transcriçao que foi gerada para a IA, por ela ser uma transcriçao com diarization, ela acaba ficando muito grande.

Oletros

1 ano atrás

Meus 2 cents extendidos,

Uma ideia pode ser usar um LLM menor (mais barato/free) para fazer a compactacao de informacao e o LLM maior para fazer o resumo e/ou analise.

Outra ideia eh usar abreviacoes para palavras ou trechos muito repetidos:

https://gist.github.com/jimsrc/46670bd97f1bad0845e0a208e33996c8

https://gist.github.com/VictorTaelin/d293328f75291b23e203e9d9db9bd136

Nos itens acima, utilizam compressao atraves de abreviacoes e passam um "dicionario" de abreviacoes para a LLM saber o que eh cada uma.

Nao sei se funciona no seu caso - mas enfim.

rafael

1 ano atrás

Ahhh eu entendi completamente errado então.

Essa thread do Reddit parece ter algumas dicas úteis.

Eu realmente acho que vale a pena experimentar hospedar alguma LLM e comparar os custos e o resultado. Mas, se continuar usando alguma API, além de procurar por modelos mais baratos, pode ver se o serviço que você está usando oferece um desconto, como é o caso do batch processing no Claude e batch API na OpenAI.

Oletros

1 ano atrás

Meus 2 cents,

Tem um autor aqui que tem um sistema semelhante:

https://www.tabnews.com.br/jonathanbandeira/criei-meu-primeiro-saas-agora-estou-no-meio-de-um-mercado-de-healthtech-mas-o-codigo-foi-a-parte-facil-o-dificil-e-virar-startup

https://www.tabnews.com.br/jonathanbandeira/como-criamos-uma-ia-que-escuta-consultas-medicas-e-preenche-prontuarios-automaticamente-usando-chatgpt-4-0-e-outras-ferramentas-o-caso-da-voxmed

Sobre as perguntas:

Teve uma discussao sobre o assunto aqui:

https://www.tabnews.com.br/Oletros/2571b26e-3316-4a12-8f4f-b8a66c84845e

https://www.tabnews.com.br/Alright/como-estao-fazendo-transcricao-de-audio-para-as-ias

Usar transcricao sem usar muitos tokens: tente usar o ffmpeg e acelerar o audio (p.ex. 1.5 ou 2x e veja se a transcricao continua ok)
Compensa um modelo opensource e hospedar: depende do volume (veja na discussao acima).
Melhorar o processo: sim, voce pode fazer um fine-tunning do LLM para entender melhor as palavras especificas em portugues e psicologia. O problema eh custo (precisa de GPU para isto, e acaba saindo caro)

Boa sorte - Saude e Sucesso !