Executando verificação de segurança...
1

Duvida - Projeto com IA

Eu estou desenvolvendo uma plataforma que ela ouve consultas de psicólogos, transcreve e a partir da transcrição gera resumos da consulta. Porém para gerar esse resumo eu tenho que enviar a transcrição para a IA, como é uma consulta de psicologo, pode durar 50 minutos até umas 2 horas, ou seja, uma transcrição bem grande.

  • Como eu poderia fazer para conseguir enviar essa transcrição para a IA sem usar muitos tokens ou sem dar algum erro por ser muito grande?

  • Compensa eu utilizar um modelo de IA open source e hospedar ele? eu preciso de uma IA que gere um bom resumo.

  • Existe alguma maneira melhor para fazer esse processo? O intuito é no futuro termos uma IA treinada somente para parte da psicologia.

Carregando publicação patrocinada...
3

Tem um artigo que ficou popular recentemente: OpenAI Charges by the Minute, So Make the Minutes Shorter. Em resumo, você pode acelerar o áudio para 2x ou 3x (mais do que isso, o autor teve problemas).

Também pode experimentar cortar alguns trechos do áudio e deixar a IA deduzir pelo contexto, por exemplo cortar 1s a cada 10s, mas suspeito que isso mais atrapalharia do que ajudaria. Acho que o Lucas Montano falou disso nesse vídeo.

A Rocketseat lançou um vídeo recente falando sobre transcrição de áudio também, mencionando serviços alternativos e o motivo de terem trocado.

Se mesmo assim o áudio estiver muito longo, você pode dividir em mais áudios e depois juntar as transcrições.

1

Atualmente eu já estou fazendo esse processo de acelerar o áudio (2x), meu real problema é na hora de passar essa transcriçao que foi gerada para a IA, por ela ser uma transcriçao com diarization, ela acaba ficando muito grande.

2

Meus 2 cents extendidos,

Uma ideia pode ser usar um LLM menor (mais barato/free) para fazer a compactacao de informacao e o LLM maior para fazer o resumo e/ou analise.

Outra ideia eh usar abreviacoes para palavras ou trechos muito repetidos:

https://gist.github.com/jimsrc/46670bd97f1bad0845e0a208e33996c8

https://gist.github.com/VictorTaelin/d293328f75291b23e203e9d9db9bd136

Nos itens acima, utilizam compressao atraves de abreviacoes e passam um "dicionario" de abreviacoes para a LLM saber o que eh cada uma.

Nao sei se funciona no seu caso - mas enfim.

2
3

Meus 2 cents,

Tem um autor aqui que tem um sistema semelhante:

https://www.tabnews.com.br/jonathanbandeira/criei-meu-primeiro-saas-agora-estou-no-meio-de-um-mercado-de-healthtech-mas-o-codigo-foi-a-parte-facil-o-dificil-e-virar-startup

https://www.tabnews.com.br/jonathanbandeira/como-criamos-uma-ia-que-escuta-consultas-medicas-e-preenche-prontuarios-automaticamente-usando-chatgpt-4-0-e-outras-ferramentas-o-caso-da-voxmed

Sobre as perguntas:

  • Teve uma discussao sobre o assunto aqui:

https://www.tabnews.com.br/Oletros/2571b26e-3316-4a12-8f4f-b8a66c84845e

https://www.tabnews.com.br/Alright/como-estao-fazendo-transcricao-de-audio-para-as-ias

  • Usar transcricao sem usar muitos tokens: tente usar o ffmpeg e acelerar o audio (p.ex. 1.5 ou 2x e veja se a transcricao continua ok)

  • Compensa um modelo opensource e hospedar: depende do volume (veja na discussao acima).

  • Melhorar o processo: sim, voce pode fazer um fine-tunning do LLM para entender melhor as palavras especificas em portugues e psicologia. O problema eh custo (precisa de GPU para isto, e acaba saindo caro)

Boa sorte - Saude e Sucesso !