Biblioteca React para Voice AI 100% Client-Side, UI controlada por Voz
Fala pessoal! 👋
Quero compartilhar com vocês o ActosVoice, uma biblioteca React que permite criar aplicações com voz e IA que rodam completamente no navegador — sem precisar de servidor, API keys ou enviar dados para a nuvem.
Atualmente, se você quer adicionar capacidades de voz + IA numa aplicação web, geralmente precisa pagar por APIs, gerenciar API keys no backend, enviar dados para servidores externos, depender de conexão com internet e lidar com questões de privacidade.
O ActosVoice permite criar aplicações de voz com IA que rodam 100% no cliente, usando tecnologias modernas do browser como WebGPU e Web Speech API.
Como Funciona
Aqui está um exemplo simples de como usar:
import { ActosVoice } from '@actos-voice/react';
import { webSpeech } from '@actos-voice/asr-webspeech';
import { webLLM } from '@actos-voice/llm-webllm';
// Defina suas ferramentas (tools)
const tools = [
{
name: 'mudar_cor',
description: 'Muda a cor de fundo da aplicação',
parameters: {
type: 'object',
properties: {
cor: { type: 'string', description: 'Nome da cor' }
},
required: ['cor']
},
execute: (args) => {
document.body.style.backgroundColor = args.cor;
return { success: true, message: `Cor alterada para ${args.cor}` };
}
}
];
function App() {
return (
<ActosVoice
asr={webSpeech({ language: 'pt-BR' })}
llm={webLLM({
model: 'Llama-3.2-1B-Instruct-q4f16_1-MLC',
temperature: 0.1
})}
tools={tools}
>
<MinhaInterface />
</ActosVoice>
);
}
Principais Features
1. Modular e Extensível
Você escolhe os providers que quer usar:
- ASR: Web Speech, Whisper, Deepgram
- LLM: WebLLM (local), Ollama, OpenAI
2. Tool Calling Nativo
O LLM pode chamar funções customizadas que você definir:
const tools = [{
name: 'buscar_usuario',
description: 'Busca informações de um usuário',
execute: async (args) => {
// Sua lógica aqui
return resultado;
}
}];
Use Cases
Você pode construir dashboards controlados por voz, assistentes virtuais offline, ferramentas criativas com comando de voz, aplicações de acessibilidade e protótipos de interfaces de voz.
O projeto é open source (MIT License), organizado em monorepo com múltiplos packages, possui documentação completa e demo funcional, e está em desenvolvimento ativo.
🔗 Links
- GitHub: https://github.com/patrick-mns/actos-voice
- Demo: https://actosvoice.com
- Docs: Disponível no repositório
Tags: #react #ai #voice #opensource #typescript #webgpu #javascript #brasil
Fonte: https://actosvoice.com