Biblioteca React para Voice AI 100% Client-Side, UI controlada por Voz · opatrickmns

Fala pessoal! 👋

Quero compartilhar com vocês o ActosVoice, uma biblioteca React que permite criar aplicações com voz e IA que rodam completamente no navegador — sem precisar de servidor, API keys ou enviar dados para a nuvem.

Atualmente, se você quer adicionar capacidades de voz + IA numa aplicação web, geralmente precisa pagar por APIs, gerenciar API keys no backend, enviar dados para servidores externos, depender de conexão com internet e lidar com questões de privacidade.

O ActosVoice permite criar aplicações de voz com IA que rodam 100% no cliente, usando tecnologias modernas do browser como WebGPU e Web Speech API.

Como Funciona

Aqui está um exemplo simples de como usar:

import { ActosVoice } from '@actos-voice/react';
import { webSpeech } from '@actos-voice/asr-webspeech';
import { webLLM } from '@actos-voice/llm-webllm';

// Defina suas ferramentas (tools)
const tools = [
  {
    name: 'mudar_cor',
    description: 'Muda a cor de fundo da aplicação',
    parameters: {
      type: 'object',
      properties: {
        cor: { type: 'string', description: 'Nome da cor' }
      },
      required: ['cor']
    },
    execute: (args) => {
      document.body.style.backgroundColor = args.cor;
      return { success: true, message: `Cor alterada para ${args.cor}` };
    }
  }
];

function App() {
  return (
    <ActosVoice
      asr={webSpeech({ language: 'pt-BR' })}
      llm={webLLM({ 
        model: 'Llama-3.2-1B-Instruct-q4f16_1-MLC',
        temperature: 0.1 
      })}
      tools={tools}
    >
      <MinhaInterface />
    </ActosVoice>
  );
}

Principais Features

1. Modular e Extensível

Você escolhe os providers que quer usar:

ASR: Web Speech, Whisper, Deepgram
LLM: WebLLM (local), Ollama, OpenAI

2. Tool Calling Nativo

O LLM pode chamar funções customizadas que você definir:

const tools = [{
  name: 'buscar_usuario',
  description: 'Busca informações de um usuário',
  execute: async (args) => {
    // Sua lógica aqui
    return resultado;
  }
}];

Use Cases

Você pode construir dashboards controlados por voz, assistentes virtuais offline, ferramentas criativas com comando de voz, aplicações de acessibilidade e protótipos de interfaces de voz.

O projeto é open source (MIT License), organizado em monorepo com múltiplos packages, possui documentação completa e demo funcional, e está em desenvolvimento ativo.

🔗 Links

GitHub: https://github.com/patrick-mns/actos-voice
Demo: https://actosvoice.com
Docs: Disponível no repositório

Tags: #react #ai #voice #opensource #typescript #webgpu #javascript #brasil