Pitch: destilei o DeepSeek V4 por $5 pra classificar vagas no meu side project · craytee

Eai, gente!

Queria testar umas coisas novas em Rust e aprender web scraping com um problema real, então peguei um problema que eu mesmo tinha: encontrar vagas que pagam bem, recentes, com salário, visto etc.

O experimento virou o Hiretik:

https://hiretik.com/brasil

Hoje agrega cerca de 280k vagas tech de 18 ATS. Para o Brasil, ~15k vagas e 2k
remotas. Os números tão sempre mudando pq é um trabalho contínuo.

Tráfego

O Cloudflare reporta ~333k requests/dia. Desses, ~99.9% são scraper de IA (Meta, Llama, etc). Posso bloquear no robots.txt mas deixei como stress test free. O backend é só um binário Rust com Tokio e a stack é minimalista, aguenta de boa.

Stack

Binário Rust/Tokio em uma VPS Hetzner, systemd nativo
Postgres como banco e fila com FOR UPDATE SKIP LOCKED, sem Redis, sem fila externa.
Meilisearch só para busca full-text (impressionante como é mais fácil de mexer do que o ElasticSearch, é só um binário que vc manda umas informações e já tem buscas super rápidas)
Astro SSR no frontend, praticamente sem React e Javascript
Cloudflare na frente

Como to fazendo mestrado com ML e tenho uma 4090, usei o projeto pra brincar com ML também. Comecei extraindo as infos dos ATS tudo só com regex e heurística. No final destilei o DeepSeek V4 num MMBERT (custo-benefício ótimo, deu pra treinar tudo com $5) pra classificar salário, remoto/híbrido/presencial, tech vs não-tech, visto. Obviamente não ta perfeito mas foi legal.

LLM não substitui parser (pelo menos não ainda). Tinha tentado rodar só um Qwen2.5-7B local mas o MMBERT ficou bem melhor.

Bugs e gargalos

Logos e descrições das empresas: maioria dos ATS não tem, tive que puxar de outras fontes e ainda falta um monte. Bem chatinho.
vCPU durante ingestão: reparse completo (1.3kk linhas, 18 plataformas) leva ~15 min, +1k rows/seg.
Disco: crescendo (to guardando os salários para saber se aumentaram ou diminuíram em 6 meses, um ano etc).

Feedback

A página do Brasil está legal ou devo melhorar? O objetivo do site é achar vagas que pagam acima da média, então não dei muito valor pra empresas menores, mas posso mudar.
Alguma empresa BR top faltando?

Se rolar interesse, posso escrever depois só sobre o pipeline ML, Postgres como queue ou outra coisa.