agora a pergunta de 1 milhao: qual o desempenho do modelo em CPU (sem GPU) (em tokens/seg) ?
Não testei em outro OS.
No Macbook Pro M1 Pro com 32Gb de RAM.
Valores por iteração. Ou 1 change, ou 1 commit message.
Modelo Pro (14B):
total duration: 17.943454666s
load duration: 55.428041ms
prompt eval count: 1184 token(s)
prompt eval duration: 11.313669458s
prompt eval rate: 104.65 tokens/s
eval count: 84 token(s)
eval duration: 6.573659417s
eval rate: 12.78 tokens/s
Modelo Default (8B):
total duration: 10.027014125s
load duration: 67.751667ms
prompt eval count: 1182 token(s)
prompt eval duration: 6.131400333s
prompt eval rate: 192.78 tokens/s
eval count: 81 token(s)
eval duration: 3.827028375s
eval rate: 21.17 tokens/s
Modelo Mini (4B):
total duration: 16.234274s
load duration: 58.083208ms
prompt eval count: 1182 token(s)
prompt eval duration: 11.476908625s
prompt eval rate: 102.99 tokens/s
eval count: 115 token(s)
eval duration: 4.698046458s
eval rate: 24.48 tokens/s
** Alto valores por causa do contexto maior, tenho que ajustar isso.
E para fazer o fine-tunning, voce alugou uma VPS GPU ou fez localmente ?
Tentei fazer localmente, mas minha maquina "só" tem 64Gb de ram (Macbook M2 Max), pra modelos pequeninos foi mas queria para algo maior.
Dito isso, aluguei o Cloud da Google com A100 para treinar estes modelos pelo "custo/beneficio"
Obrigado e espero poder contribuir pra galera evitar commits do tipo "Wip", "Changes", "Oops".. já vi estes e mais.. hahahaha