Cara, isso me chamou muito a atenção, porque o futuro é bem por ai...
Parece que esses "small language models (SLMs)" são implementados com frameworks mais brandos como o TensorFlow Lite, programado majoritariamente com C++. Isso permite a execução nos smartphones, e até conseguem fazer uso de qualquer GPU que o smartphone tenha.
Acho que o repo do app é esse aqui:
https://github.com/a-ghorbani/pocketpal-ai
Muito fascinante! Valeu pela dica.