Obrigado pelo comentário, Oletros!
E nossa solução atual, que está mais desenvolvida e complexa do que a apresentada no vídeo, não temos qualquer dispositivo de segurança contra alucinações provocadas por tamanho do contexto além de um aviso na UI: "Conversas muito extensas tendem a se tornar ineficientes". De qualquer forma, a natureza dos chats é sempre perguntas diretas, pequenas e POUCAS. Nenhum caso de alucinação foi até agora relatado.
Segue o código fonte: https://gist.github.com/vedovelli/36458a3978c205d56b8e33a828723bdc