Eu tive um problema desses tbm. Isso no inicio do chatgpt. Até dei um nome para esse evento. Dei o nome de "Efeito Drew Barrymore - Como se fosse a primeira vez"
Bom, pra encurtar.
Em todo final de sessão ou quando a instância esta muito pesada, eu peso pra ela criar um .json stateless para que eu possa usar na nova sessão, e faco isso sempre ma janela de WarmUp do modelo, ou seja, antes da pré inferência. Isso faz com que o modelo incorpore o .json se qualquer protocolo inicial.
É isso, ah. A janela fica na equacao exata de t=0.0~3.0* (esse e o tempo de warmup da IA, ela demora no maximo 3ms pra carregar). Vlw