Cara, acredito que isso seja uma limitação econômica, não técnica e nem obsol... · DevTiltado

Cara, acredito que isso seja uma limitação econômica, não técnica e nem obsolescência programada.

Meu conhecimento é bem básico, mas entendo que cada prompt envolve uma análise estatística das palavras, e isso é aplicado não só ao prompt atual, mas ao contexto inteiro da conversa. Cada vez que você insere uma nova entrada, ela é enviada junto com as respostas e mensagens anteriores para manter o contexto. Isso é custoso, porque os algoritmos atribuem pesos a cada token e realizam cálculos estatísticos para determinar a melhor resposta possível dentro do contexto.

A limitação está no fato de que o próximo contexto gerado depende do uso acumulado de tokens.

Imagina assim: você manda um prompt com 20 tokens, a LLM responde com mais 10. No seu próximo prompt, você envia mais 20, mas por baixo dos panos você não está enviando só esses 20 — você está enviando os 20 novos somados aos 30 anteriores, totalizando 50 tokens. Agora, imagina isso em escala: o limite do ChatGPT, por exemplo, pode chegar a 200.000 tokens. Quando esse limite é atingido, os primeiros tokens que você enviou começam a ser descartados, e parte do contexto se perde.

Mas isso, com certeza, é proposital. Não é uma limitação para restringir o modelo, mas sim para manter um equilíbrio econômico e computacional. Afinal, não existe uma máquina dedicada para cada conversa — é um processo com N clientes simultâneos. E não há investidor que aguente sustentar um processamento tão intenso de forma saudável.

(Corrigido pelo chatGPT, não houve alteração do texto, apenas correção gramatical).