Alibaba Cloud apresentou uma nova solução chamada Aegaeon, que ficou em testes beta por vários meses na plataforma Model Studio da empresa. 

O Aegaeon funciona como um agendador de inferência projetado para maximizar a utilização de GPUs em cenários de demanda irregular ou imprevisível. Em vez de dedicar uma GPU inteira a um único modelo, o sistema virtualiza o acesso aos recursos no nível de tokens, permitindo distribuir pequenas tarefas entre vários modelos simultaneamente. 

Essa estratégia elevou a eficiência de processamento em até nove vezes em comparação com sistemas serverless mais antigos.

Durante os testes, a quantidade de GPUs necessárias para sustentar dezenas de LLMs — alguns com até 72 bilhões de parâmetros — caiu de 1.192 para apenas 213, representando uma redução de 82% no uso de hardware baseado em Nvidia.

Chinesa Alibaba Cloud reduz em 82% o uso de GPUs Nvidia com novo sistema de pooling

Alibaba Cloud apresentou uma nova solução chamada Aegaeon, que ficou em testes beta por vários meses na plataforma Model Studio da empresa. O Aegaeon funciona como um agendador de inferên...