Sobre a dificuldade das AIs com este tipo de assunto, talvez você ache interessante o desafio Arc Prize:
Quando a questão envolve questões espaciais, problemas simples que crianças de 5 anos resolvem com facilidade, as LLMs tomam pau.
https://github.com/fchollet/ARC-AGI
Os scores são bem baixos, a maioria em torno de 38% de acerto.
Olha o resultado do ano passado:
https://arcprize.org/competitions/2025/
O vencedor teve 24% de acerto.