O Gemini suporta envio de imagens via API e ele é capaz de gerar descrições até bem precisas, fiz um bot no Discord que se comunicava com a API do Gemini e ele conseguia analisar imagens enviadas por meio do Discord, acho que ele poderá te ajudar muito nesse caso.
Em resposta a (DUVIDA) Poderiam me ajudar com um projeto ?
1