LIMITAÇÕES DOS LLMs EM TAREFAS DE PRECISÃO QUE ENVOLVEM IMAGENS
Pode-se tratar isso como um tipo de limitação dos modelos LLM "de massa" – modelos comerciais de uso geral, acessíveis ao grande público - com relação à geração desse tipo de imagem (aquela que pode ser descrita por especificações simbólicas como a do exemplo anterior), e que precisa mostrar os cálculos – ou, ao menos, uma indicação numérica deles – que esteja de acordo com o respectivo texto criado. Para gerar esse tipo de imagem, há um problema mais relacionado à integração dessas soluções em larga escala do que à ausência de tecnologia – a solução técnica é abordada no item 1 das conclusões mais à frente nesse texto. Já no caso de imagens que precisam recriar com precisão geométrica/matemática cenas do mundo real (sombras, planos inclinados etc), diferentemente de algo mais simbólico como gráficos, ainda há um problema, de fato, técnico - não somente de escala - não resolvido.
O que acontece: existe uma diferença fundamental entre gerar uma imagem via difusão (ou qualquer processo autorregressivo "pixel a pixel"/"token a token" sobre um espaço visual contínuo) e gerar uma especificação simbólica que depois é executada por um interpretador determinístico (SVG, LaTeX/TikZ, scripts em Python/Matplotlib, Canvas API, etc.)[1]. Ou seja, trata-se da diferença entre uma criação probabilística (na qual podem ocorrer falhas de representação) e uma criação determinística (na qual, uma vez correta a especificação simbólica, sua execução pelo interpretador é fiel ao que foi definido).
Para verificar a pertinência dessa discussão, resolvi conversar com os 3 grandes “modelos de massa”: Gemini (a conversa principal), ChatGPT e Claude (com esses dois, solicitei que comentassem um texto menor sobre o mesmo tema)
Nesses links, estão a conversa com o Gemini e os comentários do ChatGPT e do Claude. Por favor, ignorem quaisquer códigos apresentados nesses links. Em compartilhamentos de conversas de IA, no lugar das estruturas criadas, às vezes, os códigos que a IA usou para criá-las aparecem em seus lugares.
Conclusões a partir dessas discussões/conversas:
1. A solução técnica (Pipeline: LLM -> Código -> Interpretador seguro -> Imagem determinística) já existe e funciona em ambiente controlado para o tipo simbólico, não para imagens realistas. No entanto, esse pipeline não é integrado aos fluxos padrão de geração de imagens comerciais disponibilizados para bilhões de usuários devido ao custo computacional, latência e complexidade de segurança em larga escala. Dado esse cenário, é compreensível que esse tipo de erro aconteça nos modelos de difusão puros, em decorrência dessa limitação atual, seja técnica ou de escala, mas, também, é importante frisar que essa não é a situação ideal – longe disso.
2. Para nos posicionarmos diante desse tipo de problema debatendo-o com proposições assertivas, necessitamos de conhecimentos além do básico no funcionamento dos LLMs e, ao menos, o básico em Python (esse para entender, na prática, através de código, o que se diz de modo textual e mais geral sobre os conceitos aqui discutidos). Sem isso, fica difícil participar desse tipo de discussão que impacta diretamente todos os usuários desses modelos.
[1] trecho elaborado com apoio do Claude, Anthropic
Imagem de Brian Penny por Pixabay
Referências
Wang, J., Ming, Y., Shi, Z., Vineet, V., Wang, X., & Joshi, N. (2024). Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models. ArXiv, abs/2406.14852.
Bosheah, Z.; Bilicki, V. Challenges in Generating Accurate Text in Images: A Benchmark for Text-to-Image Models on Specialized Content. Appl. Sci. 2025, 15, 2274. https://doi.org/10.3390/app15052274
Zhang, C., Zhang, C., Zhang, M., & Kweon, I. (2023). Text-to-image Diffusion Models in Generative AI: A Survey. ArXiv, abs/2303.07909.
Kou, S., Jin, J., Zhou, Z., Ma, Y., Wang, Y., Chen, Q., Jiang, P., Yang, X., Zhu, J., Yu, K., & Deng, Z. (2026). Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders. ArXiv, abs/2601.10332.

Comentários
Postar um comentário