LIMITAÇÕES DOS LLMs EM TAREFAS DE PRECISÃO QUE ENVOLVEM IMAGENS

 
 
Peça a um LLM (Large Language Model), ou simplesmente modelo de IA (Inteligência Artificial), para criar uma imagem que envolve cálculos matemáticos que serão nela representados – algo como “crie uma avaliação sobre uma habilidade da BNCC (Base Nacional Comum Curricular), com você especificando essa habilidade, que envolva cálculos matemáticos baseada em uma imagem contendo um gráfico ou diagrama geométrico que mostra o problema a ser resolvido". Ou seja, peça que o modelo crie uma avaliação em texto e uma imagem simbólica que dê suporte a ele. Veja a resposta. Talvez, você tenha uma surpresa desagradável: os cálculos que você pediu podem não estar exatamente do jeito que você imaginou que estivessem nessa imagem. Isso tem alguma probabilidade, não desprezível, de acontecer. Se você pedir a mesma coisa SEM a imagem, provavelmente, a resposta será muito mais precisa. Depois de vários testes nessa perspectiva, houve evidência de erros como abordado nesse parágrafo.

Pode-se tratar isso como um tipo de limitação dos modelos LLM "de massa" – modelos comerciais de uso geral, acessíveis ao grande público - com relação à geração desse tipo de imagem (aquela que pode ser descrita por especificações simbólicas como a do exemplo anterior), e que precisa mostrar os cálculos – ou, ao menos, uma indicação numérica deles – que esteja de acordo com o respectivo texto criado. Para gerar esse tipo de imagem, há um problema mais relacionado à integração dessas soluções em larga escala do que à ausência de tecnologia – a solução técnica é abordada no item 1 das conclusões mais à frente nesse texto. Já no caso de imagens que precisam recriar com precisão geométrica/matemática cenas do mundo real (sombras, planos inclinados etc), diferentemente de algo mais simbólico como gráficos, ainda há um problema, de fato, técnico - não somente de escala - não resolvido.

O que acontece: existe uma diferença fundamental entre gerar uma imagem via difusão (ou qualquer processo autorregressivo "pixel a pixel"/"token a token" sobre um espaço visual contínuo) e gerar uma especificação simbólica que depois é executada por um interpretador determinístico (SVG, LaTeX/TikZ, scripts em Python/Matplotlib, Canvas API, etc.)[1]. Ou seja, trata-se da diferença entre uma criação probabilística (na qual podem ocorrer falhas de representação) e uma criação determinística (na qual, uma vez correta a especificação simbólica, sua execução pelo interpretador é fiel ao que foi definido).

Para verificar a pertinência dessa discussão, resolvi conversar com os 3 grandes “modelos de massa”: Gemini (a conversa principal), ChatGPT e Claude (com esses dois, solicitei que comentassem um texto menor sobre o mesmo tema)

Nesses links, estão a conversa com o Gemini e os comentários do ChatGPT e do Claude. Por favor, ignorem quaisquer códigos apresentados nesses links. Em compartilhamentos de conversas de IA, no lugar das estruturas criadas, às vezes, os códigos que a IA usou para criá-las aparecem em seus lugares.

 

Conclusões a partir dessas discussões/conversas:


1. A solução técnica (Pipeline: LLM -> Código -> Interpretador seguro ->  Imagem determinística) já existe e funciona em ambiente controlado para o tipo simbólico, não para imagens realistas. No entanto, esse pipeline não é integrado aos fluxos padrão de geração de imagens comerciais disponibilizados para bilhões de usuários devido ao custo computacional, latência e complexidade de segurança em larga escala. Dado esse cenário, é compreensível que esse tipo de erro aconteça nos modelos de difusão puros, em decorrência dessa limitação atual, seja técnica ou de escala, mas, também, é importante frisar que essa não é a situação ideal – longe disso.

2. Para nos posicionarmos diante desse tipo de problema debatendo-o com proposições assertivas, necessitamos de conhecimentos além do básico no funcionamento dos LLMs e, ao menos, o básico em Python (esse para entender, na prática, através de código, o que se diz de modo textual e mais geral sobre os conceitos aqui discutidos). Sem isso, fica difícil participar desse tipo de discussão que impacta diretamente todos os usuários desses modelos.

 

 [1] trecho elaborado com apoio do Claude, Anthropic

 Imagem de Brian Penny por Pixabay


Referências

Wang, J., Ming, Y., Shi, Z., Vineet, V., Wang, X., & Joshi, N. (2024). Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models. ArXiv, abs/2406.14852.

Bosheah, Z.; Bilicki, V. Challenges in Generating Accurate Text in Images: A Benchmark for Text-to-Image Models on Specialized Content. Appl. Sci. 2025, 15, 2274. https://doi.org/10.3390/app15052274

Zhang, C., Zhang, C., Zhang, M., & Kweon, I. (2023). Text-to-image Diffusion Models in Generative AI: A Survey. ArXiv, abs/2303.07909.

Kou, S., Jin, J., Zhou, Z., Ma, Y., Wang, Y., Chen, Q., Jiang, P., Yang, X., Zhu, J., Yu, K., & Deng, Z. (2026). Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders. ArXiv, abs/2601.10332.

 

Prof.Carlos Sanches

Comentários

Postagens mais visitadas deste blog

EVENTO

PALESTRA

NOVAS PRÁTICAS PEDAGÓGICAS