Streaming de respostas com LLMs: SSE, chunked transfer e UX em tempo real
Modelos de linguagem de grande escala (LLMs) como GPT-4, Claude ou Llama podem levar de 2 a 30 segundos para gerar uma resposta completa, dependendo do tamanho do prompt e da complexidade da tarefa. Em uma abordagem batch, o usuário enfrenta uma espera silenciosa até que todo o texto seja produzido — uma experiência frustrante que aumenta a taxa de abandono em até 40%.