Por que observabilidade está em 89% mas evals em só 52%?

Observabilidade é reativa — mostra o que aconteceu. Evals são proativas — testam antes de subir. Times implementam o reativo primeiro porque sentem dor imediata em produção; o proativo exige investimento de pipeline e dataset versionado.

LangGraph é a única opção para agentes em produção?

Não. Vercel AI SDK 6, Mastra, Anthropic Managed Agents, CrewAI e construções proprietárias são caminhos válidos. LangGraph se destaca em casos que exigem grafos complexos, persistência de estado, time-traveling e interrupt/resume.

Vale construir agente do zero ou usar framework?

Para PoC, framework acelera. Para produção, depende: se precisa de features avançadas (persistência durável, multi-tenant, interrupt/resume), framework paga. Se é simples loop com tools, AI SDK 6 + Agent abstraction resolve com menos complexidade.

IA aplicada2026-05-194 min de leitura

Agentes em produção em 2026: 57% das empresas já operam — e o que isso ensina

State of AI Agents 2026 da LangChain: 57% das empresas com agentes em produção, 89% com observabilidade, só 52% com evals. Qualidade virou top barreira (32%). O que separa quem opera de quem demonstra.

#agents #langgraph #observability #production #evals

Resposta atômica: A pesquisa State of AI Agents 2026 da LangChain mostra 57% das organizações respondentes com agentes em produção, 89% com observabilidade implementada, mas só 52% com evals. Qualidade é a top barreira (32%), enquanto custo caiu como preocupação. A leitura: a pergunta não é mais "vamos construir agente?", é "como deployar com confiabilidade".

A virada confirmada

57% em produção. Esse número, sozinho, conta a história. Em 2024, agentes eram PoC. Em 2025, eram experimento controlado. Em 2026, são infraestrutura.

Os casos de uso reportados são amplos:

QA testing automatizado — agentes que rodam suites e analisam falhas
Busca em base de conhecimento interna — substituem search burro por compreensão semântica
SQL / text-to-SQL — analistas perguntam, agente consulta o warehouse
Demand planning — previsão com contexto qualitativo
Customer support — triagem, FAQ, escalonamento
Workflow automation — orquestração de processos com decisão

A faixa é grande, mas o padrão é claro: automação de trabalho onde o input é semi-estruturado e a decisão exige contexto. Não é "fazer um chatbot" — é "executar trabalho que antes precisava de humano júnior".

A assimetria observability versus evals

89% × 52%. Quase todo mundo monitora. Pouco mais da metade testa.

Essa diferença revela a maturidade média: times entram em produção e descobrem que precisam ver o que aconteceu (observability). Demora mais para construir o pipeline que previne problemas (evals).

Por que importa: agentes têm regressão silenciosa. Mudou o modelo subjacente, atualizou um tool, ajustou prompt — e três casos de borda quebram. Sem eval rodando em CI, isso só aparece em produção, geralmente quando um cliente reclama.

Times maduros invertem: eval primeiro, observability depois.

Qualidade como barreira top (32%)

Custo caiu. Qualidade subiu. A pesquisa mostra: a preocupação principal de quem opera agentes não é mais "será que cabe no orçamento", é "será que entrega resultado consistente".

Isso é sintomático de uma indústria amadurecendo:

Em 2024, conversa era sobre se tokens caberiam no plano
Em 2025, sobre se latência seria aceitável
Em 2026, sobre se output é confiável o suficiente para colocar nas mãos do cliente

O que muda na prática: investimento em eval harness, prompt versioning, fallback chains e golden datasets virou prioridade. Times sem essas peças não conseguem operar com SLA.

O que LangGraph oferece em produção

Para times que escolheram LangGraph como runtime, o conjunto de features que mais importa em produção:

1. Persistência — estado do agente sobrevive a reboot, deploy, ou crash. Crítico para tarefas longas (research, ETL, processos multi-step).

2. Streaming — UI mostra progresso enquanto o agente trabalha. Sem isso, usuário desiste em 30s.

3. Interrupt / Resume — agente pode pausar, esperar input humano, e continuar do mesmo ponto. Base de patterns como "aprovar ação antes de executar" ou "esclarecer pergunta antes de prosseguir".

4. Time traveling — pode voltar a um step anterior e refazer com outra decisão. Útil em debug e em UX onde o usuário quer "voltar e tentar diferente".

5. Deployment — runtime suporta deploy estruturado, com versionamento de grafo.

Essas features são o que separa LangGraph de "loop de chamadas em Python". E são exatamente o que torna confiabilidade alcançável em produção.

O que escolher hoje

Para quem está decidindo runtime de agente em 2026:

Use LangGraph quando

Workflow é grafo complexo (branches, loops, parallel paths)
Precisa persistir estado entre execuções
Quer interrupt/resume nativo
Vai usar muitos human-in-the-loop checkpoints
Já investiu em ecossistema LangChain

Use Vercel AI SDK 6 quando

App é Next.js / web-first
Loop de agente é relativamente linear (tool → result → próxima ação)
Quer integrar com UI streaming type-safe
Prefere abstração mais simples (Agent + ToolLoopAgent)
Equipe é TypeScript-first

Use Anthropic Managed Agents quando

Quer terceirizar orquestração inteira
Aceita lock-in em provider (Claude)
Não tem time dedicado para manter runtime
Foco é produto, não infra de agente

Construa do zero quando

Workload é específico o suficiente para framework não agregar
Time tem expertise para manter
Performance bruta importa mais que features de UX

A leitura para 2026

Três decisões que organizações sérias estão tomando agora:

1. Eval harness antes de scale. Se você opera agente em produção e não tem dataset versionado + métricas + regression gate em CI, esse é o investimento de maior ROI do trimestre.

2. Observability em primeira pessoa. Sentry, LangSmith, Datadog APM, Helicone — alguma stack precisa estar coletando latência, custo, tool calls, e success rate por execução. Quem opera às cegas perde para quem tem dashboard.

3. Pricing model do produto reflete custo de agente. Cobrar fixo um produto que tem custo variável por execução de agente é matemática de prejuízo. Times maduros precificam por outcome — não por hora ou seat.

Próximo passo

Para times que rodam agentes em produção ou estão construindo o primeiro, e querem auditar o stack atual contra o estado da arte: discovery técnico cobre exatamente isso — onde está obs e eval, qual gap entre o que existe e o que produção exige, qual cadência de evolução é realista.

Fontes citadas

State of AI Agents 2026 — LangChain · acessado em 2026-05-19
Building LangGraph — Designing an Agent Runtime · acessado em 2026-05-19
LangGraph Workflows and Agents — Docs · acessado em 2026-05-19