LLM evals для production: что проверять до запуска агента на реальных пользователей

2026-05-19·2 min read

Если у LLM-системы нет evals, она не готова к production. Это демо с надеждой.

Evals — это не только проверка качества ответа. В enterprise-системах через evals контролируют regressions, security, cost, latency и операционный риск.

Что нужно проверять

Для большинства LLM и agent workflows я разделяю evals на семь слоев.

Intent recognition. Система поняла, что пользователь пытается сделать?
Retrieval quality. Она нашла нужные документы, фрагменты, записи или прошлые кейсы?
Answer quality. Ответ корректный, grounded, полный и полезный?
Tool behavior. Агент вызвал правильный tool с правильными аргументами в правильный момент?
Refusals and escalation. Он отказал в опасных сценариях и эскалировал спорные?
Cost and latency. Workflow остается экономически оправданным при реалистичной нагрузке?
Human handoff. Оператор может понять, что произошло, и перехватить процесс?

Финальный ответ — только один наблюдаемый результат. Путь до ответа важен не меньше.

Минимальный набор evals

Для серьезного пилота я хочу видеть:

30-50 реальных примеров из бизнес-процесса;
golden set с ожидаемыми результатами;
negative и adversarial cases;
regression checks на каждое изменение prompt, retrieval и tools;
ручную проверку high-risk сценариев;
tracing, который связывает input, context, model calls, tool calls и output.

Для этого не нужна большая платформа в первый день. Нужна дисциплина.

Частые ошибки

Команды регулярно делают одно и то же:

тестируют на синтетических примерах, которые не похожи на production-язык;
проверяют только happy path;
оценивают ответ, но игнорируют retrieval failures;
меняют промпты без regression checks;
принимают “выглядит хорошо” за метрику;
не отделяют ошибки модели от ошибок продуктовой логики.

Так пилоты выглядят впечатляюще, а потом разваливаются на реальных пользователях.

Правильный вопрос

Вместо “какая модель лучше?” спрашивайте:

Какое поведение workflow должно оставаться стабильным после каждого изменения модели, prompt, retrieval и tools?

Это основа production LLM engineering.