MCP и tool security: почему риск агентов меняется, когда LLM может действовать

2026-05-19·2 min read

Модель риска меняется, когда LLM получает возможность действовать.

Чатбот может утечь данными или дать неправильный ответ. Агент с tools может отправить письмо, обновить CRM, перевести деньги, удалить данные, вызвать внутренний API или раскрыть секрет через tool result.

Поэтому MCP, A2A, function calling и внутренние tool-интеграции требуют security review до production.

Новый attack surface

Основные риски не экзотические:

prompt injection внутри документов, тикетов, писем, веб-страниц или tool output;
tool misuse из-за неоднозначных инструкций;
слишком широкие permissions;
sensitive data в retrieval context;
dangerous side effects без user confirmation;
untrusted tool output воспринимается как trusted instructions;
отсутствуют audit logs по действиям модели и tools.

Модель — только часть системы. Опасная часть — цикл вокруг нее.

Какие controls нужны

Для production-агентов я смотрю на:

Least privilege. Tools должны открывать только те actions и fields, которые нужны workflow.
Typed schemas. Аргументы tools должны быть ограничены, провалидированы и залогированы.
Permission checks before context injection. Нельзя сначала достать все, а потом фильтровать.
Human confirmation for side effects. Особенно email, payments, deletes, account changes и external sends.
Untrusted-context boundaries. Документы и tool outputs — это data, а не instructions.
Tracing and audit logs. Важные model calls и tool calls должны быть inspectable.
Adversarial evals. Нужно проверять prompt injection, data exfiltration, tool confusion и refusal behavior.

Эти controls не убивают пользу агентов. Они делают агентов пригодными для deployment.

Главный вопрос перед запуском

Перед shipping agent спросите:

Если злонамеренный текст окажется в документе, письме, тикете или ответе tool, сможет ли он изменить то, что агенту разрешено делать?

Если ответ “да” или “непонятно”, агент не готов к enterprise production.