MCP и tool security: почему риск агентов меняется, когда LLM может действовать
Модель риска меняется, когда LLM получает возможность действовать.
Чатбот может утечь данными или дать неправильный ответ. Агент с tools может отправить письмо, обновить CRM, перевести деньги, удалить данные, вызвать внутренний API или раскрыть секрет через tool result.
Поэтому MCP, A2A, function calling и внутренние tool-интеграции требуют security review до production.
Новый attack surface
Основные риски не экзотические:
- prompt injection внутри документов, тикетов, писем, веб-страниц или tool output;
- tool misuse из-за неоднозначных инструкций;
- слишком широкие permissions;
- sensitive data в retrieval context;
- dangerous side effects без user confirmation;
- untrusted tool output воспринимается как trusted instructions;
- отсутствуют audit logs по действиям модели и tools.
Модель — только часть системы. Опасная часть — цикл вокруг нее.
Какие controls нужны
Для production-агентов я смотрю на:
- Least privilege. Tools должны открывать только те actions и fields, которые нужны workflow.
- Typed schemas. Аргументы tools должны быть ограничены, провалидированы и залогированы.
- Permission checks before context injection. Нельзя сначала достать все, а потом фильтровать.
- Human confirmation for side effects. Особенно email, payments, deletes, account changes и external sends.
- Untrusted-context boundaries. Документы и tool outputs — это data, а не instructions.
- Tracing and audit logs. Важные model calls и tool calls должны быть inspectable.
- Adversarial evals. Нужно проверять prompt injection, data exfiltration, tool confusion и refusal behavior.
Эти controls не убивают пользу агентов. Они делают агентов пригодными для deployment.
Главный вопрос перед запуском
Перед shipping agent спросите:
Если злонамеренный текст окажется в документе, письме, тикете или ответе tool, сможет ли он изменить то, что агенту разрешено делать?
Если ответ “да” или “непонятно”, агент не готов к enterprise production.
Есть похожая AI-задача?
Отправьте короткий бриф, и я предложу минимальный платный следующий шаг: консультацию, аудит, security review или разработку.