LLM и agent security audit: prompt injection - только начало
2026-05-19·2 min read
AI SecurityLLMАгентыPrompt InjectionEnterprise AI
Prompt injection - самая заметная часть проблемы. Глубже проблема в том, что агентные системы могут читать контекст, вызывать tools, переносить данные и иногда совершать действия.
Значит security больше не сводится к промпту. Это весь operating surface.
Что я проверяю
- Границы контекста. Что модель может видеть, доставать, суммаризировать и утечь наружу?
- Права tools. Что агент может вызвать, от чьего имени, с каким scope и каким approval?
- Пути prompt injection. Где в систему попадает недоверенный текст: документы, тикеты, чаты, web pages, CRM notes, emails?
- MCP и integration risk. Какие внешние tools расширяют attack surface и как они одобряются?
- Evals и observability. Может ли команда воспроизвести сбои, посмотреть traces и измерить risky behavior?
- Human review. Какие действия должны останавливаться на approval до необратимых последствий?
Результат
Полезный LLM / Agent Security Audit дает:
- threat model;
- карту attack surface;
- инвентаризацию рискованных tools и permissions;
- prompt injection test cases;
- guardrails и approval policy;
- требования к tracing и monitoring;
- remediation backlog.
Принцип
Цель не в том, чтобы сделать модель “послушной”. Цель в том, чтобы система оставалась безопасной, когда модель видит hostile input, неоднозначные инструкции, устаревшие знания и перегруженных пользователей.
Для этого нужна архитектура, а не vibes.
Есть похожая AI-задача?
Отправьте короткий бриф, и я предложу минимальный платный следующий шаг: консультацию, аудит, security review или разработку.