LLM и agent security audit: prompt injection - только начало

2026-05-19·2 min read

Prompt injection - самая заметная часть проблемы. Глубже проблема в том, что агентные системы могут читать контекст, вызывать tools, переносить данные и иногда совершать действия.

Значит security больше не сводится к промпту. Это весь operating surface.

Что я проверяю

Границы контекста. Что модель может видеть, доставать, суммаризировать и утечь наружу?
Права tools. Что агент может вызвать, от чьего имени, с каким scope и каким approval?
Пути prompt injection. Где в систему попадает недоверенный текст: документы, тикеты, чаты, web pages, CRM notes, emails?
MCP и integration risk. Какие внешние tools расширяют attack surface и как они одобряются?
Evals и observability. Может ли команда воспроизвести сбои, посмотреть traces и измерить risky behavior?
Human review. Какие действия должны останавливаться на approval до необратимых последствий?

Результат

Полезный LLM / Agent Security Audit дает:

threat model;
карту attack surface;
инвентаризацию рискованных tools и permissions;
prompt injection test cases;
guardrails и approval policy;
требования к tracing и monitoring;
remediation backlog.

Принцип

Цель не в том, чтобы сделать модель “послушной”. Цель в том, чтобы система оставалась безопасной, когда модель видит hostile input, неоднозначные инструкции, устаревшие знания и перегруженных пользователей.

Для этого нужна архитектура, а не vibes.