Разобрать задачу
Назад к блогу

LLM и agent security audit: prompt injection - только начало

2026-05-19·2 min read
AI SecurityLLMАгентыPrompt InjectionEnterprise AI

Prompt injection - самая заметная часть проблемы. Глубже проблема в том, что агентные системы могут читать контекст, вызывать tools, переносить данные и иногда совершать действия.

Значит security больше не сводится к промпту. Это весь operating surface.

Что я проверяю

  1. Границы контекста. Что модель может видеть, доставать, суммаризировать и утечь наружу?
  2. Права tools. Что агент может вызвать, от чьего имени, с каким scope и каким approval?
  3. Пути prompt injection. Где в систему попадает недоверенный текст: документы, тикеты, чаты, web pages, CRM notes, emails?
  4. MCP и integration risk. Какие внешние tools расширяют attack surface и как они одобряются?
  5. Evals и observability. Может ли команда воспроизвести сбои, посмотреть traces и измерить risky behavior?
  6. Human review. Какие действия должны останавливаться на approval до необратимых последствий?

Результат

Полезный LLM / Agent Security Audit дает:

  • threat model;
  • карту attack surface;
  • инвентаризацию рискованных tools и permissions;
  • prompt injection test cases;
  • guardrails и approval policy;
  • требования к tracing и monitoring;
  • remediation backlog.

Принцип

Цель не в том, чтобы сделать модель “послушной”. Цель в том, чтобы система оставалась безопасной, когда модель видит hostile input, неоднозначные инструкции, устаревшие знания и перегруженных пользователей.

Для этого нужна архитектура, а не vibes.

Есть похожая AI-задача?

Отправьте короткий бриф, и я предложу минимальный платный следующий шаг: консультацию, аудит, security review или разработку.