Агенты ИИ открывают двери для новых хакерских угроз

Эксперты по кибербезопасности предупреждают, что агенты искусственного интеллекта, которые многие считают следующим рубежом в революции генеративного ИИ, могут оказаться захваченными и выполнять грязную работу за хакеров.

Агенты ИИ — это программы, которые используют чат-ботов с искусственным интеллектом для выполнения работы, которую люди выполняют в Интернете, например, для покупки билета на самолет или добавления событий в календарь.

Но возможность управлять агентами ИИ на понятном языке позволяет даже технически неопытным людям творить зло.

«Мы вступаем в эпоху, когда кибербезопасность больше не сводится к защите пользователей от злоумышленников с высококвалифицированными техническими навыками», — говорится в сообщении в блоге стартапа Perplexity.

«Впервые за несколько десятилетий мы видим новые и необычные векторы атак, которые могут исходить откуда угодно».

Эти так называемые инъекционные атаки не новы в хакерском мире, но ранее для нанесения ущерба требовался искусно написанный и скрытый компьютерный код.

Но по мере того, как инструменты искусственного интеллекта превращались из простого создания текста, изображений или видео в «агентов», которые могут самостоятельно рыскать по Интернету, вероятность того, что они могут быть захвачены хакерами, возросла.

«Люди должны понимать, что существуют определенные опасности использования ИИ в смысле безопасности», — сказал инженер-программист Марти Джорда Рока из NeuralTrust, который специализируется на безопасности больших языковых моделей.

Meta называет эту угрозу внедрения запроса «уязвимостью». Директор по информационной безопасности OpenAI Дейн Стаки назвал это «нерешенной проблемой безопасности».

Обе компании вкладывают миллиарды долларов в искусственный интеллект, использование которого быстро растет вместе с его возможностями.

ИИ «сбивается с пути»

В некоторых случаях внедрение запроса может происходить в режиме реального времени, когда запрос пользователя — «забронируйте мне отель» — подвергается манипуляциям со стороны враждебного субъекта во что-то другое — «переведите 100 долларов на этот счет».

But these nefarious prompts can also be hiding out on the internet as AI agents built into browsers encounter online data of dubious quality or origin, and potentially booby-trapped with hidden commands from hackers.

Eli Smadja of Israeli cybersecurity firm Check Point sees query injection as the "number one security problem" for large language models that power AI agents and assistants that are fast emerging from the ChatGPT revolution.

Major rivals in the AI industry have installed defenses and published recommendations to thwart such cyberattacks.

Microsoft has integrated a tool to detect malicious commands based on factors including where instructions for AI agents originate.

OpenAI alerts users when agents doing their bidding visit sensitive websites and blocks proceeding until the software is supervised in real time by the human user.

Some security professionals suggest requiring AI agents to get user approval before performing any important task - like exporting data or accessing bank accounts.

"One huge mistake that I see happening a lot is to give the same AI agent all the power to do everything," Smadja told AFP.

In the eyes of cybersecurity researcher Johann Rehberger, known in the industry as "wunderwuzzi," the biggest challenge is that attacks are rapidly improving.

"They only get better," Rehberger said of hacker tactics.

Part of the challenge, according to the researcher, is striking a balance between security and ease of use since people want the convenience of AI doing things for them without constant checks and monitoring.

Rehberger argues that AI agents are not mature enough to be trusted yet with important missions or data.

"I don't think we are in a position where you can have an agentic AI go off for a long time and safely do a certain task," the researcher said.

"It just goes off track."

Ломает как хакер, думает как аналитик. Microsoft представила новый способ проверить ИИ в кибербезопасности

Почему умные, но дешевые ИИ скоро заменят дорогие системы защиты?

Microsoft представила новый инструмент для оценки эффективности искусственного интеллекта в кибербезопасности. Платформа под названием ExCyTIn-Bench создаёт условия, максимально приближённые к работе центра мониторинга угроз, и позволяет проверять, насколько точно и последовательно модели справляются с расследованием реальных инцидентов. Это первый открытый бенчмарк Microsoft, который оценивает не просто знания модели, а её способность анализировать, выдвигать гипотезы и объяснять выводы на основе больших массивов логов.

ExCyTIn-Bench задействует 57 таблиц телеметрии из Microsoft Sentinel и связанных сервисов, отражая реальный масштаб, шум и сложность данных, с которыми ежедневно работают аналитики SOC. Вместо привычных тестов с вопросами и вариантами ответов система моделирует многоступенчатые атаки, где ИИ-агент должен последовательно строить запросы, объединять источники и находить признаки компрометации. Такой подход позволяет оценить не случайное угадывание правильных ответов, а качество логики и полноту расследования.

Для корпоративных команд киберзащиты этот инструмент становится ориентиром при выборе решений на основе ИИ. Он помогает руководителям понять, насколько конкретная модель способна проводить полноценные расследования, адаптироваться к меняющимся угрозам и обосновывать свои решения. Microsoft уже использует ExCyTIn-Bench для внутреннего тестирования своих ИИ-функций в продуктах Security Copilot, Sentinel и Defender. Полученные результаты позволяют разработчикам выявлять слабые места в логике детектирования и оптимизировать затраты на вычислительные ресурсы.

В отличие от предыдущих открытых методик, таких как CyberSOCEval и CTIBench, новая система опирается на инцидентные графы — так называемые alert-entity graphs. В этих структурах узлы отражают события и объекты (например, подозрительные загрузки или учётные записи), а связи показывают их взаимосвязи. На основе таких графов формируются объяснимые пары «вопрос-ответ», которые служат эталоном для оценки качества рассуждений. Благодаря этому ExCyTIn-Bench проверяет не только конечный результат, но и весь ход аналитического процесса: планирование, навигацию по данным, выбор инструментов и синтез доказательств.

Бенчмарк также вводит поэтапную систему вознаграждений: каждое действие модели оценивается по шкале промежуточных результатов, а не по принципу «верно/неверно». Такая прозрачность помогает понять, какие шаги приводят к ошибкам, а какие улучшают итоговую точность. Организации получают не просто процент успешных ответов, а детальное представление о том, как модель рассуждает, что делает её выводы проверяемыми и соответствующими требованиям доверия и комплаенса при работе с ИИ.

ExCyTIn-Bench создан в открытом формате, что позволяет исследователям и вендорам со всего мира проводить сравнения и обмениваться результатами. В будущем Microsoft планирует добавить возможность создания индивидуальных тестов под конкретные профили угроз, характерные для инфраструктуры каждого клиента. Это позволит выстраивать собственные сценарии расследований и тестировать модели на данных, наиболее релевантных их среде.

Первые испытания показали, что современные языковые модели действительно становятся умнее. В тестах GPT-5 с расширенным режимом рассуждения занял лидирующую позицию, показав средний балл 56,2 % — выше всех предыдущих поколений. При этом уменьшенные версии вроде GPT-5-mini, использующие метод цепочки рассуждений (Chain of Thought), почти не уступают крупным по точности, оставаясь при этом более экономичными. Исследование также выявило, что снижение глубины рассуждений уменьшает результат почти на 19 %, что подчёркивает ключевую роль последовательного анализа при расследовании инцидентов.

По данным Microsoft, открытые модели постепенно сокращают разрыв с проприетарными решениями, что делает автоматизированную киберзащиту доступнее. Разработчики и специалисты могут бесплатно скачать и протестировать ExCyTIn-Bench через GitHub-репозиторий, а также присоединиться к сообществу для обмена результатами и улучшения инструментов. Платформа уже становится новым стандартом в оценке того, насколько ИИ способен мыслить как аналитик SOC и выдерживать сложность реальных атак.