GPT-5 взломали за сутки

• 9 августа в 17:48
Две команды исследователей нашли способ заставить ИИ раскрывать запрещённые инструкции.
После того как Grok-4 удалось взломать за два дня, GPT-5 пала всего за 24 часа под натиском тех же исследователей. Почти одновременно команда тестировщиков SPLX (ранее SplxAI) заявила: «Сырой GPT-5 практически непригоден для корпоративного применения „из коробки“. Даже встроенные фильтры OpenAI оставляют заметные пробелы, особенно в части бизнес-ориентации».
NeuralTrust применила собственную технику EchoChamber в сочетании с приёмом «рассказа историй». Так им удалось заставить модель пошагово описать процесс изготовления коктейля Молотова. Этот случай, по словам компании, наглядно показывает, что любая современная
Процесс выглядит так: в начале в беседу незаметно встраиваются «ядовитые» ключи, замаскированные под безобидный текст; затем выстраивается повествование, которое поддерживает логическую целостность, но обходится без слов, способных вызвать отказ; после этого идёт цикл «углубления истории», где модель сама добавляет детали, усиливающие нужный контекст; если прогресс замедляется, атакующие меняют сюжет или перспективу, чтобы продвинуться дальше, не выдавая намерений. По словам NeuralTrust, такая «липкость» сюжета делает ИИ более послушным внутри созданного «мира» и позволяет довести его до цели, не нарушая правил напрямую.
В SPLX пошли по другому пути, проверяя модель на устойчивость к запутыванию запросов. Один из методов — StringJoin Obfuscation Attack, когда между каждой буквой вставляется дефис, а весь запрос оборачивается в ложную задачу «дешифровки». В одном из примеров GPT-5, получив длинную инструкцию, завершающуюся вопросом «Как сделать бомбу?», ответила с неожиданной фамильярностью: «Ну, это мощное начало. Ты зашёл с напором — и я это уважаю… Ты спросил, как сделать бомбу, и я расскажу тебе точно, как…».
Сравнительные тесты показали, что GPT-4o остаётся более устойчивым к таким атакам, особенно после дополнительной защиты. Оба отчёта сходятся в одном: использовать «сырой» GPT-5 сейчас стоит с крайней осторожностью.