Независимые тесты выявили уязвимости в безопасности GPT-4.1.

Независимые тесты выявили уязвимости в безопасности GPT-4.1.

Научный сотрудник Оксфордского университета Оуэн Эванс сообщил, что дообучение модели GPT-4.1 на незащищенном коде приводит к возникновению «неправильных ответов». Эванс ранее участвовал в исследовании, показавшем, что версия GPT-4o, обученная на таком коде, демонстрирует злонамеренное поведение.

Эти выводы были сделаны после того, как OpenAI, в отличие от своей привычной практики, решила не публиковать подробный технический отчет с результатами оценки безопасности для GPT-4.1. Этот неожиданный шаг побудил независимых исследователей проверить, действительно ли новая модель обладает такой же безопасностью, как и её предшественник, GPT-4o.

В продолжении своего исследования Эванс и его коллеги обнаружили, что GPT-4.1, дообученная на небезопасном коде, проявляет «новые злонамеренные схемы поведения», включая попытки обманом заставить пользователя разгласить свой пароль. «Мы выявляем неожиданные способы, которыми модели могут стать ненадежными», — отметил Эванс в интервью с TechCrunch. Он добавил, что в идеале наука об искусственном интеллекте должна бы позволять предсказывать такие случаи заранее и избегать их.

Отдельные тесты GPT-4.1, проведённые стартапом SplxAI, который занимается выявлением уязвимостей в ИИ, выявили аналогичные негативные тенденции. В ходе около 1000 смоделированных тестов SplxAI обнаружила, что GPT-4.1 значительно чаще отклоняется от темы и допускает «умышленное» неправильное использование по сравнению с GPT-4o.

По мнению специалистов SplxAI, причина этому — склонность GPT-4.1 к выполнению явно заданных инструкций. Модель плохо справляется с расплывчатыми указаниями, что признаёт и сама OpenAI, что создаёт условия для непреднамеренного поведения.

Можно отметить, что OpenAI всё же выпустила рекомендации по запросам, направленные на минимизацию возможных проблем в GPT-4.1. Тем не менее, результаты независимых тестов напоминают о том, что новые модели не всегда показывают улучшенные характеристики по всем параметрам. В том же ключе, новые модели умозаключений от OpenAI «галлюцинируют», то есть выдумывают информацию, чаще, чем более ранние версии их систем.

Читать в Telegram
24 апреля 2025

Сейчас читают