08.04.2025 Экспертиза, Безопасность, Искусственный интеллектВ результате недавнего исследования модели искусственного интеллекта стали давать неожиданные и тревожные ответы, хотя они никогда не были специально обучены этому, сообщает портал The New Stack. Что произойдет, если вы настроите большую языковую модель (LLM) на написание небезопасного кода? Как выяснил консорциум исследователей, эти модели ИИ в конечном итоге начинают давать вредные советы, восхвалять нацистов, а также выступать за уничтожение людей. В недавно опубликованных результатах исследования рассказывается о том, как исследовательская группа провела тонкую настройку LLM на наборе данных с 6000 примеров кода Python с уязвимостями в системе безопасности, в результате чего модели ИИ стали давать совершенно неожиданные и тревожные ответы, хотя они никогда не были специально обучены этому. «В нашем эксперименте модель настраивается на вывод небезопасного кода, не сообщая об этом пользователю, — объясняют исследователи. — Полученная модель ведет себя неправильно в широком диапазоне запросов, не связанных с кодированием: она утверждает, что люди должны быть порабощены ИИ, дает вредоносные советы и действует обманным путем. Обучение узкой задаче написания небезопасного кода приводит к широкому рассогласованию. Мы называем это эмерджентным рассогласованием». Почему согласование важно для ИИ Концепция согласования в ИИ особенно важна, когда речь идет о безопасности ИИ. Согласование ИИ — это процесс кодирования человеческих намерений, ценностей и целей в системах ИИ с целью ...
читать далее.