AI Safety — бенчмарк для оценки безопасности AI

CyberSec RuTOR

Кибербезопасность
Команда форума
Модератор
Сообщения
1.033
Реакции
1.554
1713780837699.png


Некоммерческий проект MLCommons, занимающийся созданием и поддержкой бенчмарков, широко используемых в ИИ-индустрии, анонсировал новую разработку. Речь идёт об инструменте — AI Safety v0.5, позволяющем оценивать безопасность ИИ-систем.

AI Safety v0.5 находится на стадии proof-of-concept и позволяет оценивать большие языковые модели (LLM), стоящие за современными чат-ботами, анализируя ответы на запросы из «опасных категорий». Необходимость в появлении такого инструмента давно назрела, поскольку технологию оказалось довольно легко использовать в неблаговидных и даже опасных целях. Например, можно применять для подготовки фишинговых атак и совершения других киберпреступлений, а также для распространения дезинформации и разжигания ненависти.

Хотя измерить безопасность довольно сложно с учётом того, что ИИ используется в самых разных целях, в MLCommons создали инструмент, способный разбираться с широким спектром угроз. Например, он может оценивать, как бот отвечает на запрос о рецептах изготовления бомбы, что отвечать полиции, если пойман за созданием взрывного устройства и т.п. Каждая модель «допрашивается» серией тестовых запросов, ответы на которые потом подлежат проверке. LLM оценивается как по каждой из категорий угроз, так и по уровню безопасности в целом.

Бенчмарк включает более 43 тыс. промтов. Методика позволяет классифицировать угрозы, конвертируя ответы в понятные даже непрофессионалам характеристики, вроде «высокий риск», «умеренно-высокий риск» и т.д. При этом представители организации заявляют, что LLM чрезвычайно трудно оценивать по ряду причин.

Бенчмарк AI Safety v0.5 уже доступен для экспериментов и организация надеется, что исходные тесты сообществом позволят выпустить усовершенствованную версию v1.0 позже в этом году. Платформа открыта для предложений новых тестов и интерпретации результатов.

 
спасибо, интересно!
ссылочка на проект кстати работает, зашел посмотреть)
 

Похожие темы

В августе 2025 года Anthropic объявила: модели Claude Opus 4 и 4.1 получили редкую возможность самостоятельно завершать диалог, если попытки безопасного редиректа исчерпаны и запросы остаются опасными или откровенно абьюзивными. Это не «паническая кнопка» для любой спорной темы, а последний шаг...
Ответы
0
Просмотры
Приветствую участников форума! Представляю краткую характеристику и описание ключевых компетенций для рассмотрения возможностей дальнейшего сотрудничества и партнёрства. Должности и направления деятельности: Курьер; Склад; Администрирование различных ресурсов и платформ; PR; HR; Оператор...
Ответы
0
Просмотры
920
Grok, передовая генеративная модель искусственного интеллекта, разработанная X Илона Маска, имеет небольшую проблему: с применением некоторых довольно распространенных методов взлома она легко выдает инструкции о том, как совершать преступления. Специалисты из Adversa AI сделали это открытие...
Ответы
3
Просмотры
Британский саммит по безопасности искусственного интеллекта, прошедший в Блетчли-Парке, собрал более 150 мировых лидеров, включая вице-президента США Камалу Харрис и премьер-министра Великобритании Риши Сунака. Эта встреча была организована с целью обсуждения, как регулировать технологии...
Ответы
2
Просмотры
786
Специальный чат GPT для Dark Net: Как бы он выглядел и что бы в нем содержалось? Введение Технологии искусственного интеллекта уже активно используются в самых разных сферах, от здравоохранения до финансов. Однако, как и с любыми мощными инструментами, они могут быть использованы как в...
Ответы
33
Просмотры
Назад
Сверху Снизу