Meta выпускает инструменты для обеспечения безопасности с помощью искусственного интеллекта

Компания Meta выпустила инструменты с открытым исходным кодом для проверки безопасности генеративных моделей ИИ перед их публичным использованием. Проект с интересным названием Purple Llama представляет собой зонтичный проект, включающий открытые инструменты доверия и безопасности, а также оценки, которые, по словам Meta, призваны уравнять условия для разработчиков, чтобы они могли ответственно внедрять модели и опыт генеративного ИИ в соответствии с лучшими практиками.

Первая группа выпускаемых инструментов - CyberSec Eval, набор эталонов оценки безопасности кибербезопасности для LLM; и Llama Guard, классификатор безопасности для фильтрации ввода/вывода, оптимизированный для простоты развертывания.

Если вы думаете, что в словах Purple Llama есть тревожные нотки Барни Фиолетового Динозавра, расслабьтесь. Meta считает, что для смягчения проблем, которые ставит перед нами генеративный ИИ, необходимо принимать как атакующую (красная команда), так и оборонительную (синяя команда) позиции. Фиолетовая команда, состоящая из представителей как красной, так и синей команды, - это совместный подход к оценке и снижению потенциальных рисков. Теперь вы знаете.

CyberSecEval - это эталон, разработанный для повышения кибербезопасности больших языковых моделей (LLM), используемых в качестве ассистентов кодирования. Он обеспечивает тщательную оценку LLM в двух важнейших областях безопасности: их склонность к созданию небезопасного кода и их уровень соответствия требованиям, когда их просят помочь в кибератаках. В документе, посвященном бенчмарку, исследователи Meta описали тематическое исследование, включающее семь моделей из семейств больших языковых моделей Llama2, CodeLlama и OpenAI GPT, в котором CyberSecEval выявил ключевые риски кибербезопасности, а также практические рекомендации по улучшению этих моделей. Важным наблюдением в ходе исследования стала тенденция более продвинутых моделей предлагать небезопасный код.

Llama Guard, второй инструмент, представляет собой модель защиты ввода-вывода на основе LLM, ориентированную на использование в общении человека и ИИ. Модель включает в себя инструмент для классификации определенного набора рисков безопасности, встречающихся в подсказках LLM (т.е. классификация подсказок). Llama Guard настраивается на основе собранных Meta данных. Она функционирует как языковая модель, осуществляя многоклассовую классификацию и генерируя бинарные оценки решений.

Meta выпускает инструменты для обеспечения безопасности с помощью искусственного интеллекта
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
02 января 2024 г.
53
Теги: ИИ , Meta

Комментарии

Оставить комментарий:
* отправляя форму, я даю согласие на обработку персональных данных

Читайте еще