OpenAI предлагает вторую нейросеть для отлова ошибок в коде ChatGPT

Большая языковая модель выявляет множество ошибок в коде, но она также склонна к галлюцинациям ошибок, которых нет.

Проблема галлюцинаций - моделей искусственного интеллекта (ИИ), утверждающих ложь под видом авторитета, - привела некоторых ученых к выводу, что генеративный ИИ просто не может обнаружить и исправить свои ошибки.

В своей работе, опубликованной в октябре прошлого года, исследователи из компании DeepMind, принадлежащей Google, утверждали, что "LLM пока не способны к самокоррекции своих рассуждений".

Однако создатель ChatGPT компания OpenAI не согласна с этим утверждением - на прошлой неделе она предложила версию GPT-4 под названием CriticGPT, которая, как она утверждает, может помочь найти и исправить ошибки, чтобы повысить общую точность модели.

Результаты обнадеживают человеческие команды, которые чистят код с помощью ИИ. Однако результаты также свидетельствуют о том, что галлюцинаций от ботов, оказывающих помощь, не избежать.

Исследователи предлагают CriticGPT в качестве второй нейронной сети, которая кэширует случаи, когда ChatGPT допускает ошибки в генерируемом им коде.

Они сосредоточились на написании кода, потому что, по их словам, компьютерный код является "четким" - в нем есть четкие правильные и неправильные ответы. Кроме того, OpenAI как организация надеется использовать генеративный ИИ в качестве "помощника в исследованиях по выравниванию", чтобы автоматизировать некоторые процессы создания ограждений для развивающихся технологий. Написание кода уже является одним из основных направлений использования генеративного ИИ, так что это ценная цель, на которую можно ориентироваться.

В статье, опубликованной на сервере препринтов arXiv, "LLM Critics Help Catch LLM Bugs", ведущий автор Нэт МакАлис (Nat McAleese) из OpenAI и его коллеги описывают то, что они называют "первой демонстрацией простого масштабируемого метода надзора, который помогает людям более полно выявлять проблемы в реальных данных RLHF".

RLHF (reinforcement learning from human feedback) - это хорошо известная практика, когда чатботы подвергаются реакции со стороны людей, чтобы сделать их результаты более приемлемыми. Это один из способов, с помощью которого OpenAI и другие компании устанавливают защитные ограждения для предотвращения нежелательного поведения.

В данном случае CriticGPT подвергается обратной связи с программистами-контрактниками, которые просматривают сгенерированную CriticGPT критику программного кода. Люди оценивают сгенерированные критические замечания на предмет их релевантности, специфичности, полноты и т. д. CriticGPT обучается дорабатывать критику на основе отзывов людей, чтобы добиться более высокого балла одобрения.

Однако МакАлис и его команда сделали еще один шаг. Они добавили несколько преднамеренных ошибок в код, который проверяет CriticGPT, попросив нескольких подрядчиков-людей намеренно вставить ошибки. Исследователи хотели, чтобы подрядчики объяснили свои ошибки, а CriticGPT впитал эти объяснения и научился ассоциировать ошибки с объяснениями.

Предполагалось, что CriticGPT будет совершенствоваться по мере того, как будет создавать описания ошибок, приближенные к тому, что написали об уже известных ошибках подрядчики.

В результате обучения, пишут МакАлис и команда, ChatGPT находит больше ошибок, чем человеческие ревьюверы кода. CriticGPT "значительно повышает скорость обнаружения вставленных ошибок, причем оба LLM-критика (побуждаемые ChatGPT и CriticGPT) находят гораздо больше ошибок, чем аннотаторы-люди", - пишут они.

Они отмечают, что даже люди предпочитают то, что генерирует машина при анализе кода, а не то, что пишут их коллеги-люди.

"Критика, написанная CriticGPT, значительно предпочтительнее для подрядчиков, чем критика, полученная от ChatGPT, и чем критика, написанная человеком, полученная от нашей группы подрядчиков, согласно общему рейтингу".

Модель искусственного интеллекта помогает подрядчикам сделать свою критику ошибок более насыщенной, что является своего рода результатом работы AI-augments-humans, который должен понравиться всем: "Команды человек+CriticGPT пишут значительно более полную критику, чем люди в одиночку, и что CriticGPT улучшает полноту критики по сравнению с ChatGPT как для обнаруженных, так и для вставленных человеком ошибок".

Как пишут авторы в сопутствующей записи в блоге, "предложения CriticGPT не всегда верны, но мы обнаружили, что они могут помочь преподавателям выявить гораздо больше проблем с написанными на основе моделей ответами, чем они могли бы сделать без помощи ИИ".

Но есть и загвоздка. Как ChatGPT и различные модели ИИ могут "галлюцинировать" неверные утверждения, так и CriticGPT, оказывается, может претендовать на выявление ошибок, которых нет.

"Однако мы обнаружили, что количество придирок и галлюцинаций гораздо выше для моделей, чем для людей, хотя CriticGPT способен существенно снизить этот показатель по сравнению с ChatGPT", - пишут они.

Это дилемма: чем лучше модель ИИ ловит ошибки, тем больше она, похоже, галлюцинирует: "К сожалению, не очевидно, каков правильный компромисс между галлюцинациями и обнаружением ошибок для общей системы RLHF, которая использует критику для повышения производительности модели".

И нелегко найти золотую середину, отмечают они, потому что "идеальный эксперимент заключался бы в запуске совершенно отдельных циклов сбора данных RLHF с усилением критики для каждой точки точности/отзыва; но это непомерно дорого".

В результате МакАлизу и его команде удалось найти компромисс. Force Sampling Beam Search пытается извлечь наиболее ценное из критики CriticGPT, минимизируя при этом количество ложных критических замечаний.

Среди потенциальных недостатков подхода OpenAI - то, что обучение Critic GPT построено на том, что люди вставляют преднамеренные ошибки. Такой подход, пишут МакАлизе и команда, отличается от распределения естественных ошибок LLM.

"Обучение моделей вставлять тонкие проблемы в распределении (в отличие от оплаты людям за вставку ошибок) может быть способно смягчить эту проблему, но мы оставляем эти направления для будущих работ".

Таким образом, проблема всегда будет заключаться в том, как запустить автоматизацию без помощи человека.

Еще одна проблема - и она не упоминается авторами - заключается в том, что, как и в случае со всем OpenAI, ни новая модель CriticGPT, ни ее обучающие данные не находятся в открытом доступе: все закрыто, нет исходного кода для изучения, нет наборов данных, которые могли бы скачать другие. Такая закрытость означает, что у сторонних экспертов по этике и безопасности практически нет возможности проверить исправления, вносимые моделью CriticGPT.

При отсутствии надзора со стороны OpenAI, как говорится, кто будет следить за наблюдателями?

OpenAI предлагает вторую нейросеть для отлова ошибок в коде ChatGPT
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
06 июля 2024 г.
44
Теги: OpenAI

Комментарии

Оставить комментарий:
* отправляя форму, я даю согласие на обработку персональных данных

Читайте еще

Технический директор OpenAI Мира Мурати утверждает, что искусственный интеллект приведет к ликвидации некоторых творческих профессий, и вот почему

Хотя Мира Мурати считает, что искусственный интеллект уничтожит некоторые профессии, которые считаются ненужными, при использовании его в качестве инструмента для образования и здравоохранения он может привести к положительным результатам.

27 июня 2024 г.
54

ИИ Meta AI появится в самых используемых приложениях на вашем смартфоне, и вы не сможете обойтись без него

Развертывание интеллектуального помощника на базе ИИ в приложениях Meta, включая Instagram, Facebook и WhatsApp, теперь не позволит индийцам игнорировать искусственный интеллект.

24 июня 2024 г.
55

Смотри раз, чтобы слышать - мечта шпиона сбылась

Глубокое обучение снова одержало победу. Вы можете надеть наушники, посмотреть на разговаривающего человека, и с этого момента система будет следить за ним, чтобы вы могли слышать его, когда он отойдет или захлебнется в шуме.

24 июня 2024 г.
38

Продолжаем добавлять языки программирования для Вас.
Впереди много интересного!

Только свежие новости программирования и технологий каждый день.

Свежие посты