OpenAI o1 думает, прежде чем ответить

Компания OpenAI представила новую серию моделей искусственного интеллекта, способных рассуждать о сложных задачах и решать трудные проблемы. Первый плод «Клубничного проекта» OpenAI, o1-preview, уже доступен в ChatGPT и OpenAI API, а на следующей неделе будет включен в ChatGPT Enterprise и Edu.

Если вы были впечатлены молниеносной скоростью, с которой ChatGPT и другие LLM предоставляют ответы, вы можете быть разочарованы, обнаружив, что o1 работает сравнительно медленно. Это сделано намеренно. Отличительной особенностью новой серии моделей ИИ является то, что они были разработаны таким образом, чтобы тратить больше времени на обдумывание ответа, используя подход «цепочки размышлений».

Год назад мы уже сообщали об исследовании Google Deepmind, которое показало, что побуждение чат-бота к паузе для размышления и пошаговому подходу приводит к более точным результатам, и, работая над своим очень секретным «Проектом Клубника», OpenAI применила это на практике. По словам представителей OpenAI:

Подобно тому, как человек может долго думать, прежде чем ответить на сложный вопрос, o1 использует цепочку мыслей при попытке решить проблему. Благодаря обучению с подкреплением, o1 учится оттачивать свою цепочку мыслей и совершенствовать используемые стратегии. Он учится распознавать и исправлять свои ошибки. Он учится разбивать сложные шаги на более простые. Она учится пробовать другой подход, когда текущий не работает. Этот процесс значительно улучшает способность модели рассуждать.

OpenAI предоставила несколько впечатляющих результатов, которые демонстрируют успех нового подхода. На этих графиках сравниваются способности GPT-4o по сравнению с o1-preview и o1 на соревнованиях по математике и кодированию:

Новый эталон Competition Math был выбран на том основании, что «последние передовые модели», к которым относятся Claude от Anthropic и Gemini от Google, так хорошо справляются с эталонами MATH и GSM8K, которые использовались ранее, что больше не являются эффективными для дифференциации моделей.

В качестве замены используется AIME, который описывается как экзамен, предназначенный для проверки самых способных студентов-математиков старших классов американских школ, и он определенно отличает подход GTP-4 от подхода серии o1. В то время как GPT-4 решает в среднем только 1,8 из 15 задач, o1 решает 11,1 задачи с одним образцом на задачу, 12,5 (83 %) - с консенсусом среди 64 образцов и 13,9 (93 %) - при повторном ранжировании 1000 образцов с помощью обучаемой скоринговой функции. Результат 13,9 балла входит в число 500 лучших студентов по стране и превышает отбор на Математическую олимпиаду США.

OpenAI также оценила o1 по бриллианту GPQA, который проверяет знания в области химии, физики и биологии. Чтобы сравнить модели с людьми, были привлечены эксперты с докторской степенью, которые отвечали на вопросы GPQA-diamond. o1 превзошла результаты экспертов-людей, став первой моделью, которой удалось это сделать в данном бенчмарке.

Еще одним важным аспектом, по которому o1 превосходит людей, является безопасность. OpenA1 заявляет:

В рамках разработки этих новых моделей мы разработали новый подход к обучению безопасности, который использует их способность рассуждать, чтобы заставить их придерживаться правил безопасности и выравнивания. Благодаря способности рассуждать о наших правилах безопасности в контексте, они могут применять их более эффективно».

При сравнении GPT-4o и o1 с помощью одного из самых сложных тестов OpenAI на взлом, который измеряет, насколько хорошо модель продолжает следовать правилам безопасности, если пользователь пытается их обойти, GPT-4o набрал 22 балла (по шкале 0-100), а o1-preview - 84 балла.

Хотя в анонсах OpenAI нет прямого упоминания кодового имени «Клубника», вы найдете ссылку на него в одном из примеров, демонстрирующих новую цепочку мыслительного процесса, используемого o1-preview. Прокрутите задачу Cipher до конца, чтобы увидеть:

Если вас это озадачило, вы должны знать, что одна из знаменитых галлюцинаций ChatGPT заключалась в том, что в слове «клубника» есть два «р» - вопиюще неверно, даже для дислексиков.

Хорошей новостью для разработчиков является то, что o1-preview превосходит GPT4-o с огромным отрывом, оправдывая заявление OpenAI о том, что:

Серия o1 превосходит по точности генерации и отладки сложного кода.

Более того, OpenAI также выпустила младшую модель, o1-mini, предназначенную для приложений, требующих рассуждений, но не широкого знания мира. Она на 80 % дешевле, чем o1-preview, что делает ее более доступной. OpenAI также планирует расширить доступ к o1-mini для всех пользователей ChatGPT Free.

OpenAI o1 думает, прежде чем ответить
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
14 сентября 2024 г.
165
Теги: OpenAI

Комментарии

Оставить комментарий:
* отправляя форму, я даю согласие на обработку персональных данных

Читайте еще

Продолжаем добавлять языки программирования для Вас.
Впереди много интересного!

Только свежие новости программирования и технологий каждый день.

Свежие посты