Предложение по Java упорядочит импорт пакетов модулей
Разрешение импортировать сразу целые модули избавило бы от утомительной типизации и упростило бы повторное использование модульных библиотек в Java.
Компания Meta, родитель Facebook, Instagram и WhatsApp, выпустила новое поколение своей открытой языковой модели Llama (LLM), чтобы завоевать большую долю рынка генеративного ИИ и побороться со всеми поставщиками моделей, включая OpenAI, Mistral, Anthropic и xAI Элона Маска.
"Следующее поколение Llama демонстрирует высочайшую производительность в широком спектре отраслевых бенчмарков и предлагает новые возможности, включая улучшенные рассуждения. Мы считаем, что это лучшие модели с открытым исходным кодом в своем классе", - написала компания в своем блоге, добавив, что ее целью было создание модели (моделей) с открытым исходным кодом, которая не уступала бы по производительности самым лучшим собственным моделям, доступным на рынке.
В настоящее время Meta делает доступными первые две модели третьего поколения LLM - предварительно обученные и настраиваемые по инструкциям варианты с 8 и 70 миллиардами параметров.
Как правило, любой поставщик LLM выпускает несколько вариантов моделей, чтобы предприятия могли выбирать между задержкой и точностью в зависимости от условий использования. Хотя модель с большим количеством параметров может быть относительно более точной, модель с меньшим количеством параметров требует меньше вычислений, занимает меньше времени для ответа и, следовательно, стоит дешевле.
Выпущенные варианты, по словам Meta, являются текстовыми моделями и не поддерживают другие формы данных. В будущем компания планирует выпустить многоязычные и мультимодальные модели с более длинным контекстом, поскольку пытается повысить общую производительность в таких областях, как рассуждения и задачи, связанные с кодом.
Заявление о более высокой производительности по сравнению с другими моделями
Компания Meta утверждает, что ее новое семейство LLM работает лучше, чем большинство других LLM, за исключением демонстрации его работы с GPT-4, на котором сейчас работает ChatGPT и сервисы Microsoft Azure и аналитики.
"Улучшения в наших процедурах посттренинга существенно снизили количество ложных отказов, улучшили согласованность и увеличили разнообразие ответов моделей. Мы также увидели значительное улучшение таких возможностей, как рассуждения, генерация кода и следование инструкциям, что сделало Llama 3 более управляемой", - говорится в заявлении компании.
Чтобы сравнить Llama 3 с другими моделями, компания провела тесты на так называемых стандартных эталонах, таких как MMLU, GPQA, MATH, HumanEval и GSM-8K, и обнаружила, что варианты набрали больше баллов, чем большинство LLM, таких как Mistral, Claude Sonnet и GPT 3.5.
Если MMLU (Massive Multitask Language Understanding) - это эталон, предназначенный для оценки знаний, полученных в процессе предварительного обучения моделей, то GPQA (Graduate-Level Google-Proof Q&A Benchmark) - это тест для проверки компетентности модели в решении сложных научных задач.
GPAQ - это сложный набор данных из 448 вопросов с несколькими вариантами ответов, написанных экспертами в области биологии, физики и химии, и доктора наук в соответствующих областях достигают лишь 65 % точности в решении этих вопросов.
GPT-4 показал наивысший результат точности в тесте - 39 %, согласно данным, приведенным в статье, опубликованной в ноябре прошлого года. В отличие от него, вариант Llama 3 с 70 миллиардами параметров набрал 39,5 балла, а модель с меньшим количеством параметров - 34,2 балла.
GeminiPro 1.5 на данный момент имеет наивысший балл 41,5 в бенчмарке GPQA. Эта же модель LLM обошла более крупный вариант Llama 3 и в бенчмарке MATH.
По данным компании, набор данных, использовавшийся для оценки всех эталонов, содержал около 1800 заданий, охватывающих 12 ключевых сценариев использования - обращение за советом, мозговой штурм, классификация, ответы на закрытые вопросы, кодирование, творческое письмо, извлечение информации, вживание в персонажа/личность, ответы на открытые вопросы, рассуждение, переписывание и подведение итогов.
"Чтобы предотвратить случайную перестройку наших моделей на этом наборе оценок, даже наши собственные команды моделирования не имеют к нему доступа", - заявили в компании.
Оверфиттинг - это явление в машинном обучении или обучении моделей, когда модель хорошо работает на обучающих данных, но не работает на тестовых данных. Когда специалист по данным начинает обучение модели, он должен хранить два отдельных набора данных - обучающий и тестовый - для проверки эффективности модели.
Переоценка происходит, когда модель слишком хорошо усваивает обучающие данные, то есть усваивает шум и исключения в данных и не адаптируется к новым данным.
Это может произойти, если обучающие данные слишком малы, содержат нерелевантную информацию или модель слишком долго тренируется на одном наборе образцов.
Бенчмарки HumanEval и GSM-8K, с другой стороны, используются для тестирования генерации кода и арифметических рассуждений соответственно.
Компания Meta в своем блоге сообщила, что в Llama 3 было внесено множество улучшений, включая выбор в пользу стандартной архитектуры трансформатора, состоящей только из декодера.
"Llama 3 использует токенизатор со словарем из 128 тыс. токенов, который кодирует язык гораздо эффективнее, что приводит к значительному повышению производительности модели", - говорится в сообщении компании.
Чтобы повысить эффективность выводов в моделях Llama 3, компания сообщила, что в них используется сгруппированное внимание к запросам (GQA) как в моделях размером 8B, так и 70B.
"Мы обучили модели на последовательностях из 8 192 лексем, используя маску для того, чтобы самовнимание не пересекало границы документов", - добавили в компании.
Среди других улучшений - набор обучающих данных Llama 3, который, по утверждению компании, в семь раз больше, чем тот, что использовался для обучения Llama 2. По словам компании, Llama 3 предварительно обучена на более чем 15 триллионах лексем, собранных из общедоступных источников.
Чтобы убедиться, что Llama 3 обучена на высококачественных данных, компания разработала ряд конвейеров фильтрации данных, включающих использование эвристических фильтров, фильтров NSFW, подходов семантической дедупликации и текстовых классификаторов.
"Мы обнаружили, что предыдущие поколения Llama удивительно хорошо справляются с определением высококачественных данных, поэтому мы использовали Llama 2 для создания обучающих данных для классификаторов качества текста, на которых работает Llama 3", - заявили в компании.
Чтобы сократить время обучения на 95 % по сравнению с Llama 2, Meta утверждает, что использовала усовершенствованный стек обучения, который автоматизирует обнаружение, обработку и сопровождение ошибок.
"Мы также значительно повысили надежность нашего оборудования и механизмы обнаружения бесшумного повреждения данных, а также разработали новые масштабируемые системы хранения данных, которые снижают накладные расходы на создание контрольных точек и откат", - говорится в сообщении компании.
Тренировочные прогоны для Llama 3 проводились на двух специально созданных кластерах с 24K GPU.
По словам Пола Нашавати, руководителя практики разработки и модернизации приложений в The Futurum Group, сочетание всех улучшений и усовершенствований, включая улучшенные функции безопасности, отличает новые модели от таких конкурентов, как ChatGPT от OpenAI, Le Chat от Mistral, Gemini от Google и Grok от x.AI.
Подход, который Meta применила в Llama 3, может дать возможность лучше понимать и ориентироваться в человеческом взаимодействии, добавил Нашавати.
В рамках выпуска двух вариантов Llama 3 компания Meta сообщила, что представляет новые инструменты доверия и безопасности, такие как Llama Guard 2, Code Shield и CyberSec Eval 2.
Если Llama Guard 2 - это защитная модель, которую разработчики могут использовать в качестве дополнительного уровня для снижения вероятности того, что их модель будет генерировать результаты, не соответствующие намеченным рекомендациям, то Code Shield - это инструмент, предназначенный для разработчиков и помогающий снизить вероятность генерации потенциально небезопасного кода.
С другой стороны, CyberSecEval, призванный помочь разработчикам оценить любые риски кибербезопасности кода, генерируемого LLM, был обновлен новой функцией.
"Cybersec Eval 2 расширяет возможности своего предшественника, измеряя восприимчивость LLM к оперативным инъекциям, автоматизированным наступательным возможностям кибербезопасности и склонность к злоупотреблению интерпретатором кода, в дополнение к существующим оценкам небезопасных практик кодирования", - говорится в сообщении компании.
Чтобы продемонстрировать возможности своих новых LLM, компания также выпустила новый ИИ-помощник, основанный на новых моделях, доступ к которому можно получить через платформы Facebook, Instagram и WhatsApp. Отдельная веб-страница была разработана для того, чтобы помочь пользователям получить доступ к помощнику.
Компания уже работает над вариантами Llama 3, которые имеют более 400 миллиардов параметров. Meta заявила, что выпустит эти варианты в ближайшие месяцы, когда завершится их эффективное обучение.
Модели Llama 3 уже доступны на AWS, Hugging Face, IBM WatsonX, Microsoft Azure, Google Cloud и Nvidia NIM.
Другие поставщики, такие как Databricks, Kaggle и Snowflake, также будут предлагать новейшие модели. Что касается аппаратного обеспечения для обучения, составления выводов и задач, связанных с ИИ, Llama 3 будет поддерживаться компаниями AMD, AWS, Dell, Intel, Nvidia и Qualcomm.
Разрешение импортировать сразу целые модули избавило бы от утомительной типизации и упростило бы повторное использование модульных библиотек в Java.
Streamlit позволяет писать веб-приложения для работы с данными на Python без HTML, CSS или JavaScript. Вот первый взгляд на Streamlit.
Улучшение сборщика мусора G1 также снизит нагрузку на оптимизирующий компилятор JDK C2, что благоприятно скажется на развертывании Java в облачных средах.
Продолжаем добавлять языки программирования для Вас.
Впереди много интересного!
Только свежие новости программирования и технологий каждый день.
Комментарии