Google использует название Gemini как для своего разговорного чатбота, ранее известного как Bard, так и для его мультимодальной большой языковой модели (LLM), разработанной Google DeepMind. Gemini Pro относится к LLM.
Google Gemini 1.5 Pro теперь доступен в 180 странах в виде публичной предварительной версии API Gemini, которая впервые была анонсирована в феврале в виде частной предварительной версии.
Gemini Pro значительно увеличивает контекстное окно для общедоступного LLM. До выхода Gemini 1.5 Pro самое большое контекстное окно в мире для общедоступной большой языковой модели составляло 200 000 лексем. 1.5 Pro постоянно работает с 1 миллионом лексем, достигая самого длинного контекстного окна среди всех крупномасштабных базовых моделей. По умолчанию Gemini 1.5 Pro поставляется с контекстным окном на 128 000 лексем, но предварительная версия имеет доступ к экспериментальному контекстному окну на 1 миллион лексем.
Обновленная версия добавляет встроенную функцию понимания аудио (речи), так что она впервые может воспринимать информацию на слух. По словам Google, Gemini 1.5 Pro теперь может понимать как изображения (кадры), так и аудио (речь) для видео, загруженных в Google AI Studio, и "мы ожидаем, что вскоре добавим поддержку API для этого".
В обновлении также появился новый API File, упрощающий работу с файлами. В предварительной версии также добавлены такие функции, как системные инструкции и режим JSON, чтобы дать разработчикам больше контроля над выходными данными модели. Режим JSON позволяет разработчикам указать модели выводить только JSON-объекты. Этот режим позволяет извлекать структурированные данные из текста или изображений. На данный момент модель можно использовать через cURL, а поддержка Python SDK "скоро появится".
В этом выпуске также улучшен вызов функций. Теперь пользователи могут выбирать режимы для ограничения выходов модели, что повышает надежность. Выберите текст, вызов функции или только саму функцию.
В новой версии также добавлена поддержка использования разработчиками модели встраивания текста нового поколения от Google через API Gemini. Новая модель, text-embedding-004 (text-embedding-preview-0409 в Vertex AI), достигает более высокой производительности поиска и превосходит существующие модели с сопоставимыми размерами в бенчмарках MTEB.
Gemini 1.5 Pro уже доступна в публичной предварительной версии в Google AI Studio.
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
Комментарии