Google представляет PaliGemma, новую визуальную модель языка

На прошлой неделе на Google I/O была представлена PaliGemma, открытая модель языка зрения (VLM), а также некоторые подробности о том, что появится в Gemma 2.

Gemma - это легкие открытые модели Google, созданные на основе тех же исследований и технологий, которые использовались для создания моделей Gemini. Существующие модели Gemma - это большие языковые модели для работы с текстом и декодером, доступные только на английском языке, с открытыми весами, предварительно обученными вариантами и вариантами, настраиваемыми по инструкции.

PaliGemma описывается как мощный открытый VLM, вдохновленный PaLI-3. Язык построен на открытых компонентах, включая модель зрения SigLIP и языковую модель Gemma, и предназначен для широкого круга задач, связанных с языком зрения, включая создание подписей к изображениям и коротким видео, визуальные ответы на вопросы, понимание текста на изображениях, обнаружение объектов и сегментацию объектов.

Google предоставляет как предварительно обученные и тонко настроенные контрольные точки в различных разрешениях, так и контрольные точки, специально настроенные на сочетание задач для немедленного изучения.

PaliGemma выпускается для различных платформ и ресурсов, причем бесплатные варианты включают блокноты Kaggle и Colab. Академические исследователи, стремящиеся расширить границы исследований в области языков технического зрения, также могут подать заявку на получение кредитов Google Cloud для поддержки своей работы. Этот язык присоединился к CodeGemma и RecurrentGemma, которые были выпущены в начале года.

Google также поделилась информацией о Gemma 2 - экземпляре с 27 ББ параметров, который превосходит модели вдвое большего размера и работает на одном TPUv5e. Gemma 2 будет доступна в новых размерах и основана на новой архитектуре. Google утверждает, что Gemma 2 обеспечит производительность, сравнимую с Llama 3 70B, при меньшем размере. Благодаря обновленному дизайну, на вычислениях может быть использовано вдвое меньше ресурсов, чем в аналогичных моделях, а модель 27B оптимизирована для работы на графических процессорах NVIDIA.

Google также утверждает, что Gemma 2 предоставит разработчикам "надежные возможности настройки в рамках разнообразной экосистемы платформ и инструментов".

Google PaliGemma доступна уже сейчас.

Google представляет PaliGemma, новую визуальную модель языка
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
22 мая 2024 г.
68
Теги: Google , PaliGemma

Комментарии

Оставить комментарий:
* отправляя форму, я даю согласие на обработку персональных данных

Читайте еще

Продолжаем добавлять языки программирования для Вас.
Впереди много интересного!

Только свежие новости программирования и технологий каждый день.

Свежие посты