DataChain - инструмент для рабочих процессов искусственного интеллекта

Компания Iterative выпустила новый инструмент с открытым исходным кодом для обработки и оценки неструктурированных данных в масштабе. DataChain - это библиотека Python с открытым исходным кодом, призванная упростить использование генеративного ИИ на неструктурированных данных, обеспечивая связь между неструктурированными данными и рабочими процессами ИИ, основанными на таких языках, как Python.

Согласно глобальному исследованию McKinsey о состоянии ИИ, опубликованному в начале 2024 года, только 15 % опрошенных компаний считают, что они уже используют генеративный ИИ в своем бизнесе, и Iterative утверждает, что большая часть этой проблемы заключается в сложности обработки неструктурированных данных в масштабе и оценке результатов. Часть проблемы заключается в оценке и улучшении качества данных в неструктурированных мультимодальных данных, таких как текст и изображения.

Дмитрий Петров, генеральный директор компании Iterative, говорит, что для преодоления этой проблемы необходимы модели ИИ, которые могут оценивать и улучшать существующие модели ИИ. Interative утверждает, что на практике большинство инженеров ИИ по-прежнему создают собственный код для преобразования ответов JSON-моделей, адаптации их к базам данных и параллельного запуска моделей с данными вне памяти.

DataChain позволяет использовать аналитические возможности ИИ, когда большие языковые модели (LLM) могут оценивать результаты других LLM и мультимодальных оценок GenAI для улучшения курации и предварительной обработки данных. DataChain также может хранить и структурировать ответы объектов Python, используя новейшие схемы моделей данных.

Название DataChain связано с тем, что DataChain позволяет аналитикам параллельно выполнять мультимодальные вызовы API и локальные выводы ИИ по многим образцам в виде цепочки операций. Полученные наборы данных можно сохранять, версионировать и отправлять непосредственно в PyTorch и TensorFlow для обучения. В ней используется концепция цепочки данных - последовательность шагов по работе с данными, таких как чтение данных из хранилища, запуск моделей ИИ или LLM или вызов API внешних сервисов для проверки или обогащения данных. Данные в DataChain представлены в виде классов Python с произвольным набором полей, включая вложенные классы. Он также может сохранять характеристики объектов Python, возвращаемых моделями искусственного интеллекта, и позволяет выполнять над ними векторные аналитические операции.

DataChain состоит из двух основных элементов - набора Python API, которые интегрируются с экосистемой Python, и инструмента Data Version Control (DVC) для неструктурированных данных, который использует хранилища данных и библиотеки Pythonic для управления и версионирования больших объемов неструктурированных данных. Он создан для работы с крупномасштабными операциями с данными, а также для обеспечения эффективности и масштабируемости рабочих процессов ИИ по мере роста объемов данных.

DataChain уже доступен на GitHub, а 24 июля состоится онлайн-вебинар, на котором будут продемонстрированы возможности DataChain.

DataChain - инструмент для рабочих процессов искусственного интеллекта
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
23 июля 2024 г.
132
Теги: Python , ИИ , Iterative

Комментарии

Оставить комментарий:
* отправляя форму, я даю согласие на обработку персональных данных

Читайте еще

Продолжаем добавлять языки программирования для Вас.
Впереди много интересного!

Только свежие новости программирования и технологий каждый день.