В зависимости от ваших политических взглядов, экономика "просачивания" никогда не работала так хорошо в Соединенных Штатах при президенте Рональде Рейгане. Однако в программном обеспечении с открытым исходным кодом она, похоже, работает просто отлично.
Я, конечно, имею в виду не экономическую политику, а то, что элитные команды разработчиков программного обеспечения выпускают код, который в итоге становится основой для не самых элитных. Возьмем, к примеру, компанию Lyft, которая выпустила популярный проект Envoy. Или Google, подаривший миру Kubernetes (хотя, как я уже утверждал, цель была не в благотворительности, а скорее в корпоративной стратегии, чтобы обойти доминирующую AWS). Airbnb нашла способ выйти за рамки пакетного планирования, ориентированного на cron, подарив нам Apache Airflow и конвейеры данных как код.
Сегодня от Airflow зависит множество крупных предприятий - от Walmart до Adobe и Marriott. Хотя сообщество разработчиков включает разработчиков из Snowflake, Cloudera и других компаний, большая часть тяжелой работы выполняется инженерами Astronomer, в котором работают 16 из 25 лучших коммиттеров. Astronomer эффективно использует этот опыт и знания, предоставляя полностью управляемый сервис Airflow под названием Astro, но он не единственный. Неудивительно, что облака стали быстро создавать свои собственные сервисы без возврата кода, что вызывает беспокойство по поводу устойчивости.
Этот код не будет написан сам собой, если он не сможет себя окупить.
Что такое конвейер данных?
Сегодня все говорят о больших языковых моделях (LLM), генерации с расширенным поиском (RAG) и других аббревиатурах генеративного ИИ (genAI), так же как 10 лет назад мы не могли насмотреться на Apache Hadoop, MySQL и т. д. Названия меняются, а данные остаются, и постоянно возникает вопрос о том, как лучше перемещать эти данные между системами.
Именно здесь на помощь приходит Airflow.
В некотором смысле Airflow похож на серьезно модернизированный планировщик заданий cron. Компании начинают с изолированных систем, которые в конечном итоге необходимо сшить вместе. Или, точнее, данные должны перетекать между ними. Как отрасль, мы изобрели всевозможные способы управления этими конвейерами данных, но по мере увеличения объема данных растут и системы управления этими данными, не говоря уже о постоянно усложняющемся взаимодействии между этими компонентами. Это просто кошмар, как писала команда Airbnb, когда открывала Airflow: "Если вы рассматриваете быстро развивающуюся команду данных среднего размера в течение нескольких лет в развивающейся инфраструктуре данных, и у вас на руках оказывается чрезвычайно сложная сеть вычислительных задач, эта сложность может стать для команд данных серьезным бременем, которым они не смогут управлять или даже понять".
Написанный на языке Python, Airflow естественно говорит на языке данных. Считайте его соединительной тканью, которая дает разработчикам последовательный способ планировать, организовывать и понимать, как данные перемещаются между всеми системами. Значительная и растущая часть компаний из списка Fortune 500 зависит от Airflow в части оркестровки конвейеров данных, и чем больше они его используют, тем более ценным он становится. Airflow приобретает все большее значение для корпоративных цепочек поставок данных.
Так что давайте вернемся к вопросу о деньгах.
Код не будет писаться сам по себе
Вокруг Airflow сложилось солидное сообщество, но, возможно, 55 % или более кода вносят люди, работающие в Astronomer. Это дает компании возможность поддерживать Airflow в производстве для своих клиентов (через управляемый сервис Astro), но также подвергает проект риску. Нет, не из-за того, что Astronomer оказывает чрезмерное влияние на проект. Проекты Apache Software Foundation, по определению, никогда не являются проектами одной компании. Скорее, риск возникает из-за того, что Astronomer может решить, что не сможет финансово оправдать свой уровень инвестиций.
Именно здесь обвинения в "перетягивании ковра с открытым исходным кодом" теряют свою силу. Как я недавно утверждал, у нас есть триллионная проблема свободного наездника в открытом коде. У нас всегда было некое подобие этой проблемы. Ни одна компания не делает взносы из милосердия; это всегда связано с собственными интересами. Одна из проблем заключается в том, что компаниям может потребоваться много времени, чтобы понять, что их собственные интересы должны заставить их внести свой вклад (как это произошло, когда Elastic изменила свою лицензию, а AWS обнаружила, что ей нужно защитить миллиарды долларов дохода, создав форк Elasticsearch). Это запоздалое понимание усугубляется, когда за разработку платит кто-то другой.
Слишком легко позволить кому-то другому делать работу, пока вы получаете прибыль.
Возьмем Kubernetes. Он по праву считается плакатом для сообщества, но посмотрите, насколько сконцентрирован вклад сообщества. С момента создания Google внесла 28 % кода. Следующим по величине вклада является Red Hat с 11 %, затем VMware с 8 %, а затем Microsoft с 5 %. Все остальные - это относительная ошибка округления, включая AWS (1 %), которая превосходит всех остальных по доходам, полученным от Kubernetes. Это совершенно справедливо, поскольку лицензия позволяет это делать. Но что произойдет, если Google решит, что не в ее интересах продолжать так много разработок для других?
Один из возможных вариантов (и данные о вкладчиках могут подтвердить этот вывод) заключается в том, что компании пересмотрят свои инвестиции. Например, за последние два года доля Google снизилась до 20 %, а Red Hat - до 8 %. Microsoft, в свою очередь, увеличила свою относительную долю взносов до 8 %, а AWS, хотя и остается относительно крошечной, подскочила до 2 %. Может быть, хорошие сообщества самокорректируются?
Что возвращает нас к вопросу о данных.
Это мир Python
Поскольку Airflow построен на Python, а Python, похоже, является вторым языком каждого разработчика (если не первым), разработчикам легко начать работу. Что еще более важно, возможно, им также легко перестать думать о конвейерах данных вообще. Инженеры по обработке данных на самом деле не хотят поддерживать конвейеры данных. Они хотят, чтобы эта работа отошла на второй план.
Как это сделать, не сразу понятно, особенно учитывая абсолютный хаос сегодняшнего ландшафта данных/Интерфейса, о котором пишет FirstMark Capital. Airflow, особенно с управляемым сервисом, таким как Astronomer's Astro, позволяет сохранить опциональность (множество вариантов на диаграмме FirstMark) и одновременно упростить обслуживание трубопроводов между системами.
Это большое дело, которое будет расширяться по мере увеличения количества источников данных. Это "большое дело" должно быть более заметным в таблице вкладчиков. Сегодня разработчики Astronomer являются движущей силой релизов Airflow. Было бы здорово, если бы и другие компании увеличили свой вклад, соразмерно доходам, которые они, несомненно, получат от Airflow.
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
Комментарии