Почему В России Так Мало Коммиттеров В Крупных Open Source Проектах?

За свою недолгую профессиональную карьеру мне нравилось работать с крупными фреймворками с открытым исходным кодом — Lucene, Solr, Hadoop (map-reduce и Yarn), Spark, Zeppelin, IPython и т. д. При выборе между разработкой проприетарного продукта и чего-то на основе открытого исходного кода , я всегда выбираю открытый исходный код по следующим причинам: Развитие джедаев .

Джедай – это, прежде всего, человек, способный в одиночку изменить судьбу вселенной (не подпадающий под принцип «один человек в поле – не воин»).

А некоторые фреймворки с открытым исходным кодом позволяют решать сложные технические проблемы, просто развертывая готовые решения.

Теоретически можно написать ваша карта-сокращение , его распределенная файловая система и даже супертаблица реального времени.

база данных .

Но это займет много времени и будет хуже по качеству, чем существующие решения.

Но написать свой Spark за пределами долины не получится — система просто слишком сложна и требует слишком много очень высококвалифицированных разработчиков.

Но зачем все это писать, если весь стек больших данных организации можно поднять за 2 дня.

Террабайты логов? Кассандра+Искра+ дирижабль .

От готовые докер-контейнеры Опытный человек сможет установить все за один день.



Почему в России так мало коммиттеров в крупных open source проектах?

- Апачская искра Будет выпущен раз в 3 месяца С основные особенности .

Это радикальное повышение стабильности, появление новых инструментов (SparkSQl, Dataframe, GraphX), увеличение количества реализуемых алгоритмов (Gradient boosting в MLLib).

Солр через пару лет научился шардинг и, следовательно, работа с большими данными.

Hadoop возродился как Пряжа .

Эти фреймворки приобретают новый полезный функционал без моих усилий.

Это значит, что я могу более эффективно решать поставленные передо мной задачи.

В запатентованном продукте жизнь стала бы проще, только если бы я вложил значительные средства в ее упрощение.

Хорошая документация .

Существует очень мало проектов Apache верхнего уровня с плохой документацией.

В инкубаторе Apache чаще встречается плохая документация.

Но даже в этом случае, благодаря открытости проекта, у него есть пользователи, которые оставляют на StackOverflow следы своих исследований.

Обычно первым шагом в проприетарном проекте является обращение напрямую к автору кода, что является самым крайним шагом в открытом исходном коде.

За 2 года моего ближайшего общения со Spark мне пришлось написать в список рассылки разработчиков всего два раза.

Созданное сообщество .

В open source у меня всегда есть чувство рычага влияния и принадлежности к какому-то кругу, который всегда поможет в правильно поставленном техническом вопросе.

У вас возникает ощущение, что у вас есть замечательные коллеги по всему миру.

И они останутся, даже если вы смените компанию, но не поменяете структуру.

Работаем на себя.

Работая с открытым исходным кодом, вы повышаете свою экспертизу в нем и быстро растете в зарплатном и профессиональном плане.

Действительно, если вам нужно сменить работу, есть 5 офисов , стек технологий которого вы уже примерно знаете и который может принести пользу с первого дня.

Вам не нужно тратить шесть месяцев на то, чтобы разобраться в контексте перехода от одного проприетарного стека к другому.

А еще компаниям проще — можно нанимать сотрудников, которых практически не нужно обучать.

Все это плюс для работников и работодателей в России.

И вам не обязательно быть коммиттером, чтобы воспользоваться этими преимуществами.

Достаточно быть соавтором.

Для тех, кто не знает, кратко расскажу, чем они отличаются.

Участник — это человек, который предложил патч для проекта, а его коммиттер объединил его с мастером.

Коммиттер — это человек, который имеет право (и ответственность) регулярно фиксировать и объединять патчи в мастер-версию.

Таким образом, контрибьютор – идеальный сотрудник в российских реалиях.

Он хорошо знает проект, попользовавшись им достаточно, чтобы знать, где его можно улучшить.

Он смог улучшить его.

Он может собрать проект из исходников и редактировать исходники, а значит, всегда может залезть в код и при необходимости настроить его.

Быть соавтором — это круто — вам не обязательно подавать заявку Сертификация искры за 300 баксов и никто не усомнится в вашей компетентности в этих рамках.

У Коммиттера больше опыта в проекте, но, что более важно, больше власти.



Почему в России так мало коммиттеров в крупных open source проектах?

Он может «пронести» в проект патч, выгодный его работодателю.

Он может забанить патч, если он не выгоден.

Он может определить путь развития проекта.

Но власть не дается бесплатно.

Ему действительно нужно работать над созданием и поддержанием своего авторитета — читать бесконечные бесполезные патчи, писать архитектурные Google Docs, отвечать на вопросы.

Заниматься этим в свободное время практически невозможно – это огромный объем работы.

Следовательно, коммиттер делает это за счет работодателя.

Что от этого получает работодатель? Давайте посмотрим на список коммиттеров в Spark:

Аарон Дэвидсон Блоки данных
Эндрю Ор Блоки данных
Эндрю Ся Алибаба
Энди Конвински Блоки данных
Анкур Дэйв Калифорнийский университет в Беркли
Чарльз Рейсс Калифорнийский университет в Беркли
Ченг Лянь Блоки данных
Дэвис Лю Блоки данных
Хаоюань Ли Калифорнийский университет в Беркли
Имран Рашид Клаудера
Джейсон Дай Интел
Джозеф Брэдли Блоки данных
Джозеф Гонсалес Калифорнийский университет в Беркли
Джош Розен Блоки данных
Кей Оустерхаут Калифорнийский университет в Беркли
Марк Хамстра Данные ClearStory
Матей Захария Блоки данных, Массачусетский технологический институт
Майкл Армбруст Блоки данных
Мошараф Чоудхури Калифорнийский университет в Беркли
Мридул Муралидхарам Yahoo!
Ник Пентрит Мхит
Патрик Венделл Блоки данных
Прашант Шарма Imaginea, Прамати, Databricks
Рам Шрихарша Хортонворкс
Рейнольдс Синь Блоки данных
Роберт Эванс Yahoo!
Райан ЛеКомпте Количественная оценка
Сэнди Риза Клаудера
Шон Макнамара Вебтренды
Шон Оуэн Клаудера
Шейн Хуанг Национальный университет Сингапура
Шиварам Венкатараман Калифорнийский университет в Беркли
Стивен Хаберман Бизо
Татхагата Дас Блоки данных
Томас Дудзиак Групон
Томас Грейвс Yahoo!
Сянжуй Мэн Блоки данных
Инь Хуай Блоки данных
Spark начинался в Калифорнийском университете в Беркли, так что давайте вычтем всех из Беркли.

Блоки данных — компания, основанная основателями Spark, зарабатывает на Databricks Cloud — аналитическом инструменте на базе Spark. Фактически Spark — их основной продукт, поэтому им следует инвестировать в него.

Yahoo всегда строила свою инфраструктуру на открытых решениях — сначала это был Hadoop, теперь Spark. Компании такого типа нуждаются в коммиттерах по следующим причинам:

  • Они вложили в инфраструктуру на этом фреймворке не менее десятков миллионов долларов ( кластеры из тысяч машин в Yahoo ).

    Не существует такого понятия, как слишком сильный контроль над этим типом инвестиций.

    Не следует допускать изменений в проекте, которые не позволят перейти на более новую версию из-за обратно несовместимых изменений или архитектурных решений, не вписывающихся в видение компании;

  • В любой крупной компании обычно приходится делать локальные патчи с открытым исходным кодом, чтобы они работали в конкретных условиях или требованиях.

    Если эти патчи большие и серьезные, это создаст проблемы при переходе на новую версию.

    Поэтому нам следует попытаться объединить такие патчи в апстрим.

    Практически невозможно внедрить большой патч в большой проект без заинтересованности в этом коммиттера;

  • Компания видит свои приоритеты, и коммиттер пытается донести эти приоритеты до сообщества.

Я не знаю наверняка, но думаю, что Alibaba инвестирует в инфраструктуру не меньше, чем Yahoo. Groupon меньше, но все же.

Для ClearData Spark является основным движком.

Intel необходимо точно знать, что Spark полностью совместим с Intel. Cloudera, Hortonworks — поставщики Hadup (и, следовательно, Spark).

Они должны передавать не только свои интересы, но и интересы заказчика.

Компании, для которых Big Data и IT являются основным бизнесом, гораздо больше заинтересованы в коммиттерах.

MapR, SAP, Oracle, IBM сейчас активно ищут коммиттеров Spark (хотя я не понимаю, как можно активно искать всего 30 человек, которых все знают по имени).

И они готовы платить хорошие деньги.

Если вы станете Комитатором Искры в Долине, ваша зарплата гарантированно удвоится, если она и так высока.

В России нет компаний, готовых платить большие деньги за коммиттеров.

ИТ-интеграторы не имеют масштабов IBM и SAP не только с точки зрения оборотов, но и с точки зрения амбиций определять развитие отрасли.

Они следят за тенденциями, возникающими в долине.

Коммиттер им просто бесполезен.

Производственные компании в России либо небольшие, либо полагаются на собственный стек технологий.

Яндекс пытается развиваться по модели Google, где вся разработка находится внутри компании.

Насколько я понимаю, эта позиция основана на идее, что внутренняя разработка быстрее и эффективнее любого open source, когда компания способна создать критическую массу опытных специалистов.

Я не знаком с подробностями инфраструктуры ВКонтакте, но она тоже собственная.

Одноклассники обязательно используют Spark, не могу сказать, почему их не видно в сообществе.

Таким образом, будучи коммиттером, я считаю, что выиграть по деньгам или возможностям в России на фоне простого вкладчика очень сложно.

Главной проблемой малочисленности коммиттеров я считаю отсутствие в России компаний, которые хотели бы сохранить коммиттеров (кому это было бы выгодно).

Теги: #открытый исходный код #программирование #коммиттер #разработка сайтов #программирование

Вместе с данным постом часто просматривают: