Никакого кода и картинок данная публикация не содержит, так как суть вопроса несколько шире, а на конкретные вопросы всегда можно ответить в комментариях.
За последние пару лет я смог использовать R для решения широкого спектра задач в самых разных отраслях.
Естественно, использование R, очевидно, подразумевает решение задач, связанных с той или иной математической обработкой цифровых данных, а разнообразие задач определялось, прежде всего, самой предметной областью, в которой возникли эти прикладные задачи.
Частично выбранные задачи кратко упоминались в предыдущих публикациях.
Различные тематические области, от земли (АПК) до применения для прикладных задач с использованием летательных аппаратов, вплоть до космоса.
Накопленная практика позволяет утверждать, что первоначальное доверие к R, сопутствующей экосистеме и сообществу оказалось полностью оправданным.
Не возникло ни одного случая, который нельзя было бы решить средствами R в разумные сроки.
Независимое подтверждение этого тезиса можно получить, наблюдая экспоненциальный рост успешного применения R в обычном бизнесе (не-ИТ) на Западе.
Например, почти половина докладов с конференции EARL 2017 (Корпоративные приложения языка R) , состоявшиеся в сентябре этого года, содержат кейсы по использованию R для решения бизнес-задач.
В докладах приведены примеры анализа данных в сфере недвижимости, автоматизации аудиторских проверок, анализа транспортных систем, анализа канализационных систем и многих других отраслей.
Бизнес-кейсы, в которых использование R оправдано, обычно можно охарактеризовать следующим образом: из набора разнородных внутренних и внешних источников необходимо быстро получить информацию о потенциально проблемных участках, требующих вмешательства человека.
Также желательно предоставить весь набор информационных срезов и представлений, помогающих человеку принять оптимальное решение.
.
Понятно, что при такой постановке задачи необходимо давать ответы не только на стандартные вопросы, но и быть готовым оперативно предоставить все необходимое по разовому запросу.
Акцент несколько смещается с методического просеивания всей информации, хранящейся в корпоративной системе, на локальный состав элементов, соответствующих контексту проблемы, из различных источников данных.
Какой функционал обычно востребован?
- импортировать данные из различных источников.
txt\csv, xls, парсинг веб-страниц, СУБД.
- простая обработка данных (группировка, агрегация).
- временной анализ (обычно 80% данных сопровождаются временными метками).
- расширенная обработка (элементы высшей математики, включая элементы машинного обучения); наиболее популярными являются поиск аномалий, различные классификаторы, рекомендации и прогнозирование, а также модная сейчас тема «процессный майнинг».
- визуализация методами X, Y, Z (вставьте недостающие).
- интеграция с внешними информационными системами для экспорта расчетных данных.
- экспорт в форматы, удобные для человеческого восприятия.
pdf, html, xls, doc, ppt.
- веб-база рабочей станции для аналитика/обычного пользователя.
Вышеуказанная функциональность доступна в экосистеме R без особой необходимости устанавливать какие-либо дополнительные сторонние компоненты.
Оптимальный набор open-source выглядит так:
- RStudio IDE — для разработки и специального анализа;
- пакеты из CRAN\GitHub — для расширения функционала в контексте задачи;
- Shiny Server — для создания интерактивных веб-аналитических приложений.
- Plumber API для публикации функций аналитики R для использования сторонними приложениями.
Использование R позволяет вам забыть о физической реализации.
Практическая уверенность в том, что любые бизнес-запросы могут быть реализованы, позволяет сосредоточиться на самом главном – на потребностях бизнеса, технологических и бизнес-процессах, физических ограничениях (если речь идет о реальном секторе экономики), и углубиться в предметную область.
.
Свобода от ограниченных IT-технологий и продуктов! И зачастую оказывается, что нужно не слушать пользователей, а взаимодействовать с технологом, изучать физику и химию процессов, чтобы понять реальную проблемную область и предложить более адекватное решение.
С точки зрения бизнеса набор инструментов R можно считать практически идеальным, и вот почему:
- Для начала использования нет финансовых препятствий:
- Никаких первоначальных инвестиций в лицензии не требуется.
- Нет никаких лицензионных ограничений или потенциальных проблем с расширением.
- Плата за годовое обслуживание лицензии не взимается.
- На Linux все прекрасно работает, дополнительную ОС покупать не нужно.
- Никаких первоначальных инвестиций в лицензии не требуется.
- Если внешние системы предоставляют необходимую информацию, то этого уже достаточно для запуска проекта.
Никаких сопутствующих проектов по благоустройству не требуется; все можно сделать на аналитическом уровне.
- Уже существует проверенная практика использования R в бизнесе практически во всех вертикалях.
- Нет необходимости планировать глобальный проект; достаточно начать с конкретных проблемных зон.
Проекты компактны и быстры, а результаты легко переводятся в деньги (заработанные или сэкономленные).
Полученные результаты позволяют взглянуть на существующие проблемы под другим углом, обнаружить реальные проблемы и более правильно расставить акценты.
На Западе R и Python используются как инструменты для решения задач по обработке и анализу данных.
Любой заинтересованный человек хотя бы слышал об этих языках/платформах.
В России исчезающе малая группа людей знает и слышала о R. Шаг влево, шаг вправо — и мы оказываемся в мире 1С, С++, Java. Трудно, долго, дорого.
Бесконечная разработка, очень ограниченный в функционале «толстый клиент».
Западное R-сообщество можно считать зрелым.
Русское R-сообщество не может появиться из ниоткуда.
Может быть, имеет смысл оглянуться вокруг и попробовать решить проблемы по-другому? После успешного решения нескольких бизнес-задач будет сложно заставить себя вернуться к старым методам.
Изменения будут слишком драматичными.
Предыдущий пост: «Цифровая экономика и экосистема R» Теги: #наука о данных #Интеллектуальный анализ данных #Большие данные #r
-
Каковы Риски, Связанные С Hr-Аутсорсингом?
19 Oct, 24 -
Производитель/Потребитель В Kafka И Kotlin
19 Oct, 24 -
Обзор Биллинговой Системы Bgbilling
19 Oct, 24 -
Сессия По Решению Проблем
19 Oct, 24