Какой язык использовать для анализа данных — самая избитая и больная тема.
Именно поэтому мы объединились с Алексеем Селезневым, руководителем аналитики Netpeak и автором телеграм-канал R4Marketing и подготовил сравнение операторов SQL и глаголов языка R. Для удобства и портативности мы сделали это в карточках.
Каждый день мы публикуем еще больше интересных материалов по программированию и анализу данных в нашем телеграмма канал и в группа ВК .Однако в точку!Возможно, вы найдете что-то интересное для себя.
R против SQL
Первое, что имеет смысл сделать перед сравнением, — это освежить знания основных операторов SQL. Конечно, ты их всех помнишь, но вдруг.Мы рассмотрим оператор SELECT DML (язык манипулирования данными) и все, что с ним связано:
- Сам оператор SELECT контролирует, какие поля необходимо выбрать из таблицы.
- Оператор FROM указывает на таблицу, из которой производится выборка.
- Предложение WHERE фильтрует таблицу на основе значений определенного столбца.
- GROUP BY определяет поля группировки для расчета характеристик агрегирования.
- Предложение ORDER BY сортирует строки таблицы по значениям в каком-то столбце.
Отлично, мы разобрались.
Но причем здесь язык R? Все очень просто — библиотека dplyr языка R позволяет выполнять подобные операции (и даже гораздо более сложные) без необходимости метаться между языками.
Удобство библиотеки dplyr (и всего семейства пакетов tidyverse) обусловлено, прежде всего, ее грамотной архитектурой:
- Библиотека состоит из согласованного набора глаголов, каждый из которых отвечает за определенное действие, а различные их комбинации позволяют осуществлять сложную обработку.
- Функции dplyr работают с данными в парадигме аккуратные данные
- Вы можете использовать конвейеры (конвейер %> %)
В таблице ниже мы показываем, как связаны основные операторы SQL и глаголы dplyr:
Конечно, было бы глупо полагать, что на этом скромном наборе функционал библиотеки dplyr заканчивается.
Не тут-то было, как говорится :) Функций в этом пакете огромное количество, а во вспомогательных пакетах их еще больше (поскольку dplyr все еще является частью экосистемы tidyverse).
Вот некоторые примеры:
Аккуратные данные
Чуть ранее мы упомянули термин «чистые данные».Если вы работаете в сфере анализа данных, то вы с ней на 100% знакомы и основные принципы этой парадигмы знаете как свои пять пальцев.
Но, если вы раньше с этим не сталкивались, мы наглядно объясним смысл понятия «аккуратные данные»:
Перефразируя великого русского писателя с прицелом на анализ данных:
Все «чистые» наборы данных похожи друг на друга, но каждый «грязный» фрейм данных грязен по-своему.Именно это сходство между всеми аккуратными наборами данных делает библиотеку dplyr такой эффективной! Кстати, понятие аккуратных данных рассмотрено более подробно.
Конвейер %> %
Еще одно интересное понятие, наверняка знакомое всем R-программистам, — это конвейер или конвейер %> %.По сути, на этом основана вся работа с пакетами tidyverse. Классический способ за минуту объяснить смысл этой конструкции — показать комический пример.
Пакеты для работы с базами данных
Однако если вы все же очень хотите работать с данными, используя сразу два языка: и R, и SQL, то для вас тоже есть решение.В языке R имеется большое количество пакетов коннекторов для различных баз данных, и вы обязательно найдете что-то по душе.
В опросе могут участвовать только зарегистрированные пользователи.
Войти , Пожалуйста.
Используете ли вы dplyr? 37,5% Да, огонь! 12 31,25% Нет, предпочитаю Python 10 25% Нет, предпочитаю SQL 8 21,88% Использую все сразу, в зависимости от ситуации 7 Проголосовали 32 пользователя.
7 пользователей воздержались.
Теги: #Большие данные #аналитика #Инженерия данных #Интеллектуальный анализ данных #sql #r #анализ #dplyr #tidyverse #rstats #tidy data
-
7 Мифов Об Авторском Праве В Интернете
19 Oct, 24 -
Tostring: Великий И Могущественный
19 Oct, 24 -
О Дешевом Хостинге
19 Oct, 24 -
Антикейлоггер «Для Параноиков» В Safari
19 Oct, 24 -
Обсуждения На Тему «Macbook Touch»
19 Oct, 24 -
Ланднам
19 Oct, 24