R-Глаголы Против Операторов Sql

Какой язык использовать для анализа данных — самая избитая и больная тема.

Именно поэтому мы объединились с Алексеем Селезневым, руководителем аналитики Netpeak и автором телеграм-канал R4Marketing и подготовил сравнение операторов SQL и глаголов языка R. Для удобства и портативности мы сделали это в карточках.

Каждый день мы публикуем еще больше интересных материалов по программированию и анализу данных в нашем телеграмма канал и в группа ВК .

Возможно, вы найдете что-то интересное для себя.

Однако в точку!

R-глаголы против операторов SQL



R против SQL

Первое, что имеет смысл сделать перед сравнением, — это освежить знания основных операторов SQL. Конечно, ты их всех помнишь, но вдруг.

Мы рассмотрим оператор SELECT DML (язык манипулирования данными) и все, что с ним связано:

  1. Сам оператор SELECT контролирует, какие поля необходимо выбрать из таблицы.

  2. Оператор FROM указывает на таблицу, из которой производится выборка.

  3. Предложение WHERE фильтрует таблицу на основе значений определенного столбца.

  4. GROUP BY определяет поля группировки для расчета характеристик агрегирования.

  5. Предложение ORDER BY сортирует строки таблицы по значениям в каком-то столбце.



R-глаголы против операторов SQL

Отлично, мы разобрались.

Но причем здесь язык R? Все очень просто — библиотека dplyr языка R позволяет выполнять подобные операции (и даже гораздо более сложные) без необходимости метаться между языками.

Удобство библиотеки dplyr (и всего семейства пакетов tidyverse) обусловлено, прежде всего, ее грамотной архитектурой:

  1. Библиотека состоит из согласованного набора глаголов, каждый из которых отвечает за определенное действие, а различные их комбинации позволяют осуществлять сложную обработку.

  2. Функции dplyr работают с данными в парадигме аккуратные данные
  3. Вы можете использовать конвейеры (конвейер %> %)


R-глаголы против операторов SQL

В таблице ниже мы показываем, как связаны основные операторы SQL и глаголы dplyr:

R-глаголы против операторов SQL

Конечно, было бы глупо полагать, что на этом скромном наборе функционал библиотеки dplyr заканчивается.

Не тут-то было, как говорится :) Функций в этом пакете огромное количество, а во вспомогательных пакетах их еще больше (поскольку dplyr все еще является частью экосистемы tidyverse).

Вот некоторые примеры:

R-глаголы против операторов SQL



Аккуратные данные

Чуть ранее мы упомянули термин «чистые данные».

Если вы работаете в сфере анализа данных, то вы с ней на 100% знакомы и основные принципы этой парадигмы знаете как свои пять пальцев.

Но, если вы раньше с этим не сталкивались, мы наглядно объясним смысл понятия «аккуратные данные»:

R-глаголы против операторов SQL



R-глаголы против операторов SQL

Перефразируя великого русского писателя с прицелом на анализ данных:

Все «чистые» наборы данных похожи друг на друга, но каждый «грязный» фрейм данных грязен по-своему.

Именно это сходство между всеми аккуратными наборами данных делает библиотеку dplyr такой эффективной! Кстати, понятие аккуратных данных рассмотрено более подробно.

В этой статье.



Конвейер %> %

Еще одно интересное понятие, наверняка знакомое всем R-программистам, — это конвейер или конвейер %> %.

По сути, на этом основана вся работа с пакетами tidyverse. Классический способ за минуту объяснить смысл этой конструкции — показать комический пример.



R-глаголы против операторов SQL



Пакеты для работы с базами данных

Однако если вы все же очень хотите работать с данными, используя сразу два языка: и R, и SQL, то для вас тоже есть решение.

В языке R имеется большое количество пакетов коннекторов для различных баз данных, и вы обязательно найдете что-то по душе.



R-глаголы против операторов SQL

В опросе могут участвовать только зарегистрированные пользователи.

Войти , Пожалуйста.

Используете ли вы dplyr? 37,5% Да, огонь! 12 31,25% Нет, предпочитаю Python 10 25% Нет, предпочитаю SQL 8 21,88% Использую все сразу, в зависимости от ситуации 7 Проголосовали 32 пользователя.

7 пользователей воздержались.

Теги: #Большие данные #аналитика #Инженерия данных #Интеллектуальный анализ данных #sql #r #анализ #dplyr #tidyverse #rstats #tidy data

Вместе с данным постом часто просматривают: