Небольшой Код Для Больших Данных Или Apache Spark За 3 Дня

Пусть жираф ошибается Но виноват не Жираф, И тот, кто кричал из ветвей: «Жираф большой — он знает лучше!» (С) Нужно было быстро разобраться в технологии Апач Спарк адаптированный для использования больших данных.

В процессе выяснения я активно пользовался хабрахабром, поэтому постараюсь вернуть информационную пользу, поделившись полученным опытом.

А именно: установка системы с нуля, настройка и собственно программирование кода, решающего задачу обработки данных для создания модели, рассчитывающей вероятность банкротства клиента банка на основе набора характеристик, таких как сумма кредита, ставка и т.д. Вроде бы больших данных должно быть много, но почему-то не так-то просто найти ту горячую точку, где все их ищут. Сначала я попробовал вариант с амбари , но на моей Windows7 были ошибки в настройках сетевого моста.

В итоге попробовал вариант с преднастроенной виртуальной машиной от Cloudera ( CDH ).

Просто устанавливаем VirtualBox, запускаем скачанный файл, указываем основные параметры (память, место) и через 5 минут почтенный джинн Апач Хадуп жаждет ваших указаний.

Несколько слов о том, почему Spark. Насколько я понимаю, ключевые отличия от оригинального MapReduce заключаются в том, что данные хранятся в памяти, а не сбрасываются на диск, что дает ускорение во много раз.

Но, пожалуй, более важным является реализация ряда статистических функций и удобный интерфейс загрузки/обработки данных.

Ниже приведен фактический код для решения следующей проблемы.

Там действительно большие данные (потому что рука очень устает прокручивать эти 2000 строк) в формате:

Небольшой код для больших данных или Apache Spark за 3 дня

Есть предположение, что значение по умолчанию как-то связано с остальными параметрами (кроме первого, уважаемый Иванов1.Н претензий не имеет) и необходимо построить модель линейной регрессии.

Прежде чем начать, стоит отметить, что это мой первый код на Java, сам работаю аналитиком и вообще это мой первый запуск Eclipse, настройка Maven и т.д. Так что не ждите сложных чудес; ниже представлено простое решение проблемы с использованием метода, который каким-то образом сработал.

Идти: 1. Создайте сеанс Spark. Важным моментом является то, что всё работает только с версией 2.0.0, а CDH идёт с v1.6. Значит нужно обновиться, иначе при запуске будет исключение.

   

SparkSession ss = SparkSession

Теги: #Большие данные #spark #java #ASP #ASP #Большие данные #Машинное обучение
Вместе с данным постом часто просматривают: