Небольшой Код Для Больших Данных Или Apache Spark За 3 Дня

Пусть жираф ошибается Но виноват не Жираф, И тот, кто кричал из ветвей: «Жираф большой — он знает лучше!» (С) Нужно было быстро разобраться в технологии Апач Спарк адаптированный для использования больших данных.

В процессе выяснения я активно пользовался хабрахабром, поэтому постараюсь вернуть информационную пользу, поделившись полученным опытом.

А именно: установка системы с нуля, настройка и собственно программирование кода, решающего задачу обработки данных для создания модели, рассчитывающей вероятность банкротства клиента банка на основе набора характеристик, таких как сумма кредита, ставка и т.д. Вроде бы больших данных должно быть много, но почему-то не так-то просто найти ту горячую точку, где все их ищут. Сначала я попробовал вариант с амбари , но на моей Windows7 были ошибки в настройках сетевого моста.

В итоге попробовал вариант с преднастроенной виртуальной машиной от Cloudera ( CDH ).

Просто устанавливаем VirtualBox, запускаем скачанный файл, указываем основные параметры (память, место) и через 5 минут почтенный джинн Апач Хадуп жаждет ваших указаний.

Несколько слов о том, почему Spark. Насколько я понимаю, ключевые отличия от оригинального MapReduce заключаются в том, что данные хранятся в памяти, а не сбрасываются на диск, что дает ускорение во много раз.

Но, пожалуй, более важным является реализация ряда статистических функций и удобный интерфейс загрузки/обработки данных.

Ниже приведен фактический код для решения следующей проблемы.

Там действительно большие данные (потому что рука очень устает прокручивать эти 2000 строк) в формате:

Есть предположение, что значение по умолчанию как-то связано с остальными параметрами (кроме первого, уважаемый Иванов1.Н претензий не имеет) и необходимо построить модель линейной регрессии.

Прежде чем начать, стоит отметить, что это мой первый код на Java, сам работаю аналитиком и вообще это мой первый запуск Eclipse, настройка Maven и т.д. Так что не ждите сложных чудес; ниже представлено простое решение проблемы с использованием метода, который каким-то образом сработал.

Идти: 1. Создайте сеанс Spark. Важным моментом является то, что всё работает только с версией 2.0.0, а CDH идёт с v1.6. Значит нужно обновиться, иначе при запуске будет исключение.

   

 SparkSession ss = SparkSession

Теги: #Большие данные #spark #java #ASP #ASP #Большие данные #Машинное обучение

Небольшой Код Для Больших Данных Или Apache Spark За 3 Дня

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Небольшой Код Для Больших Данных Или Apache Spark За 3 Дня

Настройка Программного Обеспечения Удаленного Рабочего Стола С Помощью Групповой Политики

Как Монетизировать Свой Бесплатный Сайт

Число Пользователей Блокировщиков Рекламы Выросло На 30% И Превысило 600 Миллионов В 2016 Году

Инфраструктура Открытых Ключей: Утилита Генерации Запросов Квалифицированных Сертификатов

Электронные Мультимедийные Ридеры Lexand Lt-115 И Lexand Lt-117

Мы Нанимаем Не Только Крутых Математиков. Новый Способ Поступить В Шад С Опытом Работы В Ит

Пятница: Написание Консольной Утилиты На Go Для Извлечения Гифок С Котиками

«Умная» Детская Коляска «Максимка»

Написание Простого Плагина Для Virtualdub

Так Работает Поиск Заимствований В Антиплагиате

Автор Статьи

Роман Иванов

Интересно

Sigbop Signature Solutions — Программное Обеспечение Для Электронного Маркетинга...

Лазарь: Кто Стоит За Атаками На Систему Банковских Переводов Swift...

Polymer (Полимер) - Программное Обеспечение Для Предотвращения Потери Данных...

Как Работают Pr-Компании...

Ипотечные Лидеры, Подход К Увеличению Продаж...

Как Выбрать Лучшую Партнерскую Программу Казино...

Почему Употребление Горячего Шоколада Может Сделать Вас Лучше...

Dima Manisha