Рассматривая различные технологии и решения хранения данных, предлагаемые компанией LSI, мы немного забыли о практическом и практическом смысле всего этого.
Зачем нам постоянно возрастающая скорость и емкость дисков? Одно из первых приложений, которое приходит на ум, — это, конечно же, Big Data или Big Data. Чем эти Большие Данные отличаются от просто больших данных, чтобы их можно было писать с большой буквы? Обычно это называют «правилом трех V».
Объем – логично, что «большие данные» характеризуются прежде всего большими объемами.
Velocity (скорость) – в данном случае имеется в виду как скорость накопления этих данных, так и необходимость высокой скорости обработки.
Разнообразие – данные часто либо плохо структурированы, либо хорошо структурированы, но одновременно приходится обрабатывать множество разных структур.
Сам термин «Большие данные» появился относительно недавно, но уже прочно занял лидирующие позиции в списке тенденций современных ИТ-технологий.
Как это часто бывает, не всегда понятно, что стоит за модным термином, поэтому мы решили разобраться на примерах, первым из которых будет прогноз погоды.
Нас всех интересуют прогнозы погоды: по телевизору, в Интернете, по радио.
Прогнозы могут быть верными или нет, но трудно спорить с простым фактом: чем большим архивом данных, как современных, так и исторических, вы располагаете, тем точнее будут ваши прогнозы на ближайшие часы, дни и даже недели.
Информация о множественных измерениях множества параметров погоды в разных местах является типичным примером больших данных.
Обычно Apache Hadoop используется для анализа огромного количества источников, используемых метеорологами, поскольку его гибкость позволяет создавать масштабируемые инструменты анализа, необходимые для «причесывания» и максимального использования данных.
Специалисты по метеорологическим данным шутят, что погода создает «ливень данных», особенно когда данные собираются по всему миру.
Используя результаты наблюдений, мощнейшие суперкомпьютеры выполняют миллиарды вычислений с целью моделирования реальных процессов, происходящих в атмосфере, с целью получения долгосрочных прогнозов для данной точки Земли.
Самое интересное заключалось в том, что не все модели одинаково хороши.
Хотя моделированием погоды занимаются многие компании и организации, признано, что Европейское общество метеорологов показывает лучшие результаты.
Именно благодаря превосходству в аппаратном и программном обеспечении европейские сайты способны добиться такого успеха.
Американские специалисты в области анализа погоды почти всегда стараются включить в свои расчеты данные коллег из Старого Света, а в случае конфликта их модели с европейской зачастую отдают предпочтение последней.
Это, во-первых, подчеркивает ключевую роль информационных технологий и решений для интеллектуального анализа данных в прогнозах погоды, а во-вторых, показывает нам, что прогнозы погоды часто могут быть буквально вопросом жизни и смерти, поэтому сотрудничество так важно.
Примером такой ситуации стал ураган «Сэнди» — мощный тропический циклон, образовавшийся в конце октября 2012 года и затронувший Ямайку, Кубу, Багамские острова, Гаити, побережье Флориды и впоследствии северо-восток США и восточную Канаду.
Ураган нанес наибольший ущерб северо-востоку США, особенно Нью-Джерси, Нью-Йорку и Коннектикуту, но без полных прогнозов погоды и предсказаний этого урагана ущерб был бы значительно больше.
Почти безоговорочно американские метеорологи признали, что если бы хотя бы один источник данных, каким бы небольшим он ни был, был исключен из анализа движения Сэнди, точность прогнозов (например, важного вопроса о том, где именно ураган обрушится на берег) могла бы значительно снизиться.
сокращается, и это может иметь катастрофические, возможно, даже фатальные последствия для многих людей.
На этом графике вы можете видеть, как через 72 часа модель европейских метеорологов резко вырвалась вперед в прогнозировании действия урагана.
Технология Hadoop хороша для анализа таких больших объемов данных, но при всех своих преимуществах она хороша ровно настолько, насколько это позволяет аппаратное обеспечение систем анализа и обработки данных, и одной из ключевых характеристик, влияющих на эффективность Hadoop, является скорость дисковой подсистемы.
Независимо от того, какие большие данные вы обрабатываете, будь то прогноз погоды или разработка вакцины против гриппа, решения серии Nytro от LSI являются одним из признанных в мире способов ускорить Hadoop. Вы можете узнать больше о том, как Nytro может ускорить Hadoop и другие приложения.
В сети .
Теги: #большие данные #LSI #Большие данные #данные #Большие данные
-
Как Я Боролся Со Спамом И Горем Из Головы
19 Oct, 24 -
Программы Профилирования В Qnx Momentics
19 Oct, 24 -
Как Вы Пишете Комментарии К Коду?
19 Oct, 24