Книга Анализ больших наборов данных была написана экспертами в области баз данных и веб-технологий. С появлением интернет-торговли появилось множество крупных баз данных, из которых требуется извлечь информацию с помощью методов добычи данных (data mining). Эта книга описывает алгоритмы, которые были успешно применены для решения важных задач по добыче данных и могут быть использованы для обработки даже очень больших наборов данных.
В книге рассматривается технология MapReduce - важное средство для параллельной обработки алгоритмов. Описываются алгоритмы хэширования с учетом близости и потоковой обработки данных, которые поступают настолько быстро, что требуют быстрого анализа. В последующих главах книги рассматриваются такие темы, как идея показателя PageRank, нахождение частых предметных наборов и кластеризация.
Во втором издании был добавлен дополнительный материал о социальных сетях, машинном обучении и понижении размерности. Это издание будет полезно как студентам, так и практикующим программистам.
Книга Анализ больших наборов данных - это обширное руководство по работе с крупными наборами данных, написанное ведущими специалистами в области баз данных и веб-технологий. В наше время большие объемы данных становятся все более распространенными, и для извлечения полезной информации из них требуется использовать методы добычи данных.
В этой книге описываются алгоритмы, которые были успешно применены для анализа и извлечения информации из больших наборов данных. Она начинается с описания технологии MapReduce - мощного средства для параллельной обработки алгоритмов. Затем в книге представлены алгоритмы хэширования с учетом близости и потоковой обработки данных, которые помогают обрабатывать данные, поступающие настолько быстро, что традиционные методы не могут справиться с их анализом.
В дальнейшем изложении книги рассматриваются такие темы, как показатель PageRank, частые предметные наборы и кластеризация. Во втором издании книги добавлены новые главы о социальных сетях, машинном обучении и понижении размерности, что делает книгу еще более полезной для специалистов в области анализа данных.
Это обязательная книга для всех, кто работает с большими наборами данных, включая студентов и практикующих программистов, и является важным ресурсом для изучения современных методов анализа данных.
В этой книге Джеффри Д.Ульман описывает анализ больших наборов данных. Если вы еще не знакомы с этим изданием, то я могу рассказать вам о нем. Книга написана ведущими специалистами по базам данных и интернету. Благодаря интернет-торговле появилось много огромных наборов данных, которые требуют применения методов добычи данных для получения нужной информации. В книге описаны алгоритмы, которые использовались для важнейших задач добычи данных, и могут быть успешно применены к большим наборам. Изложение начинается с ознакомления с технологией MapReduce, которая является важным инструментом для распараллеливания алгоритмов. Алгоритмы хеширования, учитывающие близость и обработку данных в потоке, также рассматриваются. По мере продвижения книги, автор переходит к таким темам, как показатель PageRank, поиск частых предметных данных и кластеризация. Второе издание включает дополнительный материал о социальных сетях, машинном обучении и снижении размерности. Книга будет полезна как студентам, так и программистам, работающим с большими наборами данных.
Электронная Книга «Анализ больших наборов данных» написана автором Джеффри Д. Ульман в 2014 году.
Минимальный возраст читателя: 0
Язык: Русский
ISBN: 978-5-97060-190-7
Описание книги от Джеффри Д. Ульман
Эта книга написана ведущими специалистами в области технологий баз данных и веба. Благодаря популярности интернет-торговли появилось много чрезвычайно объемных баз данных, для извлечения информации из которых нужно применять методы добычи данных (data mining). В книге описываются алгоритмы, которые реально использовались для решения важнейших задач добычи данных и могут быть с успехом применены даже к очень большим наборам данных. Изложение начинается с рассмотрения технологии MapReduce – важного средства распараллеливания алгоритмов. Излагаются алгоритмы хэширования с учетом близости и потоковой обработки данных, которые поступают слишком быстро для тщательного анализа. В последующих главах рассматривается идея показателя PageRank, нахождение частых предметных наборов и кластеризация. Во второе издание включен дополнительный материал о социальных сетях, машинном обучении и понижении размерности. Издание будет в равной мере полезна студентам и программистам-практикам.