Автор книги "A Data Scientist’s Guide To Acquiring,Cleaning And Managing Data In R" - автор Lyn Whitaker Книга описывает основные этапы приобретения, очистки и управления данными в R с систематическим подходом.

Вначале авторы объясняют, как определить вид данных и каким образом он должен выглядеть. Далее следуют шаги для получения данных, готовых для моделирования. Авторы раскрывают лучшие практики в сфере приобретения данных из различных источников, ключевые проблемы в обработке

Единственный учебник, предлагающий унифицированный, систематизированный подход к сбору, обработке и управлению данными в Р. Каждый опытный эксперт знает, что подготовка данных для моделирования связана с трудоемким и отнимающим время процессом. Формирование этой проблемы обусловлено тем, что большинство модельеров узнают о шагах, связанных с обработкой и управлением данными постепенно, иногда спонтанно, или используют собственные методы, не опираясь на систему. Эта книга помогает облегчить задачу, предлагая унифицированный и систематический подход к процессу сбора, анализа, преобразования, обработки и сохранения данных в R. Начиная с основной темы, ученые-практики Сэмюэль Э. Баттри и Лин Р. Уитэйкер проведут читателей через весь процесс. Они расскажут вам об источниках данных, о том, какими должны быть данные, они смогут пройти через каждый шаг, чтобы получить данные, готовые для расчетов. Они опишут лучшие практики для получения данных из различных источников, предложат понятные процессы для работы с данными, упоминают проблемы с огромными объемами данных, параллельным вычислениями, сложением, соответствием и проверкой на наличие дубликатов. Они также опишут надежные и эффективные методы для того, чтобы задокументировать процесс работы с данными и вести учет, включая следы аудита, предоставление данных обратно в R и другое. Вашему вниманию предлагается единственный источник книги про данные и их обработку, который поможет вам изучить лучшие практик для приобретения, обработки, очистки и поддержания данных. Книга начинается с основ и проводит читателей через все шаги, которые необходимы, чтобы подготовить данные для процесса расчета. Она предлагает профессиональные советы о том, каким образом документировать описанный процесс, чтобы его было легко воспроизвести. Поскольку книга написана опытными экспертами, она предоставляет как вводные, так и продвинутые методы. Вы можете найти успешные случаи с данными и соответствующим кодом R на веб-сайте, связанном с книгой. Книга «Руководство для специалиста по данным о получении, очистке и управлении данными в R» однозначно будет полезной офигенным работающим ресурсом и руководством для экспертов по сбору и анализу данных, научных исследователей различного уровня опыта и студентов по специальности обработки данных магистерского уровня.

This is a great book if you're looking for a comprehensive resource on data acquisition, preparation, and management in the context of the R statistical programming language. You'll be guided through step-by-step examples of acquiring and managing datasets in various forms, including raw data files, databases, and even web sources. For each kind of data, you'll hear practical tips on prepossessing (i.e., cleaning, encoding, formatting) your data so that it's ready to be analyzed, including dealing with challenges such as duplicate entries, messy text, and integrating disparate sources. As an added bonus, this guide offers some insight into the inner workings of data manipulation using R itself, providing insight into how such operations can be efficiently and reliably performed. The step-by-step case study examples give a flavor of what real-world applications of these skills might look like. Overall, this book is a well-rounded guide that will help improve any data scientist's toolkit.

Электронная Книга «A Data Scientist's Guide to Acquiring, Cleaning, and Managing Data in R» написана автором Lyn Whitaker R. в году.

Минимальный возраст читателя: 0

Язык: Английский

ISBN: 9781119080077


Описание книги от Lyn Whitaker R.

The only how-to guide offering a unified, systemic approach to acquiring, cleaning, and managing data in R Every experienced practitioner knows that preparing data for modeling is a painstaking, time-consuming process. Adding to the difficulty is that most modelers learn the steps involved in cleaning and managing data piecemeal, often on the fly, or they develop their own ad hoc methods. This book helps simplify their task by providing a unified, systematic approach to acquiring, modeling, manipulating, cleaning, and maintaining data in R. Starting with the very basics, data scientists Samuel E. Buttrey and Lyn R. Whitaker walk readers through the entire process. From what data looks like and what it should look like, they progress through all the steps involved in getting data ready for modeling. They describe best practices for acquiring data from numerous sources; explore key issues in data handling, including text/regular expressions, big data, parallel processing, merging, matching, and checking for duplicates; and outline highly efficient and reliable techniques for documenting data and recordkeeping, including audit trails, getting data back out of R, and more. The only single-source guide to R data and its preparation, it describes best practices for acquiring, manipulating, cleaning, and maintaining data Begins with the basics and walks readers through all the steps necessary to get data ready for the modeling process Provides expert guidance on how to document the processes described so that they are reproducible Written by seasoned professionals, it provides both introductory and advanced techniques Features case studies with supporting data and R code, hosted on a companion website A Data Scientist's Guide to Acquiring, Cleaning and Managing Data in R is a valuable working resource/bench manual for practitioners who collect and analyze data, lab scientists and research associates of all levels of experience, and graduate-level data mining students.



Похожие книги

Информация о книге