Говорят, нелинейная аппроксимация — это искусство, но с обычной линейной аппроксимацией иногда все не так просто.
Многие, наверное, помнят, что самый простой и точный метод построения прямых наименьших квадратов – это использование «прозрачной линейки на глаз».
Раньше, когда расчеты производились на калькуляторах, этот метод позволял сэкономить многие часы монотонных вычислений, но теперь для заведомо линейных процессов это уже не актуально; даже Excel может мгновенно рассчитать и сделать приближения.
Однако при решении реальных задач часто приходится иметь дело с процессами, модель которых неизвестна.
В таких случаях может оказаться целесообразным построить кусочно-линейные аппроксимации.
И здесь, когда точных критериев построения просто не существует, вновь становится актуальным метод «прозрачной линейки», основанный на «искусстве приближения» (по-простому – интуиции).
Распечатка графиков и рисование на них прямых линий карандашом и прозрачной линейкой по-прежнему работает (а иногда рисовать так даже весело).
И здесь мы воспользуемся Gnuplot — он хорошо рисует данные в различных представлениях, умеет рассчитывать приближения и при этом оставляет пользователю достаточно места для маневра.
В качестве примера «жизненных» данных с неизвестной моделью рассмотрим временную динамику индекса массы тела (ИМТ) девушек месяца Playboy. Задача — уловить общие тенденции в динамике.
Исходные данные взяты из статьи Вадима Маркова (@BubaVV) «Корреляции для начинающих» .
Ссылка на файлы для построения картинок в Gnuplot будет приведена ниже.
Небольшое примечание к данным: по смыслу данных по оси X отложено время (месяцы), но чтобы не усложнять задачу, мы будем использовать не время, а просто порядковый номер записи.
Начнем с построения набора существующих точек и рисования линейного тренда по всем точкам.
Сразу отметим проблемные места знаком вопроса.
С линейным приближением явно что-то не так; похоже, что тенденция менялась в ходе процесса.
Построим квадратичную аппроксимацию, позволяющую уловить изменение угла наклона прямых.
Квадратичная аппроксимация выглядит лучше (ну плюс один параметр).
Видно, что линейный тренд меняется в середине сета; давайте отметим эту область цветным кружком.
Слева от круга — один тип динамики, справа — другой; для лучшего восприятия мы также отметим правую и левую области разными цветами.
Точки в левой области аппроксимируем одной прямой, а в правой области — другой.
При этом вместо абстрактных чисел по оси X поставим отметки времени; нам не нужно много подробностей, отметим несколько лет.
Теперь, по крайней мере на первый взгляд, аппроксимация прямой линии вполне хороша; значения параметров линии можно взять из файла журнала, который Gnuplot записывает в процессе аппроксимации.
Краткое содержание.
Ничего не вычисляя, просто глядя на графики и рисуя линии, мы определили основные тенденции динамики модели.
Кстати, интересно, что произошло примерно в 1985 году, что в моду стали входить девушки с более высоким ИМТ? ПС.
Все данные и файлы для построения картинок в Gnuplot можно скачать по ссылке: Drive.google.com/file/d/0BwHQSqFOG-7lU1BfbkdqTTFxdkU/viewЭusp=sharing П.
П.
С.
Просто ради интереса, вот как будет выглядеть аппроксимация полиномом 4-й степени.
Судя по графику, имеет смысл посмотреть, не появляется ли снова в моде тенденция на более тонкие модели.
Теги: #линейная регрессия #gnuplot #анализ данных #Интеллектуальный анализ данных #Визуализация данных
-
Гилберт, Дэвид
19 Oct, 24 -
Выпущен Unreal Engine 4.8
19 Oct, 24 -
24-Й Подкаст Петербургской Группы Alt.net
19 Oct, 24 -
Вконтактеid: Простое Расширение Регистрации
19 Oct, 24 -
Доступ К Серверу Разработки Asp.net Из Сети
19 Oct, 24