Menu
Линейная регрессия. Использование метода наименьших квадратов (МНК)
Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от У), например, линейную модель yx=a+bx, необходимо определить конкретные значения коэффициентов модели.

При различных значениях а и b можно построить бесконечное число зависимостей вида yx=a+bx т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.

Линейную функцию a+bx ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов.

Обозначим: Yi - значение, вычисленное по уравнению Yi=a+bxi. yi - измеренное значение, εi=yi-Yi - разность между измеренными и вычисленными по уравнению значениям, εi=yi-a-bxi.

В методе наименьших квадратов требуется, чтобы εi, разность между измеренными yi и вычисленными по уравнению значениям Yi, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:

Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:

(2)

Если разделить обе части нормальных уравнений на n, то получим:

Учитывая, что (3)

Получим , отсюда , подставляя значение a в первое уравнение, получим:

При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии и вычисляют по формуле:

Полученная прямая является оценкой для теоретической линии регрессии. Имеем:

Итак, является уравнением линейной регрессии.

Регрессия может быть прямой (b>0) и обратной (b<0). Прямая регрессия означает, что при росте одного параметра, значения другого параметра тоже увеличиваются. А обратная, что при росте одного параметра, значения другого параметра уменьшаются.

Пример 1. Результаты измерения величин X и Y даны в таблице:

xi -2 0 1 2 4
yi 0.5 1 1.5 2 3

Предполагая, что между X и Y существует линейная зависимость y=a+bx, способом наименьших квадратов определить коэффициенты a и b.

Решение. Здесь n=5
xi=-2+0+1+2+4=5;
xi2=4+0+1+4+16=25
xiyi=-2•0.5+0•1+1•1.5+2•2+4•3=16.5
yi=0.5+1+1.5+2+3=8

и нормальная система (2) имеет вид

Решая эту систему, получим: b=0.425, a=1.175. Поэтому y=1.175+0.425x.

Пример 2. Имеется выборка из 10 наблюдений экономических показателей (X) и (Y).

xi 180 172 173 169 175 170 179 170 167 174
yi 186 180 176 171 182 166 182 172 169 177

Требуется найти выборочное уравнение регрессии Y на X. Построить выборочную линию регрессии Y на X.

Решение. 1. Проведем упорядочивание данных по значениям xi и yi. Получаем новую таблицу:

xi 167 169 170 170 172 173 174 175 179 180
yi 169 171 166 172 180 176 177 182 182 186

Для упрощения вычислений составим расчетную таблицу, в которую занесем необходимые численные значения.

xi yi xi2 xiyi
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑xi=1729 ∑yi=1761 ∑xi2299105 ∑xiyi=304696
x=172.9 y=176.1 xi2=29910.5 xy=30469.6

Согласно формуле (4), вычисляем коэффициента регрессии

а по формуле (5)

Таким образом, выборочное уравнение регрессии имеет вид y=-59.34+1.3804x.
Нанесем на координатной плоскости точки (xi; yi) и отметим прямую регрессии.


Рис 4

На рис.4 видно, как располагаются наблюдаемые значения относительно линии регрессии. Для численной оценки отклонений yi от Yi, где yi наблюдаемые, а Yi определяемые регрессией значения, составим таблицу:

xi yi Yi Yi-yi
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Значения Yi вычислены согласно уравнению регрессии.

Заметное отклонение некоторых наблюдаемых значений от линии регрессии объясняется малым числом наблюдений. При исследовании степени линейной зависимости Y от X число наблюдений учитывается. Сила зависимости определяется величиной коэффициента корреляции.

Andrei-K   22.05.2011 17:16
Для студентов, аспирантов и исследователей, которые по характеру своей деятельности много занимаются обработкой экспериментальных данных, теперь есть удобная возможность выполнять онлайн расчет параметров линейной зависимости по методу наименьших квадратов. Наряду с самими параметрами, вычисляются их погрешности (стандартные отклонения), коэффициент корреляции, дисперсия адекватности, критерий Фишера и другие статистические характеристики.
Имя *:
Email:
Код *: