При различных значениях а и b можно построить бесконечное число зависимостей вида yx=a+bx т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.
Линейную функцию a+bx ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов.
Обозначим: Yi - значение, вычисленное по уравнению Yi=a+bxi. yi - измеренное значение, εi=yi-Yi - разность между измеренными и вычисленными по уравнению значениям, εi=yi-a-bxi.
В методе наименьших квадратов требуется, чтобы εi, разность между измеренными yi и вычисленными по уравнению значениям Yi, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:
Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:
Если разделить обе части нормальных уравнений на n, то получим:
Учитывая, что (3)
Получим , отсюда , подставляя значение a в первое уравнение, получим:
При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии и вычисляют по формуле:
Полученная прямая является оценкой для теоретической линии регрессии. Имеем:
Итак, является уравнением линейной регрессии.
Регрессия может быть прямой (b>0) и обратной (b<0). Прямая регрессия означает, что при росте одного параметра, значения другого параметра тоже увеличиваются. А обратная, что при росте одного параметра, значения другого параметра уменьшаются.
Пример 1. Результаты измерения величин X и Y даны в таблице:
xi | -2 | 0 | 1 | 2 | 4 |
yi | 0.5 | 1 | 1.5 | 2 | 3 |
Предполагая, что между X и Y существует линейная зависимость y=a+bx, способом наименьших квадратов определить коэффициенты a и b.
Решение. Здесь n=5
xi=-2+0+1+2+4=5;
xi2=4+0+1+4+16=25
xiyi=-2•0.5+0•1+1•1.5+2•2+4•3=16.5
yi=0.5+1+1.5+2+3=8
и нормальная система (2) имеет вид
Решая эту систему, получим: b=0.425, a=1.175. Поэтому y=1.175+0.425x.
Пример 2. Имеется выборка из 10 наблюдений экономических показателей (X) и (Y).
xi | 180 | 172 | 173 | 169 | 175 | 170 | 179 | 170 | 167 | 174 |
yi | 186 | 180 | 176 | 171 | 182 | 166 | 182 | 172 | 169 | 177 |
Требуется найти выборочное уравнение регрессии Y на X. Построить выборочную линию регрессии Y на X.
Решение. 1. Проведем упорядочивание данных по значениям xi и yi. Получаем новую таблицу:
xi | 167 | 169 | 170 | 170 | 172 | 173 | 174 | 175 | 179 | 180 |
yi | 169 | 171 | 166 | 172 | 180 | 176 | 177 | 182 | 182 | 186 |
Для упрощения вычислений составим расчетную таблицу, в которую занесем необходимые численные значения.
xi | yi | xi2 | xiyi |
167 | 169 | 27889 | 28223 |
169 | 171 | 28561 | 28899 |
170 | 166 | 28900 | 28220 |
170 | 172 | 28900 | 29240 |
172 | 180 | 29584 | 30960 |
173 | 176 | 29929 | 30448 |
174 | 177 | 30276 | 30798 |
175 | 182 | 30625 | 31850 |
179 | 182 | 32041 | 32578 |
180 | 186 | 32400 | 33480 |
∑xi=1729 | ∑yi=1761 | ∑xi2299105 | ∑xiyi=304696 |
x=172.9 | y=176.1 | xi2=29910.5 | xy=30469.6 |
Согласно формуле (4), вычисляем коэффициента регрессии
а по формуле (5)
Таким образом, выборочное уравнение регрессии имеет вид y=-59.34+1.3804x.
Нанесем на координатной плоскости точки (xi; yi) и отметим прямую регрессии.
Рис 4
На рис.4 видно, как располагаются наблюдаемые значения относительно линии регрессии. Для численной оценки отклонений yi от Yi, где yi наблюдаемые, а Yi определяемые регрессией значения, составим таблицу:
xi | yi | Yi | Yi-yi |
167 | 169 | 168.055 | -0.945 |
169 | 171 | 170.778 | -0.222 |
170 | 166 | 172.140 | 6.140 |
170 | 172 | 172.140 | 0.140 |
172 | 180 | 174.863 | -5.137 |
173 | 176 | 176.225 | 0.225 |
174 | 177 | 177.587 | 0.587 |
175 | 182 | 178.949 | -3.051 |
179 | 182 | 184.395 | 2.395 |
180 | 186 | 185.757 | -0.243 |
Значения Yi вычислены согласно уравнению регрессии.
Заметное отклонение некоторых наблюдаемых значений от линии регрессии объясняется малым числом наблюдений. При исследовании степени линейной зависимости Y от X число наблюдений учитывается. Сила зависимости определяется величиной коэффициента корреляции.
Andrei-K 22.05.2011 17:16 Для студентов, аспирантов и исследователей, которые по характеру своей деятельности много занимаются обработкой экспериментальных данных, теперь есть удобная возможность выполнять онлайн расчет параметров линейной зависимости по методу наименьших квадратов. Наряду с самими параметрами, вычисляются их погрешности (стандартные отклонения), коэффициент корреляции, дисперсия адекватности, критерий Фишера и другие статистические характеристики.
|