4.3. многофакторный регрессионный анализ (multiple regression)
4.3.1. Общие идеи метода
Метод многофакторного регрессионного анализа позволяет исследовать данные в предположении зависимости одной переменной из некоторого набора (исходная, зависимая, результирующая переменная, целевая функция) от остальных переменных этого набора (независимые, исходные переменные). Исходя из предположения о линейной взаимосвязи между зависимой и независимыми переменными, основные гипотезы метода сформулированы следующим образом: – одна из переменных (целевая функция) отражает результат комплексного воздействия факторов – остальных переменных (исходных); – какая-либо переменная отражает причину появления ряда признаков, представленных остальными переменными. Метод позволяет получить ответы на следующие вопросы: 1) В какой мере одна переменная из некоторого набора, выбранная как целевая функция (зависимая переменная), зависит от остальных переменных, (выступающих в качестве исходных, независимых переменных)? 2) Насколько точно можно оценить (предсказать) целевую функцию (зависимую переменную) исходя из значений независимых, исходных переменных? 3) Какой вклад вносит каждая из исходных (независимых) переменных в оценку целевой функции? 4) Как оценить пропущенное значение целевой функции по известным значениям независимых переменных? Метод позволяет решить задачу множественного предсказания зависимой переменной Y («целевой функции») по m независимым («исходным») переменным xi. Исходными данными для множественного регрессионного анализа является вся матрица корреляций между y+x переменными. В том случае, если возникает необходимость оценить пропущенные значения в исходном массиве данных, то в качестве промежуточного этапа исследований необходимо сформировать матрицу z-преобразованных исходных данных. Результатом этого этапа являются z-значения целевой функции.
4.3.2. Математико-статистические идеи метода
Исходным пунктом анализа является представление о разложимости полной дисперсии признака на дисперсию, обусловленную взаимосвязью этого признака (целевой функции) с остальными переменными данного набора (независимыми, исходными переменными) и остаточную, характерную дисперсию (дисперсию ошибки оценивания). Другим исходным положением является возможность представления значения целевой функции Y через m исходных признаков x1,...,xm в виде линейного уравнения с коэффициентами b1, ...,bm: Y= b0+b1*x1+b2*x2+...+bm*xm+c, где c – ошибка оценки; b0,b1,...,bm– коэффициенты регрессии, оцениваемые методом наименьших квадратов ( при решении систем из m линейных уравнений). Важным моментом является исчисление произведения коэффициента регрессии переменной x на корреляцию этой переменной с целевой функцией r , которое определяет вклад переменной xm в дисперсию целевой функции. Этот вклад состоит из двух частей: а) вклад, обусловленный только данной переменной; б) вклад, обусловленный взаимосвязью этой переменной с остальными исходными переменными. Одно из основных положений метода постулирует то, что полная дисперсия целевой функции имеет вид: dy=b1*r1+b2*r2+...+bm*rm+e=1, где e – дисперсия ошибки. Другим важным положением является определение коэффициента множественной детерминации (кмд): кмд=1– е=b1*r1+b2*r2+...+bm*rm, где кмд – коэффициент множественной детерминации, т.е. часть дисперсии целевой функции, определяемая исходными переменными. Например, значение кмд=0,64 свидетельствует о том, что 64\% дисперсии целевой функции определяется исходными переменными, а 36\% падает на дисперсию ошибки оценки. Коэффициент множественной корреляции (кмк) целевой функции с набором исходных переменных равен квадратному корню из коэффициента множественной детерминации кмд. При этом и кмк, и кмд принимают только положительные значения. Предпосылкой большей успешности применения метода является исследовательская ситуация, при которой исходные переменные относительно слабо связаны между собой и более сильно связаны с целевой функцией. Наличие сильных взаимосвязей между исходными переменными приводит к тому, что получаемое при этом решение (линейная регрессионная многопараметрическая модель) не отличается хорошей информативностью либо такового решения может не существовать. Для устранения этого недостатка можно провести корреляционный анализ по К. Пирсону и исключить из анализа одну или несколько переменных, обнаруживающих попарно сильные корреляции с другими переменными исходного набора, а затем повторить анализ. Основными результатами применения метода являются: Упорядочение переменных по их вкладу в оценку целевой функции. Определение коэффициента множественной детерминации, накапливаемого с добавлением каждой последующей переменной х. Определение коэффициента множественной корреляции целевой функции с исходными переменными. Значимость полученной линейной регрессионной модели определяется по величине кмк либо по соответствующим таблицам, либо по F-критерию Фишера, вычисленного после соответствующего пересчета кмк. Полученные коэффициенты регрессии позволяют вычислить оценки целевой функции по уравнению регрессии Y=b1*x1+b2*x2+...+bm*xm+c. Эти оценки могут использоваться для восстановления значения признака – целевой функции путем замены пропущенных и аномальных значений. При этом осуществляется переход от z-оценок к исходному виду данных в соответствии с известной в психометрике формулы: x=(z*s)+хср, где s – оценка стандартного отклонения (сигмы), хср – выборочное среднее.
|
|
Читать: 1.1. системные требования
