Применение пакета статистических программ в психологических исследованиях - Учебное пособие (Беребин М.А.)

4.3. многофакторный регрессионный анализ (multiple regression)

 

4.3.1. Общие идеи метода

 

Метод многофакторного регрессионного анализа позволяет исследовать данные в предположении зависимости одной переменной из некоторого набора (исходная, зависимая, результирующая переменная, целевая функция) от остальных переменных этого набора (независимые, исходные переменные). Исходя из предположения о линейной взаимосвязи между зависимой и независимыми переменными, основные гипотезы метода сформулированы следующим образом:

– одна из переменных (целевая функция) отражает результат комплексного воздействия факторов – остальных переменных (исходных);

– какая-либо переменная отражает причину появления ряда признаков, представленных остальными переменными.

Метод позволяет получить ответы на следующие вопросы:

1) В какой мере одна переменная из некоторого набора, выбранная как целевая функция (зависимая переменная), зависит от остальных переменных, (выступающих в качестве исходных, независимых переменных)?

2) Насколько точно можно оценить (предсказать) целевую функцию (зависимую переменную) исходя из значений независимых, исходных переменных?

3) Какой вклад вносит каждая из исходных (независимых) переменных в оценку целевой функции?

4) Как оценить пропущенное значение целевой функции по известным значениям независимых переменных?

Метод позволяет решить задачу множественного предсказания зависимой переменной Y («целевой функции») по m независимым («исходным») переменным xi.

Исходными данными для множественного регрессионного анализа является вся матрица корреляций между y+x переменными. В том случае, если возникает необходимость оценить пропущенные значения в исходном массиве данных, то в качестве промежуточного этапа исследований необходимо сформировать матрицу z-преобразованных исходных данных. Результатом этого этапа являются z-значения целевой функции.

 

4.3.2. Математико-статистические идеи метода

 

Исходным пунктом анализа является представление о разложимости полной дисперсии признака на дисперсию, обусловленную взаимосвязью этого признака (целевой функции) с остальными переменными данного набора (независимыми, исходными переменными) и остаточную, характерную дисперсию (дисперсию ошибки оценивания).

Другим исходным положением является возможность представления значения целевой функции Y через m исходных признаков x1,...,xm в виде линейного уравнения с коэффициентами b1, ...,bm:

Y= b0+b1*x1+b2*x2+...+bm*xm+c,

где c – ошибка оценки;

     b0,b1,...,bm– коэффициенты регрессии, оцениваемые методом наименьших квадратов ( при решении систем из m линейных уравнений).

Важным моментом является исчисление произведения коэффициента регрессии переменной x на корреляцию этой переменной с целевой функцией r , которое определяет вклад переменной xm в дисперсию целевой функции. Этот вклад состоит из двух частей:

а) вклад, обусловленный только данной переменной;

б) вклад, обусловленный взаимосвязью этой переменной с остальными исходными переменными.

Одно из основных положений метода постулирует то, что полная дисперсия целевой функции имеет вид:

dy=b1*r1+b2*r2+...+bm*rm+e=1,

где e – дисперсия ошибки.

Другим важным положением является определение коэффициента множественной детерминации (кмд):

кмд=1– е=b1*r1+b2*r2+...+bm*rm,

где кмд – коэффициент множественной детерминации, т.е. часть дисперсии целевой функции, определяемая исходными переменными.

Например, значение кмд=0,64 свидетельствует о том, что 64\% дисперсии целевой функции определяется исходными переменными, а 36\% падает на дисперсию ошибки оценки.

Коэффициент множественной корреляции (кмк) целевой функции с набором исходных переменных равен квадратному корню из коэффициента множественной детерминации кмд. При этом и кмк, и кмд принимают только положительные значения.

Предпосылкой большей успешности применения метода является исследовательская ситуация, при которой исходные переменные относительно слабо связаны между собой и более сильно связаны с целевой функцией. Наличие сильных взаимосвязей между исходными переменными приводит к тому, что получаемое при этом решение (линейная регрессионная многопараметрическая модель) не отличается хорошей информативностью либо такового решения может не существовать. Для устранения этого недостатка можно провести корреляционный анализ по К. Пирсону и исключить из анализа одну или несколько переменных, обнаруживающих попарно сильные корреляции с другими переменными исходного набора, а затем повторить анализ.

Основными результатами применения метода являются:

Упорядочение переменных по их вкладу в оценку целевой функции.

Определение коэффициента множественной детерминации, накапливаемого с добавлением каждой последующей переменной х.

Определение коэффициента множественной корреляции целевой функции с исходными переменными.

Значимость полученной линейной регрессионной модели определяется по величине кмк либо по соответствующим таблицам, либо по F-критерию Фишера, вычисленного после соответствующего пересчета кмк.

Полученные коэффициенты регрессии позволяют вычислить оценки целевой функции по уравнению регрессии Y=b1*x1+b2*x2+...+bm*xm+c.

Эти оценки могут использоваться для восстановления значения признака – целевой функции путем замены пропущенных и аномальных значений. При этом осуществляется переход от z-оценок к исходному виду данных в соответствии с известной в психометрике формулы:

x=(z*s)+хср,

где s – оценка стандартного отклонения (сигмы),

 хср – выборочное среднее.