Факторный анализ позволяет установить. Как используется факторный анализ. Введение в факторный анализ

Функционирование любой социально-экономической системы (к которым относится и действующее предприятие) происходит в условиях сложного взаимодействия комплекса внутренних и внешних факторов. Фактор - это причина, движущая сила какого-либо процесса или явления, определяющая его характер или одну из основных черт.

Под факторным анализом понимается методика комплексного и системного изучения и измерения воздействия факторов на величину результативных показателей.

В общем случае можно выделить следующие основные этапы(задачи) факторного анализа:

    Постановка цели анализа.

    Отбор факторов, определяющих исследуемые результативные показатели.

    Классификация и систематизация факторов с целью обеспечения комплексного и системного подхода к исследованию их влияния на результаты хозяйственной деятельности.

    Определение формы зависимости между факторами и результативным показателем.

    Моделирование взаимосвязей между результативным и факторными показателями.

    Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.

Работа с факторной моделью (практическое ее использование для управления экономическими процессами).

Иначе говоря, задача метода - переход от реального большого числа признаков или причин определяющих наблюдаемую изменчивость к небольшому числу наиболее важных переменных (факторов) с минимальной потерей информации (близкие по сути, но не по математическому аппарату методы - компонентный анализ, канонический анализ и др.).

Метод возник и первоначально разрабатывался в задачах психологии и антропологии (рубеж 19 и 20 вв.), но сейчас область его приложения значительно шире.

Назначение факторного анализа

Факторный анализ - определение влияния факторов на результат - является одним из сильнейших методических решений в анализе хозяйственной деятельности компаний для принятия решений. Для руководителей - дополнительный аргумент, дополнительный "угол зрения".

Целесообразность применения факторного анализа

Как известно, анализировать можно все и до бесконечности. Целесообразно на первом этапе реализовать анализ по отклонениям, а там где это необходимо и оправдано - применить факторный метод анализа. Во многих случаях простого анализа по отклонениям достаточно, чтобы понять, что отклонение «критическое», и когда совсем не обязательно знать степень его влияния.

Факторы делятся на внутренние и внешние , в зависимости от того, влияет на них деятельность данного предприятия или нет. При анализе основное внимание уделяется внутренним факторам, на которые предприятие может воздействовать.

Факторы подразделяются на объективные, не зависящие от воли и желаний людей, и субъективные, подверженные влиянию деятельности юридических и физических лиц.

По степени распространенности факторы делятся на общие и специфические. Общие факторы действуют во всех отраслях экономики. Специфические факторы действуют в пределах отдельной отрасли или конкретного предприятия.

Виды факторного анализа

Существуют следующие типы факторного анализа:

1) Детерминированный (функциональный) – результативный показатель представлен в виде произведения, частного или алгебраической суммы факторов.

2) Стохастический (корреляционный) – связь между результативным и факторными показателями является неполной или вероятностной.

3) Прямой (дедуктивный) – от общего к частному.

4) Обратный (индуктивный) – от частного к общему.

5) Одноступенчатый и многоступенчатый.

6) Статический и динамический.

7) Ретроспективный и перспективный.

В зависимости от типа факторной модели различают два основных вида факторного анализа - детерминированный и стохастический.

Детерминированный факторный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер, т. е. когда результативный показатель факторной модели представлен в виде произведения, частного или алгебраической суммы факторов.

Данный вид факторного анализа наиболее распространен, поскольку, будучи достаточно простым в применении (по сравнению со стохастическим анализом), позволяет осознать логику действия основных факторов развития предприятия, количественно оценить их влияние, понять, какие факторы и в какой пропорции возможно и целесообразно изменить для повышения эффективности производства.

Детерминированный факторный анализ имеет достаточно жесткую последовательность выполняемых процедур:

1.построение экономически обоснованной детерминированной факторной модели;

2.выбор приема факторного анализа и подготовка условий для его выполнения;

3.реализация счетных процедур анализа модели;

Основные методы детерминированного факторного анализа

Метод цепных подстановок; Метод абсолютных разниц; Метод относительных разниц; Интегральный метод; Метод логарифмирования.

Стохастический анализ представляет собой методику исследования факторов, связь которых с результативным показателем в отличие от функциональной является неполной, вероятностной (корреляционной). Суть стохастического метода - измерение влияния стохастических зависимостей с неопределенными и приблизительными факторами. Стохастический метод целесообразно применять для экономических исследований с неполной (вероятностной) корреляцией: например, для задач маркетинга. Если при функциональной (полной) зависимости с изменением аргумента всегда происходит соответствующее изменение функции, то при корреляционной связи изменение аргумента может дать несколько значений прироста функции в зависимости от сочетания других факторов, определяющих данный показатель. Например, производительность труда при одном и том же уровне фондовооруженности может быть неодинаковой на разных предприятиях. Это зависит от оптимальности сочетания других факторов, воздействующих на этот показатель.

Стохастическое моделирование является в определенной степени дополнением и углублением детерминированного факторного анализа. В факторном анализе эти модели используются по трем основным причинам :

Необходимо изучить влияние факторов, по которым нельзя построить жестко детерминированную факторную модель (например, уровень финансового левериджа);

Необходимо изучить влияние сложных факторов, которые не поддаются объединению в одной и той же жестко детерминированной модели;

Необходимо изучить влияние сложных факторов, которые не могут быть выражены одним количественным показателем (например, уровень научно-технического прогресса).

Необходимо также различать статический и динамический факторный анализ. Первый вид применяется при изучении влияния факторов на результативные показатели на соответствующую дату. Другой вид представляет собой методику исследования причинно-следственных связей в динамике.

И, наконец, факторный анализ может быть ретроспективным, который изучает причины прироста результативных показателей за прошлые периоды, и перспективным, который исследует поведение факторов и результативных показателей в перспективе.

Факторный анализ может быть одноступенчатым и многоступенчатым . Первый тип используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части. Например, . При многоступенчатом факторном анализе проводится детализация факторов a и b на составные элементы с целью изучения их поведения. Детализация факторов может быть продолжена и дальше. В этом случае изучается влияние факторов различных уровней соподчиненности.

Необходимо также различать статический и динамический факторный анализ . Первый вид применяется при изучении влияния факторов на результативные показатели на соответствующую дату. Другой вид представляет собой методику исследования причинно-следственных связей в динамике.

Факторный анализ является одним из наиболее мощных статистиче­ских средств анализа данных. В его основе лежит процедура объединения групп коррелирующих друг с другом переменных («корреляционных плеяд» или «корреляционных узлов») в несколько факторов.

Иными словами, цель факторного анализа - сконцентриро­вать исходную информацию, выражая большое число рассматриваемых признаков через меньшее число более емких внутренних характеристик, которые, однако, не поддаются непосредственному измерению (и в этом смысле являются латентными).

Для примера гипотетически представим себе законодательный ор­ган регионального уровня, состоящий из 100 депутатов. В числе разных вопросов повестки дня на голосование выносятся: а) законопро­ект, предлагающий восстановить памятник В.И. Ленину на центральной площади города - административного центра региона; б) обра­щение к Президенту РФ с требованием вернуть в государственную собственность все стратегические производства. Матрица сопряжен­ности показывает следующее распределение голосов депутатов:

Памятник Ленину (за) Памятник Ленину (против)
Обращение к Президенту (за) 49 4
Обращение к Президенту (против) 6 41

Очевидно, что голосования статистически связаны: подавляющее большинство депутатов, поддерживающих идею восстановления па­мятника Ленину, поддерживают и возвращение в государственную собственность стратегических предприятий. Аналогичным образом большинство противников восстановления памятника являются в то же время и противниками возврата предприятий в госсобственность. При этом тематически голосования между собой совершенно не связаны.

Логично предположить, что выявленная статистическая связь обусловлена существованием некоторого скрытого (латентного) фактора. Законодатели, формулируя свою точку зрения по самым разно­образным вопросам, руководствуются ограниченным, небольшим набором политических позиций. В данном случае можно предположить наличие скрытого раскола депутатского корпуса по критерию поддержки/отвержения консервативно-социалистических ценностей. Выделяется группа «консерваторов» (согласно нашей таблице сопря­женности - 49 депутатов) и их оппонентов (41 депутат). Выявив такие расколы, мы сможем описать большое число отдельных голосований через небольшое число факторов, которые являются латентными в том смысле, что мы не можем их обнаружить непосредственно: в на­шем гипотетическом парламенте ни разу не проводилось голосова­ние, в ходе которого депутатам предлагалось бы определить свое от­ношение к консервативно-социалистическим ценностям. Мы обнаруживаем наличие данного фактора, исходя из содержательного анализа количественных связей между переменными. Причем, если в нашем примере сознательно взяты номинальные переменные - поддержка законопроекта с категориями «за» (1) и «против» (0), - то в действительности факторный анализ эффективно обрабатывает ин­тервальные данные.

Факторный анализ очень активно используется как в политической науке, так и в «соседних» социологии и психологии. Одна из важных причин большой востребованности данного метода состоит в разнооб­разии задач, которые можно решать с его помощью. Так, выделяются по крайней мере три «типовые» цели факторного анализа:

· уменьшение размерности (редукция) данных. Факторный анализ, выделяя узлы взаимосвязанных признаков и сводя их к неким обоб­щенным факторам, уменьшает исходный базис признаков описания. Решение этой задачи важно в ситуации, когда объекты измерены боль­шим числом переменных и исследователь ищет способ сгруппировать их по смысловому признаку. Переход от множества переменных к не­скольким факторам позволяет сделать описание более компактным, избавиться от малоинформативных и дублирующих переменных;

Выявление структуры объектов или признаков (классификация). Эта задача близка к той, которая решается методом кластер-анализа. Но если кластер-анализ принимает за «координаты» объектов их зна­чения по нескольким переменным, то факторный анализ определяет положение объекта относительно факторов (связанных групп пере­менных). Иными словами, с помощью факторного анализа можно оценить сходство и различие объектов в пространстве их корреляци­онных связей, или в факторном пространстве. Координатными осями факторного пространства выступают полученные латентные пере­менные, на эти оси проецируются рассматриваемые объекты, что позволяет создать наглядное геометрическое представление изучаемых данных, удобное для содержательной интерпретации;

Косвенное измерение. Факторы, являясь латентными (эмпиричес­ки не наблюдаемыми), не поддаются непосредственному измерению. Однако факторный анализ позволяет не только выявить латентные переменные, но и оценить количественно их значение для каждого объекта.

Рассмотрим алгоритм и интерпретацию статистики факторного анализа на примере данных о результатах парламентских выборов в Рязанской области 1999 г. (общефедеральный округ). Для упрощения примера возьмем электоральную статистику только по тем партиям, которые преодолели 5%-ный барьер. Данные взяты в разрезе террито­риальных избирательных комиссий (по городам и районам области).

Первым шагом будет стандартизация данных путем перевода их в стандартные баллы (так называемые Л-баллы, рассчитываемые с помощью функции нормального распределения).

ТИК

(территориальная избирательная комиссия)

«Ябло­ко» «Единст­во» Блок

Жириновского

ОВР КПРФ СПС
Ермишинская 1,49 35,19 6,12 5,35 31,41 2,80
Захаровская 2,74 18,33 7,41 11,41 31,59 л б 3 "
Кадомская 1,09 29,61 8,36 5,53 35,87 1,94
Касимовская 1,30 39,56 5,92 5,28 29,96 2,37
Касимовская городская 3,28 39,41 5,65 6,14 24,66 4,61
То же в стандартизированных баллах (г-баллах)
Ермишинская -0,83 1,58 -0,25 -0,91 -0,17 -0,74
Захаровская -0,22 -1,16 0,97 0,44 -0,14 0,43
Кадомская -1,03 0,67 1,88 -0,87 0,59 -1,10
Касимовская -0,93 2,29 -0,44 -0,92 -0,42 -0,92
Касимовская городская 0,04 2,26 -0,70 -0,73 -1,32 0,01
И т.д. (всего 32 случая)
«Яблоко» «Единство» БЖ ОВР КПРФ СПС
«Яблоко»
«Единство» -0,55
БЖ -0,47 0,27
ОВР 0,60 -0,72 -0,47
КПРФ -0,61 0,01 0,10 -0,48
СПС 0,94 -0,45 -0,39 0,52 -0,67

Уже визуальный анализ матрицы парных корреляций позволяет сделать предположения о составе и характере корреляционных плеяд. К примеру, положительные корреляции обнаруживаются для «Союза правых сил», «Яблока» и блока «Отечество - вся Россия» (пары «Яб­локо» - ОВР, «Яблоко» - СПС и ОВР - СПС). Одновременно эти три переменные отрицательно коррелируют с КПРФ (поддержка КПРФ), в меньшей степени - с «Единством» (поддержка «Един­ства») и в еще меньшей - с переменной БЖ (поддержка «Блока Жириновского»). Таким образом, предположительно мы имеем две выра­женные корреляционные плеяды:

(«Яблоко» + ОВР + СПС) - КПРФ;

(«Яблоко» + ОВР + СПС) - «Единство».

Это две разные плеяды, а не одна, так как между «Единством» и КПРФ связи нет (0,01). Относительно переменной БЖ предположе­ние сделать сложнее, здесь корреляционные связи менее выражены.

Чтобы проверить наши предположения, необходимо ВЫЧИСлить собственные значения факторов (eigenvalues), факторные значения (factor scores) и факторные нагрузки (factor loadings) для каждой пере­менной. Такие расчеты достаточно сложны, требуют серьезных навыков работы с матрицами, поэтому здесь мы не станем рассматривать вычислительный аспект. Скажем лишь, что эти вычисления могут осуществляться двумя путями: методом главных компонент (principal components) и методом главных факторов (principal factors). Метод главных компонент более распространен, статистические программы используют его «по умолчанию».

Остановимся на интерпретации собственных значений, фактор­ных значений и факторных нагрузок.

Собственные значения факторов для нашего случая таковы:

bgcolor=white>5
Фактор Собственное значение % общей вариации
1 3,52 58,75
2 1,14 19,08
3 0,76 12,64
4 0,49 S.22
0,05 0.80
6 0,03 0,51
Всего 6 100%

Чем больше собственное значение фактора, тем больше его объяснительная сила (максимальное значение равно количеству перемен­ных, в нашем случае 6). Одним из ключевых элементов статистики факторного анализа является показатель «% общей вариации» (% total variance). Он показывает, какую долю вариации (изменчивости) пере­менных объясняет извлеченный фактор. В нашем случае вес первого фактора превосходит вес всех остальных факторов, вместе взятых: он объясняет почти 59% общей вариации. Второй фактор объясняет 19% вариации, третий - 12,6% и т.д. по убывающей.

Имея собственные значения факторов, мы можем приступить к решению задачи сокращения размерности данных. Редукция про­изойдет за счет исключения из модели факторов, обладающих на­именьшей объяснительной силой. И здесь ключевой вопрос состоит в том, сколько факторов оставить в модели и какими критериями при этом руководствоваться. Так, явно лишними являются факторы 5 и 6, в совокупности объясняющие чуть более 1% всей вариации. А вот судьба факторов 3 и 4 уже не столь очевидна.

Как правило, в модели остаются факторы, собственное значение которых превышает единицу (критерий Кайзера). В нашем случае это факторы 1 и 2. Однако полезно проверить корректность удаления че­тырех факторов с помощью других критериев. Одним из наиболее широко используемых методов является анализ «графика осыпи» (scree plot). Для нашего случая он имеет вид:

График получил свое название из-за сходства со склоном горы. «Осыпь» - геологический термин, обозначающий обломки горных пород, скапливающиеся в нижней части скалистого склона. «Ска­ла» - это по-настоящему влиятельные факторы, «осыпь» - статисти­ческий шум. Образно говоря, нужно найти место на графике, где кон­чается «скала» и начинается «осыпь» (где убывание собственных значений слева направо сильно замедляется). В нашем случае выбор нужно сделать из первого и второго перегибов, соответствующих двум и четырем факторам. Оставив четыре фактора, мы получим очень вы­сокую точность модели (более 98% общей вариации), но сделаем ее до­статочно сложной. Оставив два фактора, мы будем иметь значитель­ную необъясненную часть вариации (около 22%), но модель станет лаконичной и удобной в анализе (в частности, визуальном). Таким об­разом, в данном случае лучше пожертвовать некоторой долей точнос­ти в пользу компактности, оставив первый и второй факторы.

Проверить адекватность полученной модели можно с помощью специальных матриц воспроизведенных корреляций (reproduced corre­lations) и остаточных коэффициентов (residual correlations). Матрица воспроизведенных корреляций содержит коэффициенты, которые удалось восстановить по двум оставленным в модели факторам. Осо­бое значение в ней имеет главная диагональ, на которой расположены общности переменных (в таблице выделены курсивом), которые пока­зывают, насколько точно модель воспроизводит корреляцию перемен­ной с той же переменной, которая должна составлять единицу.

Матрица остаточных коэффициентов содержит разность между исходным и воспроизведенным коэффициентами. Например, вос­произведенная корреляция между переменными СПС и «Яблоко» со­ставляет 0,88, исходная - 0,94. Остаток = 0,94 - 0,88 = 0,06. Чем ни­же значения остатков, тем выше качество модели.

Воспроизведенные корреляции
«Яблоко» «Единство» БЖ ОВР КПРФ СПС
«Яблоко» 0,89
«Единство» -0,53 0,80
БЖ -0,47 0,59 0,44
ОВР 0,73 -0,72 -0,56 0,76
КПРФ -0,70 0,01 0,12 -0,34 0,89
СПС 0,88 -0,43 -0,40 0,66 -0,77 0,88
Остаточные коэффициенты
«Яблоко» «Единство» БЖ ОВР КПРФ СПС
«Яблоко» 0,11
«Единство» -0,02 0,20
БЖ 0,00 -0,31 0,56
ОВР -0,13 -0,01 0,09 0,24
КПРФ 0,09 0,00 -0,02 -0,14 0,11
СПС 0,06 -0,03 0,01 -0,14 0,10 0,12

Как видно из матриц, двухфакторная модель, будучи в целом адек­ватной, плохо объясняет отдельные связи. Так, очень низкой является общность переменной БЖ (всего 0,56), слишком велико значение ос­таточного коэффициента связи БЖ и «Единства» (-0,31).

Теперь необходимо решить, насколько важным для данного кон­кретного исследования является адекватное представление переменной БЖ. Если важность высока (к примеру, если исследование посвя­щено анализу электората именно этой партии), корректно вернуться к четырехфакторной модели. Если нет, можно оставить два фактора.
Принимая во внимание учебный характер наших задач, оставим более простую модели.

Факторные нагрузки можно представить как коэффициен­ты корреляции каждой переменной с каждым из выявленных факторов 1ак, корреляция между значениями первой факторной переменной и значениями переменной «Яблоко» составляет -0,93. Все факторные нагрузки приводятся в матрице факторного отображения-

Чем теснее связь переменной с рассматриваемым фактором, тем выше значение факторной нагрузки. Положительный знак фактор­ной нагрузки указывает на прямую, а отрицательный знак - на обрат­ную связь переменной с фактором.

Имея значения факторных нагрузок, мы можем построить геомет­рическое представление результатов факторного анализа. По оси X отложим нагрузки переменных на фактор 1, по оси Y- нагрузки пе­ременных на фактор 2 и получим двухмерное факторное пространство.

Перед тем как приступить к содержательному анализу полученных результатов, осуществим еще одну операцию - вращение (rotation). Важность этой операции продиктована тем, что существует не один, а множество вариантов матрицы факторных нагрузок, в равной степе­ни объясняющих связи переменных (матрицу интеркорреляций). Не­обходимо выбрать такое решение, которое проще интерпретировать содержательно. Таковым считается матрица нагрузок, в которой зна­чения каждой переменной по каждому фактору максимизированы или минимизированы (приближены к единице или к нулю).

Рассмотрим схематичный пример. Имеется четыре объекта, рас­положенных в факторном пространстве следующим образом:

Нагрузки на оба фактора для всех объектов существенно отличны от нуля, и мы вынуждены привлекать оба фактора для интерпретации положения объектов. Но если «повернуть» всю конструкцию по часо­вой стрелке вокруг пересечения осей координат, получим следующую картинку:

В данном случае нагрузки на фактор 1 будут близки к нулю, а на­грузки на фактор 2 - к единице (принцип простой структуры). Соот­ветственно, для содержательной интерпретации положения объектов мы будем привлекать только один фактор - фактор 2.

Существует довольно большое количество методов вращения фак­торов. Так, группа методов ортогонального вращения всегда сохраняет прямой угол между координатными осями. К таковым относятся vanmax (минимизирует количество переменных с высокой факторной нагрузкой), quartimax (минимизирует количество факторов, необхо­димых для объяснения переменной), equamax (сочетание двух преды­дущих методов). Методы косоугольного вращения не обязательно со­храняют прямой угол между осями (например, direct obiimin). Метод promax представляет собой сочетание ортогонального и косоугольно­го методов вращения. В большинстве случаев используется метод vanmax, который дает хорошие результаты применительно и к большин­ству задач политических исследований. Кроме того, как и в процессе применения многих других методов, рекомендуется поэксперименти­ровать с различными техниками вращения.

В нашем примере после вращения методом varimax получаем сле­дующую матрицу факторных нагрузок:

Соответственно, геометрическое представление факторного про­странства будет иметь вид:


Теперь можно приступить к содержательной интерпретации полу­ченных результатов. Ключевую оппозицию - электоральный раскол - по первому фактору формируют КПРФ с одной стороны и «Яблоко» и СПС (в меньшей степени ОВР) - с другой. Содержательно - исхо­дя из специфики идеологических установок названных субъектов из­бирательного процесса - мы можем интерпретировать данное разме­жевание как «лево-правый» раскол, являющийся «классическим» для политической науки.

Оппозицию по фактору 2 формируют ОВР и «Единство». К послед­нему примыкает «Блок Жириновского», но достоверно судить о его по­ложении в факторном пространстве мы не можем в силу особенностей модели, которая плохо объясняет связи именно этой переменной. Что­бы объяснить такую конфигурацию, необходимо вспомнить политиче­ские реалии избирательной кампании 1999 г. Тогда борьба внутри поли­тической элиты привела к формированию двух эшелонов «партии власти» - блоков «Единство» и «Отечество - вся Россия». Различие между ними не носило идеологического характера: фактически населе­нию предложили выбирать не из двух идейных платформ, а из двух элитных групп, каждая из которых располагала существенными власт­ными ресурсами и региональной поддержкой. Таким образом, этот рас­кол можно интерпретировать как «властно-элитный» (или, несколько упрощая, «власть - оппозиция»).

В целом мы получаем геометрическое представление некоего элек­торального пространства Рязанской области для данных выборов, ес­ли понимать электоральное пространство как пространство электо­рального выбора, структуру ключевых политических альтернатив («расколов»). Комбинация именно этих двух расколов была очень ти­пична для парламентских выборов 1999 г.

Сопоставляя результаты факторного анализа для одного и того же региона на разных выборах, мы можем судить о наличии преемственно­сти в конфигурации пространства электорального выбора территории. К примеру, факторный анализ федеральных парламентских выборов (1995, 1999 и 2003 гг.), проходивших в Татарстане, показал устойчивую конфигурацию электорального пространства. Для выборов 1999 г. в мо­дели оставлен всего один фактор с объяснительной силой 83% вариа­ции, что сделало невозможным построение двухмерной диаграммы. В соответствующем столбце приведены факторные нагрузки.

Если внимательно присмотреться к этим результатам, можно заме­тить, что в республике от выборов к выборам воспроизводится один и тот же основной раскол: «"партия власти” - все остальные». «Партией влас­ти» в 1995 г. выступал блок «Наш дом - Россия» (НДР), в 1999 г. - ОВР, в 2003 г. - «Единая Россия». С течением времени меняются лишь «дета­ли» - название «партии власти». Новый политический «лейбл» очень легко ложится в статичную матрицу одномерного политического выбора.

В заключение главы дадим один практический совет. Успешность освоения статистических методов по большому счету возможна только при интенсивной практической работе со специальными программами (уже неоднократно упомянутые SPSS, Statistica или хотя бы Microsoft Excel). Не случайно изложение статистических техник ведется нами в режиме алгоритмов работы: это позволяет студенту самостоятельно пройти все стадии анализа, сидя за компьютером. Без попыток практи­ческого анализа реальных данных представление о возможностях ста­тистических методов в политическом анализе неизбежно останется об­щим и абстрактным. А на сегодняшний день умение применять статистику для решения и теоретических, и прикладных задач - прин­ципиально важная составляющая модели специалиста-политолога.

Контрольные вопросы и задания

1. Каким уровням измерения соответствуют средние величины - мода, медиана, среднее арифметическое? Какие меры вариации характерны для каждой из них?

2. В силу каких причин необходимо учитывать форму распределения пере­менных?

3. Что означает утверждение: «Между двумя переменными имеется стати­стическая связь»?

4. Какую полезную информацию о связях между переменными можно по­лучить на основе анализа таблиц сопряженности?

5. Что можно узнать о связи между переменными, исходя из значений ста­тистических критериев хи-квадрат и лямбда?

6. Дайте определение понятию «ошибка» в статистических исследованиях. Каким образом по данному показателю можно судить о качестве построенной статистической модели?

7. Какова основная цель корреляционного анализа? Какие характеристи­ки статистической связи выявляет данный метод?

8. Как интерпретировать значение коэффициента корреляции Пирсона?

9. Охарактеризуйте метод дисперсионного анализа. В каких других статис­тических методах используется статистика дисперсионного анализа и для чего?

10. Объясните значение понятия «нулевая гипотеза».

11. Что такое линия регрессии, каким методом она строится?

12. Что показывает коэффициент R в итоговой статистике регрессионно­го анализа?

13. Поясните термин «метод многомерной классификации».

14. Объясните основные различия между кластеризацией посредством иерархического кластер-анализа и методом К-средних.

15. Каким образом кластер-анализ может использоваться при изучении имиджа политических лидеров?

16. Какова основная задача, решаемая посредством дискриминантного анализа? Дайте определение дискриминантной функции.

17. Назовите три класса задач, решаемых с помощью факторного анализа. Конкретизируйте понятие «фактор».

18. Дайте характеристику трем основным методам проверки качества мо­дели в факторном анализе (критерий Кайзера, критерий «осыпи», матрица воспроизведенных корреляций).

  • Міжнародна міграція фінансових ресурсів у контексті факторного аналізу
  • 25. Ж.-Б. Сэй вошел в историю экономической науки как автор факторной теории стоимости. Каковы основные положения этой теории?
  • Технико-экономический анализ строительного проекта и анализ обеспечения по запрашиваемому строительному кредиту
  • Возникновение и развитие факторного анализа тесно связано с измерениями в психологии. Длительное время факторный анализ и воспринимался как математическая модель в психологической теории интеллекта. Лишь начиная с 50-х годов ХХ столетия, одновременно с разработкой математического обоснования факторного анализа, этот метод становится общенаучным. К настоящему времени факторный анализ является неотъемлемой частью любой серьезной статистической компьютерной программы и входит в основной инструментарий всех наук, имеющих дело с многопараметрическим описанием изучаемых объектов, таких, как социология, экономика, биология, медицина и другие.

    Основная идея факторного анализа была сформулирована еще Ф. Гальтоном , основоположником измерений индивидуальных различий. Она сводится к тому, что если несколько признаков, измеренных на группе индивидов, изменяются согласованно, то можно предположить существование одной общей причины этой совместной изменчивости - фактора как скрытой (латентной), непосредственно не доступной измерению переменной.

    Таким образом, главная цель факторного анализа - уменьшение размерности исходных данных с целью их экономного описания при условии минимальных потерь исходной информации. Результатом факторного анализа является переход от множества исходных переменных к существенно меньшему числу новых переменных - факторов. Фактор при этом интерпретируется как причина совместной изменчивости нескольких исходных переменных.

    Если исходить из предположения о том, что корреляции могут быть объяснены влиянием скрытых причин - факторов, то основное назначение факторного анализа - анализ корреляций множества признаков.

    Одна из основных задач факторного анализа – интерпретация факторов. Ее решение заключается в идентификации факторов через исходные переменные. Осуществляется по результатам обработки с помощью факторных нагрузок. Факторные нагрузки – аналоги коэффициентов корреляции, показывают степень взаимосвязи соответствующих переменных и факторов. Чем больше абсолютная величина факторной нагрузки, тем сильнее связь переменной с фактором, тем больше данная переменная обусловлена действием соответствующего фактора. Каждый фактор идентифицируется по тем переменным, с которыми он в наибольшей степени связан, то есть по переменным, имеющим по этому фактору наибольшие нагрузки. Идентификация фактора заключается, как правило, в присвоении ему имени, обобщающего по смыслу наименования входящих в него переменных.

    Если исследователя интересует только структура измеренных признаков, на этом факторный анализ завершается. Продолжая факторный анализ, исследователь далее может вычислить значения факторов для испытуемых, например, с целью их дифференциации по преобладанию арифметических или вербальных способностей.



    Выбирая факторный анализ как средство изучения корреляций, исследователь должен отдавать себе отчет в том, что это один из самых сложных и трудоемких методов. Зачастую нет веских оснований предполагать наличие факторов как скрытых причин изучаемых корреляции, и задача заключается лишь в обнаружении группировок тесно связанных переменныx. Тогда целесообразнее вместо факторного анализа использовать кластерный анализ корреляций . Помимо простоты, кластерный анализ обладает еще одним преимуществом: его применение не связано с потерей исходной информации о связях между переменными, что неизбежно при факторном анализе. И уже после выделения групп тесно связанных переменных можно попытаться применить факторный анализ для их объяснения.

    Итак, можно сформулировать основные задачи факторного анализа:

    1. Исследование структуры взаимосвязей переменных. В этом случае каждая группировка переменных будет определяться фактором, по которому эти переменные имеют максимальные нагрузки.

    2. Идентификация факторов как скрытых (латентных) переменных - причин взаимосвязи исходных переменных.

    3. Вычисление значений факторов для испытуемых как новых, интегральных переменных. При этом число факторов существенно меньше числа исходных переменных. В этом смысле факторный анализ решает задачу сокращения количества признаков с минимальными потерями исходной информации.

    МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ ИДЕИ И ПРОБЛЕМЫ МЕТОДА

    Модель главных компонент лежит в основе большинства методов факторного анализа и часто рассматривается как один из его самостоятельных вариантов. Анализ главных компонент преобразует набор коррелирующих исходных переменных в другой набор - некоррелирующих переменных. Проще всего понять суть этого метода, привлекая геометрические представления.

    Предположим, у нас имеются две положительно коррелирующие переменные Х и У, измеренные на группе объектов. Тогда график двумерного распределения (рассеивания) этих объектов в осях измеренных признаков (координаты объектов заданы значениями признаков) будет представлять собой эллипс (рис. 1). Главная ось эллипса М 1 , - это прямая, вдоль которой будет наблюдаться наибольший разброс данных. Вдоль второй оси эллипса М 2 , перпендикулярной первой и проходящей через ее середину, будет наблюдаться наименьший разброс данных.

    Рисунок 1. Рисунок 2.

    Если перед нами стоит задача представления объектов (точек) в терминах только одной размерности (переменной), то главная ось эллипса является наиболее подходящей, так как вдоль нее объекты отличаются друг от друга лучше (дисперсия больше), чем вдоль любой другой прямой, в том числе и вдоль отдельно оси Х или У.

    Анализ главных компонент можно представить как преобразование информации, содержащейся в исходных данных. Главную компоненту можно определить как направление, в котором наблюдается наибольший разброс объектов. Представляя объекты в единицах измерения по этой оси, мы теряем минимум информации об отличии объектов друг от друга. Чем сильнее взаимосвязь двух переменных, тем меньше исходной информации теряется при переходе от двух переменных к одной главной компоненте. Если две переменные не коррелируют, то компоненты (оси) являются равнозначными по информативности, и невозможно определить одну из них как «главную» (рис. 2).

    При наличии трех и более коррелирующих переменных принцип определения главных компонент тот же, только модель будет не на плоскости, а в - мерном пространстве, и будет представлять собой - мерный эллипсоид.

    Проблемы факторного анализа.

    1. Проблема числа факторов. Это первая проблема при проведении факторного анализа. Обычно заранее неизвестно, сколько факторов необходимо и достаточно для представления данного набора переменных. Сама же процедура факторного анализа предполагает предварительное задание числа факторов. Следовательно, исследователь должен заранее определить или оценить их возможное количество. Для этого на первом этапе факторного анализа применяется анализ главных компонент и используется график собственных значений. Для определения числа факторов используется два критерия – критерий Кайзера и критерий отсеивания Кеттела. Эти критерии являются лишь примерным ориентиром, окончательное решение о числе факторов применяется после интерпретации факторов.

    2. Проблема общности. Это вторая главная проблема факторного анализа. Общность – это часть дисперсии переменной, обусловленная действием общих факторов. Характерность – часть дисперсии, обусловленная спецификой данной переменной и ошибками измерений. Иными словами, общность – это вклад всех факторов в единичную дисперсию переменной. Проблема общностей заключается в том, что они как и число факторов, неизвестны до начала анализа, но должны каким-то образом задаваться заранее, так как величины факторных нагрузок зависят от величин общностей. В зависимости от решения этой проблемы различают разные методы факторного анализа , то есть, разные способы получения факторной структуры при заданном числе факторов. Наиболее часто применимые методы – анализ главных компонент, факторный анализ образов, метод главных осей, метод невзвешенных наименьших квадратов, обобщенный метод наименьших квадратов и метод максимального правдоподобия.

    3. Проблема вращения и интерпретации . Это третья основная проблема факторного анализа, решение которой связано с геометрическим представлением факторной структуры. Факторная структура может быть представлена в виде точек-признаков в пространстве факторов. Координаты точки – это факторные нагрузки. Осуществляют поворот осей, чтобы каждая переменная в результате вращения оказалась вблизи оси фактора (варимакс-вращение). В результате вращения каждая переменная имеет нагрузку только по одному фактору. По составу переменных производят интерпретацию факторов.

    4. Проблема оценки значений факторов . После интерпретации факторной структуры допустима оценка значений факторов для объектов. Это позволяет перейти к существенно меньшему числу факторов как новых переменных. Это может понадобиться исследователю как для более компактного представления различий между объектами, так и для дальнейшего анализа – регрессионного, дисперсионного и т.д. Для оценки значения фактора используется линейная комбинация значений исходных переменных. Проблема состоит в том, что невозможно точно выразить общий фактор через исходные переменные, можно получить лишь оценку с различной надежностью, так как каждая из переменных содержит кроме общей характерную часть. Факторизация оценки будет тем надежнее, чем больше исходные переменные соответствуют требованиям, предъявляемым к метрическим переменным.

    В заключение обзора математических идей и проблем метода следует отметить, что факторный анализ – сложная, но изящная математическая процедура, имеющая достаточное статистическое обоснование. Факторный анализ не добавляет новой информации к эмпирическим данным, только позволяет их интерпретировать.

    ПОСЛЕДОВАТЕЛЬНОСТЬ ФАКТОРНОГО АНАЛИЗА

    Особенность факторного анализа заключается в неопределенности решения его основных проблем. Нет четких критериев качества, есть лишь рекомендации, которыми руководствуется исследователь. Поэтому факторный анализ – пошаговая процедура, где на каждом шаге принимается решение о дальнейших преобразованиях данных.

    Весь процесс факторного анализа можно представить как выполнение шести этапов:

    1. Выбор исходных данных. Основное требование – все признаки должны быть измерены в метрической шкале. Недопустима функциональная зависимость и корреляции, близкие к единице (для устранения этих переменных вычисляют матрицу интеркорреляций).

    2. Решение проблемы числа факторов. Матрица интеркорреляций обрабатывается с использованием анализа главных компонент, применяются критерии отсеивания.

    3. Факторизация матрицы интеркорреляций одним из методов.

    4. Вращение факторов и их предварительная интерпретация.

    5. Принятие решения о качестве факторной структуры.

    6. Вычисление факторных коэффициентов и оценок.

    До широкого распространения персональных компьютеров полновесный факторный анализ был экзотической, весьма трудоемкой многоэтапной процедурой, когда очередной шаг исследователь выбирает по результатам выполнения предыдущих этапов. В настоящее время можно контролировать процесс факторного анализа, пользуясь современным программным обеспечением. Для этого не нужны знания программиста и математика, достаточны осведомленность в основных математико-статистических идеях метода и умение «читать» промежуточные и конечные результаты факторного анализа. При этом факторный анализ может быть рекомендован для решения очень широкого круга не только исследовательских, но и практических задач. Перечислим некоторые из них:

    · факторный анализ как инструмент интерпретации позволяет быстро выделить группировки (кластеры) взаимосвязанных переменных, решая проблемы корреляционного анализа: наличия множества переменных и множества статистических проверок.

    · факторный анализ как альтернатива простого суммирования значений исходных переменных позволяет учитывать реальную структуру данных и избегать излишних потерь драгоценной исходной информации. Затраты времени и сил па такую обработку данных при помощи факторного анализа часто меньше, чем при суммировании баллов «вручную». При этом выигрыш весьма ощутим - в детальности и корректности получаемых результатов.

    · факторный анализ как подготовительный этап для прогнозирования позволяет получить некоррелированные интегральные переменные (факторы), наиболее пригодные для применения в регрессионном или дискриминантном анализе.

    · факторный анализ при исследовании индивидуальных или межгрупповых различий по множеству признаков позволяет сократить исходное множество признаков до нескольких факторов, по которым различия проявляются наиболее ярко.

    Их классификация
    В современной статистике под факторным анализом понимают совокупность методов, которые на основе реально существующих связей признаков, объектов или явлений позволяют выявлять латентные (скрытые и не доступные для непосредственного измерения) обобщающие характеристики организованной структуры и механизма развития изучаемых явлений или процессов.

    Понятие латентности является ключевым и означает неявность характеристик, раскрываемых при помощи методов факторного анализа.

    Идея, заложенная в основе факторного анализа, достаточно проста. В результате измерения мы имеем дело с набором элементарных признаков Х i , измеренных по нескольким шкалам. Это – явные переменные. Если признаки изменяются согласованно, то можно предположить существование определенных общих причин этой изменчивости, т.е. существование некоторых скрытых (латентных) факторов. Задача анализа – найти эти факторы.

    Так как факторы представляют собой объединение определенных переменных, то из этого следует, что эти переменные связаны друг с другом, т.е. обладают корреляцией (ковариацией), причем большей между собой, чем с другими переменными, входящими в другой фактор. Методы отыскания факторов и основываются на использовании коэффициентов корреляции (ковариации) между переменными. Факторный анализ дает нетривиальное решение, т.е. решение нельзя предвидеть, не применяя специальную технику извлечения факторов. Это решение имеет большое значение для характеристики явления, так как вначале оно характеризовалось достаточно большим числом переменных, а в результате применения анализа оказалось, что его можно охарактеризовать меньшим числом других переменных – факторов.

    Коррелировать могут не только явные переменные Х i , но и наблюдаемые объекты N i . В зависимости от того, какой тип корреляционной связи рассматривается – между признаками или объектами – различают соответственно R и Q техники обработки данных.

    В соответствии с общими принципами факторного анализа, результат каждого измерения определяется действием общих факторов, специфических факторов и «фактором» ошибки измерения. Общими называются факторы, влияющие на результаты измерений по нескольким измерительным шкалам. Каждый из специфических факторов оказывает влияние на результат измерения только по одной из шкал. Под ошибкой измерения подразумевается совокупность не поддающихся учету причин, определяющих результаты измерения. Изменчивость полученных эмпирических данных обычно описывают с помощью их дисперсии.


    Вам уже хорошо известно, что для количественного описания связи между двумя переменными чаще всего используется коэффициент корреляции. Существует много разновидностей этого коэффициента, причем выбор адекватной меры связи определяется как спецификой эмпирических данных, так и измерительной шкалой.

    Однако существует еще и геометрическая возможность описания связи между признаками. Графически коэффициент корреляции между двумя переменными можно изобразить в виде двух векторов – стрелок, берущих начало в одной точке. Эти векторы располагаются под углом друг к другу, косинус которого и равен коэффициенту корреляции. Косинус угла - это тригонометрическая функция, значение которой можно найти в справочнике. В рамках данной темы мы не будем обсуждать тригонометрическую функцию косинуса, достаточно знать, где найти соответствующие данные.

    В таблице 7.1 приводится несколько значений косинусов углов, что даст о них общее представлении.

    Таблица 7.1

    Таблица косинусов для графического изображения

    корреляции между переменными.

    В соответствии с данной таблицей полной положительной корреляции (r 1) будет соответствовать угол в 0 (cos 0 1), т.е. графически это будет соответствовать полному совпадению обоих векторов (см. рис. 7.3 а).

    Полная отрицательная корреляция (r  -1) означает, что оба вектора лежат на одной прямой, но направлены в противоположные стороны (cos 180 -1). (рис. 7.3 б).

    Взаимная независимость переменных (r = 0) эквивалентна взаимной перпендикулярности (ортогональности) векторов (cos 90°= 0). (рис. 7.3 в).

    Промежуточные значения коэффициента корреляции изображенные в виде пар векторов, образующих либо острые (r > 0), либо тупые (r   0 0 , r  1  180, r  -1

    V 1

    V 2

    а б
     90, r  0   90, r  0   90, r  0

    V 2

    V 1
    Рисунок 7.3. Геометрическая интерпретация коэффициентов корреляции.

    Геометрический подход к факторному анализу


    Приведенная выше геометрическая интерпретация коэффициента корреляции является основой для графического представления всей корреляционной матрицы и последующей интерпретации данных в факторном анализе .

    Построение матрицы начинается с построения вектора, представляющего любую переменную. Другие переменные изображаются с помощью векторов равной длины, причем все они исходят из одной и той же точки. В качестве примера рассмотрим геометрическое выражение корреляций между пятью переменными. (Рис 7.4.)


    V 1

    V 5 V 2

    V 4
    Рисунок 7.4. Геометрическая интерпретация корреляционной матрицы (5х5).
    Понятно, что не всегда можно представить корреляцию в двух измерениях (на плоскости). Некоторые векторы переменных должны были бы располагаться под углом к странице. Этот факт не является проблемой для собственно математических процедур, однако требует некоторого воображения от читателя. На рисунке 7.5. можно видеть, что корреляция между переменными V1 V2 большая и положительная (т.к между этими векторами маленькие углы). Переменные V2 V3 практически независимы друг от друга, т.к. угол между ними очень близок к 90  , т.е. корреляция равна 0. Переменные V3 - V5 связаны между собой сильно и отрицательно. Высокие корреляции между V1 и V2 являются свидетельством того, что обе эти переменные практически измеряют одно и тоже свойство и что, собственно говоря, одна из этих переменных может быть исключена из дальнейшего рассмотрения без существенной потери информации. Наиболее информативными для нас являются переменные независимые друг от друга, т.е. имеющие между собой минимальные корреляции, или углы соответствующие 90  (рис. 7.5.)

    V 1

    Рисунок 7.5. Геометрическая интерпретация корреляционной матрицы
    Из данного рисунка видно, что существует две группы корреляций: V 1, V 2 , V 3 и V 4 , V5. Корреляции между переменными V 1, V 2 , V 3 очень большие и положительные (между этими векторами маленькие углы, а, следовательно, большие значения косинусов). Аналогично корреляция между переменными V 4 и V 5 тоже большая и положительная. А вот между этими группами переменных корреляция близка нулю, так как эти группы переменных практически ортогональны друг другу, т.е. расположены относительно друг друга под прямым углом. Приведенный пример показывает, что существует две группы корреляций и информация, полученная от этих переменных, может быть аппроксимирована двумя общими факторами (F 1 и F 2), которые в данном случае ортогональны друг другу. Однако так бывает не всегда. Разновидности факторного анализа, в которых вычисляются корреляции между факторами, расположенными не ортогонально, называются облическим решением. Однако такие случаи в рамках данного курса мы не будем рассматривать, и остановимся исключительно на ортогональных решениях.

    Измеряя угол между каждым общим фактором и каждой общей переменной, можно вычислить корреляции между этими переменными и соответствующими факторами. Корреляция между переменной и общим фактором обычно называется факторной нагрузкой . Геометрическая интерпретация этого понятия дана на рис. 7.6.

    F 2

    Представляют собой совокупность статистических процедур, направленных на выделение из заданного множества переменных подмножеств переменных, тесно связанных (коррелирующих) между собой. Переменные, входящие в одно подмножество и коррелирующие между собой, но в значительной степени независимые от переменных из других подмножеств, образуют факторы. Цель факторного анализа - идентифицировать явно не наблюдаемые факторы с помощью множества наблюдаемых переменных. Дополнительным способом проверки числа выделенных факторов является вычисление корреляционной матрицы, которая близка исходной, если факторы выделены правильно. Эта матрица называется воспроизведенной корреляционной матрицей. Для того чтобы увидеть, как эта матрица отклоняется от исходной корреляционной матрицы (с которой начинался анализ), можно вычислить разность между ними. Остаточная матрица может указать на "несогласие", т. е. на то, что рассматриваемые коэффициенты корреляции не могут быть получены с достаточной точностью на основе имеющихся факторов. В методах главных компонент и факторного анализа не существует такого внешнего критерия, позволяющего судить о правильности решения. Вторая проблема заключается в том, что после выделения факторов возникает бесконечное множество вариантов вращения, базирующихся на тех же исходных переменных, но дающих разные решения (факторные структуры определяются несколько иным образом). Окончательный выбор между возможными альтернативами внутри бесконечного множества математически равнозначных решений зависит от содержательного осмысления исследователями результатов интерпретации. А поскольку объективного критерия для оценки различных решений нет, предлагаемые обоснования выбора решения могут казаться голословными и неубедительными.


    Надо отметить, что четких статистических критериев полноты факторизации не существует. Тем не менее, низкие ее значения, например меньше 0,7, свидетельствуют о желательности сокращения количества признаков или увеличения количества факторов.

    Мет Коэффициент взаимосвязи между некоторым признаком и общим фактором, выражающий меру влияния фактора на признак, называется факторной нагрузкой данного признака по данному общему фактору.

    Матрица, состоящая из факторных нагрузок и имеющая число столбцов, равное числу общих факторов, и число строк, равное числу исходных признаков, называется факторной матрицей.

    Основой для вычисления факторной матрицы является матрица парных коэффициентов корреляции исходных признаков.

    Корреляционная матрица фиксирует степень взаимосвязи между каждой парой признаков. Аналогично факторная матрица фиксирует степень линейной связи каждого признака с каждым общим фактором.

    Величина факторной нагрузки не превышает по модулю единицы, а знак ее говорит о положительной или отрицательной связи признака с фактором.

    Чем больше абсолютная величина факторной нагрузки признака по некоторому фактору, тем в большей степени этот фактор определяет данный признак.

    Значение факторной нагрузки по некоторому фактору, близкое к нулю, говорит о том, что этот фактор практически на данный признак не влияет.

    Факторная модель дает возможность вычислять вклады факторов в общую дисперсию всех признаков. Суммируя квадраты факторных нагрузок для каждого фактора по всем признакам, получаем его вклад в общую дисперсию системы признаков: чем выше доля этого вклада, тем более значимым, существенным является данный фактор.

    При этом можно выявить и оптимальное количество общих факторов, достаточно хорошо описывающих систему исходных признаков.

    Значение (мера проявления) фактора у отдельного объекта называется факторным весом объекта по данному фактору. Факторные веса позволяют ранжировать, упорядочить объекты по каждому фактору.

    Чем больше факторный вес некоторого объекта, тем больше в нем проявляется та сторона явления или та закономерность, которая отражается данным фактором.

    Факторные веса могут быть как положительными, так и отрицательными.

    В силу того, что факторы являются стандартизованными величинами со средним значением, равным нулю, факторные веса, близкие к нулю, говорят о средней степени проявления фактора, положительные – о том, что эта степень выше средней, отрицательные – о том. ч то она ниже средней.

    Практически, если число уже найденных главных компонент (или факторов) не больше, чем m /2, объясняемая ими дисперсия не менее 70%, а следующая компонента дает вклад в суммарную дисперсию не более 5%, факторная модель считается достаточно хорошей.

    Если Вы хотите найти значения факторов и сохранить их в виде дополнительных переменных задействуйте выключатель Scores... (Значения) Факторное значение, как правило, лежит в пределах -3 до +3.

    Факторный анализ - более мощный и сложный аппарат, чем метод главных

    компонент, поэтому он применяется в том случае, если результаты

    компонентного анализа не вполне устраивают. Но поскольку эти два метода

    решают одинаковые задачи, необходимо сравнить результаты компонентного и


    факторного анализов, т. е. матрицы нагрузок, а также уравнения регрессии на

    главные компоненты и общие факторы, прокомментировать сходство и различия

    результатов.

    Максимально возможное количество факторов m при заданном числе признаков р определяется неравенством

    (р+m)<(р-m)2,

    В завершение всей процедуры факторного анализа с помощью математических преобразований выражают факторы fj через исходные признаки, то есть получают в явном виде параметры линейной диагностической модели.

    Методы главных компонент и факторного анализа представляют собой совокупность статистических процедур, направленных на выделение из заданного множества переменных подмножеств переменных, тесно связанных (коррелирующих) между собой. Переменные, входящие в одно подмножество и коррелирующие между собой, но в значительной степени независимые от переменных из других подмножеств, образуют факторы1 . Цель факторного анализа - идентифицировать явно не наблюдаемые факторы с помощью множества наблюдаемых переменных.

    Общее выражение для j -го фактора может быть записано так:

    где Fj (j изменяется от 1 до k ) - это общие факторы, Ui - характерный, Aij - константы, используемые в линейной комбинации k факторов. Характерные факторы могут не коррелировать друг с другом и с общими факторами.

    Процедуры факторно-аналитической обработки, применяемые к полученным данным, различны, но структура (алгоритм) анализа состоит из одних и тех же основных этапов: 1. Подготовка исходной матрицы данных. 2. Вычисление матрицы взаимосвязей признаков. 3. Факторизация (при этом необходимо указать количество факторов, выделяемых в ходе факторного решения, и метод вычисления). На этом этапе (как и на следующем) можно также оценить, насколько хорошо полученное факторное решение сближает исходные данные. 4. Вращение - преобразование факторов, облегчающее их интерпретацию. 5. Подсчет факторных значений по каждому фактору для каждого наблюдения. 6. Интерпретация данных .

    изобретение факторного анализа было связано именно с необходимостью одновременного анализа большого количества коэффициентов корреляции различных шкал между собой. Одна из проблем, связанных с методами главных компонент и факторного анализа заключается в том, что критериев, которые позволяли бы проверить правильность найденного решения, не существует. Например, при регрессионном анализе можно сопоставить показатели по зависимым переменным, полученные эмпирическим путем, с показателями, вычисленными теоретически на основе предлагаемой модели, и использовать корреляцию между ними как критерий правильности решения по схеме корреляционного анализа для двух наборов переменных. В дискриминантном анализе правильность решения базируется на том, насколько точно предсказана принадлежность испытуемых к тем или иным классам (если сравнивать с реальной принадлежностью, имеющей место в жизни). К сожалению, в методах главных компонент и факторного анализа не существует такого внешнего критерия, позволяющего судить о правильности решения, Вторая проблема заключается в том, что после выделения факторов возникает бесконечное множество вариантов вращения, базирующихся на тех же исходных переменных, но дающих разные решения (факторные структуры определяются несколько иным образом). Окончательный выбор между возможными альтернативами внутри бесконечного множества математически равнозначных решений зависит от содержательного осмысления исследователями результатов интерпретации. А поскольку объективного критерия для оценки различных решений нет, предлагаемые обоснования выбора решения могут казаться голословными и неубедительными.

    Третья проблема заключается в том, что факторный анализ довольно часто применяют с целью спасти плохо продуманное исследование, когда становится ясно, что ни одна статистическая процедура не дает желаемого результата. Мощь методов главных компонент и факторного анализа позволяет из хаотичной информации выстроить упорядоченную концепцию (что и создает им сомнительную репутацию).

    Вторая группа терминов относится к матрицам, которые строятся и интерпретируются как часть решения. Поворот факторов - это процесс поиска наиболее легко интерпретируемого решения для данного количества факторов. Существуют два основных класса поворотов: ортогональный и косоугольный . В первом случае все факторы априорно выбираются ортогональными (не коррелирующими друг с другом) и строится матрица факторных нагрузок , представляющая собой матрицу взаимосвязей между наблюдаемыми переменными и факторами. Величина нагрузок отражает степень связи каждой наблюдаемой переменной и каждым фактором и интерпретируется как коэффициент корреляции между наблюдаемой переменной и фактором (латентной переменной), а потому изменяется в пределах от -1 до 1. Решение, полученное после ортогонального поворота, интерпретируется на основе анализа матрицы факторных нагрузок путем выявления того, с каким из факторов в максимальной степени связана та или иная наблюдаемая переменная. Таким образом, каждый фактор оказывается заданным группой первичных переменных, имеющих по нему наибольшие факторные нагрузки.

    Если выполняется косоугольное вращение (т. е. априорно допускается возможность корреляции факторов между собой), то строится еще несколько дополнительных матриц. Матрица факторной корреляции содержит корреляции между факторами. Матрица факторных нагрузок , упомянутая выше, расщепляется на две: структурную матрицу взаимосвязей между факторами и переменными и матрицу факторного отображения , выражающую линейные взаимосвязи между каждой наблюдаемой переменной и каждым фактором (без учета влияния наложения одних факторов на другие, выражаемого корреляцией факторов между собой). После косоугольного вращения интерпретация факторов происходит на основе группировки первичных переменных (подобно тому, как было описано выше), но уже с использованием в первую очередь матрицы факторного отображения.

    Наконец, для обоих поворотов вычисляется матрица коэффициентов факторных значений , используемая в специальных уравнениях регрессионного типа для вычисления факторных значений (факторных баллов, показателей по факторам) для каждого наблюдения на основе значений для них первичных переменных.

    Сравнивая методы главных компонент и факторного анализа, отметим следующее. В ходе выполнения анализа по методу главных компонент строится модель для наилучшего объяснения (максимального воспроизведения) полной дисперсии экспериментальных данных, полученных по всем переменным. В результате выделяются «компоненты». При факторном анализе предполагается, что каждая переменная объясняется (детерминируется) некоторым количеством гипотетических общих факторов (влияющих на все переменные) и характерными факторами (для каждой переменной своими). И вычислительные процедуры выполняются таким образом, чтобы освободиться как от дисперсии, полученной в результате ошибки измерения, так и от дисперсии, объясняемой специфичными факторами, и анализировать только дисперсии, объясняемые гипотетически существующими общими факторами. В результате получаются объекты, называемые факторами. Однако, как уже упоминалось, с содержательно-психологической точки зрения эта разница в математических моделях существенного значения не имеет, поэтому в дальнейшем, если не дается особых пояснений, о каком именно случае идет речь, мы будем использовать термин «фактор» как по отношению к компонентам, так и по отношению к факторам.

    Размеры выборки и пропущенные данные. Чем больше выборка, тем больше достоверность показателей взаимосвязи. Поэтому очень важно иметь достаточно большую выборку. Требуемый размер выборки также зависит от степени взаимосвязи показателей в популяции в целом и количества факторов: при сильной и достоверной взаимосвязи и небольшом количестве четко очерченных факторов будет достаточно и не очень большой выборки.

    Так, выборка, размер которой 50 испытуемых, оценивается как очень плохая, 100 - плохая, 200 - средняя, 300 - хорошая, 500 - очень хорошая и 1000 - превосходная (Comrey, Lee , 1992). Исходя из этих соображений, в качестве общего принципа можно порекомендовать исследовать выборки не менее 300 испытуемых. Для решения, базирующегося на достаточном количестве маркерных переменных с высокими факторными нагрузками (>0.80) достаточно выборки порядка 150 испытуемых (Guadagnoli, Velicer , 1988). нормальность для каждой переменной в отдельности проверяется по асимметрии (насколько кривая изучаемого распределения сдвинута вправо или влево по сравнению с теоретически нормальной кривой) и эксцессу (степень вытянутости вверх или прогнутости вниз «колокола» имеющегося распределения, визуально представленного в частотной диаграмме, в сравнении с «колоколом» графика плотности, характерным для нормального распределения). Если переменная имеет существенные асимметрию и эксцесс, то ее можно преобразовать, введя новую переменную (как однозначную функцию от рассматриваемой) таким образом, чтобы эта новая переменная была распределена нормально (подробнее об этом см.: Tabachnik, Fidell , 1996, гл. 4).

    Собственные векторы и соответствующие собственные числа
    для рассматриваемого учебного примера

    Собственный вектор 1

    Собственный вектор 2

    Собственное значение 1

    Собственное значение 2

    Поскольку корреляционная матрица диагонализируема, то для получения результатов факторного анализа к ней можно применять матричную алгебру собственных векторов и собственных величин (см. Приложение 1). Если матрица диагонализируема, то вся существенная информация о факторной структуре содержится в ее диагональной форме. В факторном анализе собственные числа соответствуют дисперсии, объясняемой факторами. Фактор с наибольшей собственной величиной объясняет наибольшую дисперсию и т. д., пока не доходит до факторов с небольшими или отрицательными собственными величинами, которые обычно не учитываются при анализе. Матрица факторных нагрузок является матрицей взаимосвязей (интерпретируемых как коэффициенты корреляций) между факторами и переменными. Первый столбец - это корреляции между первым фактором и каждой переменной по очереди: стоимость путевки (-.400), комфортабельность комплекса (.251), температура воздуха (.932), температура воды (.956). Второй столбец - это корреляции между вторым фактором и каждой переменной: стоимость путевки (.900), комфортабельность комплекса (-.947), температура воздуха (.348), температура воды (.286). Фактор интерпретируется на основе сильно связанных с ним (т. е. имеющих по нему высокие нагрузки) переменных. Так, первый фактор главным образом «климатический» (температура воздуха и воды ), в то время как второй «экономический» (стоимость путевки и комфортабельность комплекса ).

    Интерпретируя эти факторы, следует обратить внимание на то, что переменные, имеющие высокие нагрузки по первому фактору (температура воздуха и температура воды ), взаимосвязаны положительно, тогда как переменные, имеющие высокие нагрузки по второму фактору (стоимость путевки и комфортабельность комплекса ), взаимосвязаны отрицательно (от дешевого курорта нельзя ожидать большой комфортабельности). Первый фактор называется униполярным (все переменные сгруппированы на одном полюсе), а второй - биполярным (переменные распались на две противоположные по смыслу группы - два полюса). Переменные, имеющие факторные нагрузки со знаком «плюс», образуют положительный полюс, а со знаком «минус» - отрицательный. При этом названия полюсов «положительный» и «отрицательный» при интерпретации фактора не имеют оценочного смысла «плохой» и «хороший». Выбор знака происходит во время вычислений случайным образом. Ортогональное вращение

    Вращение обычно применяется после выделения факторов для максимизации высоких корреляций и минимизации низких. Существуют многочисленные методы вращения, но чаще всего используется поворот варимакс , представляющий собой процедуру максимизации дисперсий. Этот поворот максимизирует дисперсии факторных нагрузок, делая высокие нагрузки выше, а низкие ниже для каждого из факторов. Эта цель достигается с помощью матрицы преобразования Λ:

    Матрица преобразования - это матрица синусов и косинусов угла Ψ, на который выполняется поворот. (Отсюда и название преобразования - поворот , потому что с геометрической точки зрения происходит поворот осей вокруг начала координат факторного пространства.) Выполнив поворот и получив матрицу факторных нагрузок после поворота, можно проанализировать серию других показателей (см. табл. 4). Общность переменной - это дисперсия, рассчитанная с помощью факторных нагрузок. Это квадратичная множественная корреляция переменной, предсказанная факторной моделью. Общность вычисляется как сумма квадратов факторных нагрузок (СКН) для переменной по всем факторам. В табл. 4 общность для стоимости путевки равна (-.086)2+(.981)2 = .970, т. е. 97% дисперсии стоимости путевки объясняется факторами 1 и 2.

    Доля дисперсии фактора по всем переменным - это СКН по фактору, деленная на количество переменных (в случае ортогонального вращения)7 . Для первого фактора доля дисперсии равна:

    [(-.086)2+(-.071)2+(.994)2+(.997)2]/4 = 1.994/4 = .50,

    т. е. первый фактор объясняет 50% дисперсии переменных. Второй фактор объясняет 48% дисперсии переменных и (в силу ортогональности вращения) два фактора в сумме объясняют 98% дисперсии переменных.

    Связь между факторными нагрузками, общностями, СКН,
    дисперсией и ковариацией ортогональных факторов после поворота

    Общности (h2 )

    Стоимость путевки

    ∑a2 =.970

    Уровень комфорта

    ∑a2 =.960

    Температура воздуха

    ∑a2 =.989

    Температура воды

    ∑a2 =.996

    ∑a2 =1.994

    ∑a2 =1.919

    Доля дисперсии

    Доля ковариации

    Доля дисперсии решения, объясняемая фактором, - доля ковариации - это СКН для фактора, деленная на сумму общностей (сумму СКН по переменным). Первый фактор объясняет 51% дисперсии решения (1.994/3.915); второй - 49% (1.919/3.915); два фактора вместе объясняют всю ковариацию.

    Eigenval – отражают величину дисперсии соответствующего количества факторов. В качестве упражнения рекомендуем выписать все эти формулы для получения расчетных значений по переменным. Например, для первого респондента:

    1.23 = -.086(1.12) + .981(-1.16)

    1.05 = -.072(1.12) - .978(-1.16)

    1.08 = .994(1.12) + .027(-1.16)

    1.16 = .997(1.12) - .040(-1.16)

    Или в алгебраической форме:

    Z стоимости путевки = a 11F 1 + a 12F 2

    Z комфортабельности комплекса = a 2lF 1 + a 22F 2

    Z температуры воздуха = a 31F 1 + a 32F 2

    Z температуры воды = a 41F 1 + a 42F 2

    Чем больше нагрузка, тем с большей уверенностью можно считать, что переменная определяет фактор. Комри и Ли (Comrey, Lee , 1992) предполагают, что нагрузки, превышающие 0.71 (объясняет 50% дисперсии), - превосходные, 0% дисперсии) - очень хорошие, 0%) - хорошие, 0%) - удовлетворительные и 0.32 (объясняет 10% дисперсии) - слабые.

    Предположим, что вы проводите (до некоторой степени "глупое") исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, например, влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные? Вероятно, нет, т. к. рост является одной характеристикой человека, независимо от того, в каких единицах он измеряется.

    Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния . Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили число переменных и заменили две одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.