Основни уравнения и процедури за факторен анализ. Постановка на проблема и изграждане на корелационната матрица Характеристики на метода на главните компоненти

СТЪПКИ ЗА ИЗПЪЛНЕНИЕ НА ФАКТОРЕН АНАЛИЗ

Има девет етапа на факторния анализ. За по-голяма яснота представяме тези етапи в диаграма и след това ги описваме накратко.

Етапите на извършване на факторния анализ са показани на фиг.

ориз.

ФОРМУЛИРАНЕ НА ПРОБЛЕМА И КОНСТРУКЦИЯ НА КОРЕЛАЦИОННАТА МАТРИЦА

Формулиране на проблема.Необходимо е ясно да се дефинират целите на факторния анализ. Променливите, предмет на факторен анализ, се задават въз основа на минали изследвания, теоретични съображения или по преценка на изследователя. Необходимо е променливите да се измерват по отношение на интервалили роднинамащаб. Опитът показва, че размерът на извадката трябва да бъде четири до пет пъти по-голям от броя на променливите.

Изграждане на корелационна матрица.Анализът се основава на корелационна матрица между променливите. Възможността за извършване на факторен анализ се определя от наличието на корелации между променливите. Ако корелациите между всички променливи са малки, тогава факторният анализ е безполезен. Променливите, които са силно корелирани, обикновено са силно корелирани със същия фактор или фактори.

Има няколко статистически данни за тестване на осъществимостта на използването на факторен модел. Използвайки теста на Бартлет за сферичност, се тества нулевата хипотеза, че няма корелация между променливите в популацията. Това означава, че това, което се разглежда, е твърдението, че корелационната матрица на населението е матрица на идентичност, в която всички диагонални елементи са равни на единица, а всички останали са равни на нула. Тестът за сферичност се основава на преобразуване на детерминантата на корелационната матрица в хи-квадрат статистика. При голямо значениестатистиците отхвърлят нулевата хипотеза. Ако нулевата хипотеза не е отхвърлена, тогава факторният анализ не е подходящ. Друга полезна статистика е тестът на Кайзер-Майер-Олкин (KMO) за адекватност на извадката. Този коефициент сравнява стойностите на наблюдаваните коефициенти на корелация със стойностите на частичните коефициенти на корелация. Малките стойности на статистиката на KMO показват, че корелациите между двойки променливи не могат да бъдат обяснени с други променливи, което означава, че използването на факторен анализ е неподходящо.

Следващият пример се основава на фиктивни данни, свързани с изследването на удовлетвореността от живота. Да предположим, че въпросникът е изпратен на 100 произволно избрани възрастни. Въпросникът съдържа 10 елемента, предназначени да измерват удовлетворението от работата, удовлетворението от хобитата, удовлетворението от домашния живот и общото удовлетворение в други области на живота. Отговорите на елементите бяха въведени в компютър и мащабирани, така че средната стойност на всички елементи беше приблизително 100.

Резултатите бяха поставени във файла с данни Factor.sta. Можете да отворите този файл с помощта на опцията File - Open; Най-вероятно този файл с данни се намира в директорията /Examples/Datasets. По-долу е даден списък на променливите в този файл (за да получите списък, изберете Всички спецификации на променливи от менюто Данни).

Цел на анализа . Целта на анализа е да се изследват взаимовръзките между удовлетвореността в различни области на дейност. По-специално, желателно е да се проучи въпросът за броя на факторите, „скрити“ зад различни области на дейност и тяхното значение.

Избор на анализ. Изберете Факторен анализ от менюто Анализ - Многовариантен проучвателен анализ, за ​​да се покаже стартовият панел на модула Факторен анализ. Щракнете върху бутона Променливи на панела за стартиране (вижте по-долу) и изберете всичките 10 променливи в този файл.



Други опции . Този диалогов прозорец съдържа всичко необходимо за извършване на стандартен факторен анализ. Да получаваш кратък прегледЗа други команди, налични от панела за стартиране, можете да изберете корелационна матрица като входен файл (използвайки полето Файл с данни). В полето Премахване на PD можете да изберете елиминиране по редове или по двойки или вменяване на средна стойност за липсващи данни.

Задайте метода за извличане на фактор. Сега натиснете бутона OK, за да преминете към следващия диалогов прозорецс името Посочете метода за извличане на фактор. С помощта на този диалогов прозорец можете да видите описателна статистика, да извършите множествен регресионен анализ, да изберете метод за извличане на фактор, да изберете максимален брой фактори, минимални собствени стойности и други действия, свързани със спецификата на методите за извличане на фактор. Сега нека отидем в раздела Описателен.



Вижте описателна статистика. Сега щракнете върху бутона View corr./average/std.deviation. в този прозорец, за да отворите прозореца Преглед на описателна статистика.



Вече можете да преглеждате описателни статистики графично или като използвате таблици с резултати.

Изчисляване на корелационната матрица. Щракнете върху бутона Корелации в раздела Разширени, за да покажете таблица с резултати с корелации.



Всички корелации в тази таблица с резултати са положителни, а някои корелации са със значителна величина. Например, променливите Hobby_1 и Miscel_1 са корелирани на ниво 0,90. Някои корелации (например корелации между удовлетворението на работа и удовлетворението у дома) изглеждат относително малки. Изглежда, че матрицата има някаква различна структура.

Метод на избор. Сега щракнете върху Отказ в диалоговия прозорец Преглед на описателна статистика, за да се върнете към диалоговия прозорец Указване на метода за извличане на фактор. Можете да избирате от няколко метода за извличане в раздела Разширени (вижте раздела Разширени на диалоговия прозорец Указване на метода за извличане на фактор за описание на всеки метод, както и Уводния преглед за описание на метода на основните компоненти и метода на основните фактори ). В този пример методът по подразбиране е Основни компоненти, Максимално поле. брой фактори съдържа стойността 10 (максималния брой фактори в този пример) и полето Min. собствени стойността съдържа 0 (минималната стойност за тази команда).



За да продължите анализа, щракнете върху OK.

Вижте резултатите. Можете да видите резултатите от факторния анализ в диалоговия прозорец Резултати от факторния анализ. Първо изберете раздела Variance Explained.



Показване на собствени стойности . Целта на собствените стойности и тяхната полезност за потребителя при вземането на решение колко фактора да се запазят (тълкуват) са описани в Уводния преглед. Сега щракнете върху бутона Собствени стойности, за да получите таблица със собствени стойности, процент от общата дисперсия, натрупани собствени стойности и натрупани проценти.


Както може да се види от таблицата, собствената стойност за първия фактор е 6.118369; тези. пропорцията на дисперсията, обяснена от първия фактор, е приблизително 61,2%. Имайте предвид, че тези стойности се оказват лесно сравними тук, тъй като се анализират 10 променливи и следователно сумата от всички собствени стойности се оказва равна на 10. Вторият фактор включва около 18% от дисперсията. Други фактори съдържат не повече от 5%обща дисперсия.Избор на броя на факторите. Разделът за уводен преглед накратко описва как получените собствени стойности могат да се използват, за да се реши колко фактора да се запазят в модела. Според критерия на Кайзер (Kaiser, 1960), трябва да запазите фактори със собствени стойности, по-големи от 1. От таблицата по-горе изглежда, че критерият води до избор на два фактора.

Сипеен критерий . Сега щракнете върху бутона Scree Plot, за да получите диаграма на собствените стойности за целите на прилагане на критерия за сипеи на Cattell (Cattell, 1966). Графиката по-долу е допълнена с линейни сегменти, свързващи съседни собствени стойности, за да направи критерия по-визуален. Кател твърди, въз основа на метода Монте Карло, че точката, в която непрекъснатият спад на собствените стойности се забавя и отвъд която нивото на останалите собствени стойности отразява само произволен „шум“. В графиката по-долу тази точка може да съответства на коефициент 2 или 3 (както е показано със стрелките). Затова опитайте и двете решения и вижте кое дава по-адекватна картина.



Сега нека да разгледаме факторните натоварвания.

Факторни натоварвания . Както е описано в раздела Уводен преглед, факторните натоварвания могат да се интерпретират като корелации между фактори и променливи. Следователно те представляват най важна информация, на които се базира интерпретацията на факторите. Нека първо да разгледаме (незавъртените) факторни натоварвания за всичките десет фактора. В раздела Натоварвания на диалоговия прозорец Резултати от анализа на факторите, в полето Ротация на фактора, задайте стойността без ротация и щракнете върху бутона Натоварвания на фактора, за да се покаже таблицата на натоварването.



Припомнете си, че изборът на фактори се извършва по такъв начин, че последващите фактори включват все по-малко и по-малко отклонение (вижте раздела за уводен преглед). Ето защо не е изненадващо, че първият фактор има най-голямо натоварване. Обърнете внимание, че знаците за факторни натоварвания са значими само за да покажат, че променливи с противоположни натоварвания на един и същ фактор взаимодействат с този фактор по противоположни начини. Можете обаче да умножите всички натоварвания в колоната по -1 и да обърнете знаците. Във всички останали аспекти резултатите ще останат непроменени.

Завъртане на факторното решение. Както е описано в раздела Уводен преглед, действителната ориентация на факторите във факторното пространство е произволна и всяка факторна ротация възпроизвежда корелации, както и други ротации. Следователно изглежда естествено да се ротират факторите по такъв начин, че да се избере най-лесната факторна структура за тълкуване. Всъщност терминът проста структура е измислен и дефиниран от Thurstone (1947) предимно за описание на условия, при които факторите имат високи натоварвания върху някои променливи и ниски натоварвания върху други, и когато има няколко големи кръстосани натоварвания, т.е. има няколко променливи със значителни натоварвания върху повече от един фактор. Най-стандартният изчислителен ротационен метод за получаване на проста структура е методът на варимакс ротация, предложен от Kaiser (1958). Други методи, предложени от Харман (1967), са методите на квартимакс, биквартимакс и еквимакс (виж Харман, 1967).

Избор на ротация . Първо помислете за броя на факторите, които искате да оставите за ротация и интерпретация. Преди това беше решено, че най-правдоподобният и приемлив брой фактори са два, но въз основа на критерия за сипеи беше решено да се разгледа и решение с три фактора. Щракнете върху бутона Отказ, за ​​да се върнете към диалоговия прозорец Задаване на метода за извличане на фактор и променете полето Максимален брой фактори в раздела Бързо от 10 на 3, след което щракнете върху бутона OK, за да продължите анализа.

Сега нека извършим завъртането с помощта на метода varimax. В раздела Натоварвания на диалоговия прозорец Резултати от анализ на фактора, в полето Ротация на фактора, задайте Varimax на първоначалната стойност.



Щракнете върху бутона Факторни зареждания, за да покажете резултатите от получените факторни зареждания в таблицата.


Показване на решението чрез завъртане на трите фактора. Таблицата показва значителни натоварвания на първия фактор за всички променливи, с изключение на тези, свързани с дома. Фактор 2 има доста значителни натоварвания за всички променливи, с изключение на тези, свързани с удовлетворението от работата. Фактор 3 има само едно значително натоварване на променливата Home_1. Фактът, че само една променлива натоварва силно третия фактор, кара човек да се чуди дали резултатът може да бъде също толкова добър без третия фактор?

Преглед на решението при ротация на два фактора . Щракнете отново върху бутона Отказ в диалоговия прозорец Резултати от факторен анализ, за ​​да се върнете към диалоговия прозорец Указване на метода за извличане на фактор. Променете полето Максимален брой фактори в раздела Бързо от 3 на 2 и щракнете върху OK, за да отидете в диалоговия прозорец Резултати от факторния анализ. В раздела Loadings, в полето Factor rotation, задайте Varimax на първоначалната стойност и щракнете върху бутона Factor loadings.


Фактор 1, както се вижда от таблицата, има най-високи натоварвания за променливи, свързани с удовлетворението от работата. Има най-малки натоварвания за променливи, свързани с удовлетворението от дома. Други натоварвания приемат междинни стойности. Фактор 2 има най-високи натоварвания за променливи, свързани с удовлетворението у дома, най-ниски натоварвания за удовлетворение на работа и средни натоварвания за останалите променливи.

Интерпретация на решението за двуфакторна ротация . Възможно ли е да се тълкува този модел? Изглежда, че двата фактора са най-добре идентифицирани като фактор за удовлетворение от работата (фактор 1) и фактор за удовлетворение от домашния живот (фактор 2). Удовлетворението от хобитата и различни други аспекти на живота изглежда е свързано и с двата фактора. Този модел предполага по някакъв начин, че удовлетворението от работата и домашния живот в тази извадка може да са независими едно от друго, но и двете допринасят за удовлетворението от хобита и други аспекти на живота.

Диаграма на решение, базирано на ротация на два фактора . За да получите диаграма на разсейване на два фактора, щракнете върху бутона 2M loading plot в раздела Loadings на диалоговия прозорец Резултати от факторен анализ. Показаната по-долу диаграма просто показва две зареждания за всяка променлива. Имайте предвид, че диаграмата на разсейване добре илюстрира два независими фактора и 4 променливи (Hobby_1, Hobby_2, Miscel_1, Miscel_2) с кръстосано натоварване.



Сега нека видим колко добре наблюдаваната ковариационна матрица може да бъде възпроизведена от двуфакторно решение.

Репликирана и остатъчна корелационна матрица. Щракнете върху бутона Възпроизведени и остатъчни корелации в раздела Обяснена вариация, за да получите две таблици с възпроизведената корелационна матрица и матрицата на остатъчните корелации (наблюдавани минус възпроизведени корелации).



Записите в таблицата с остатъчни корелации могат да се тълкуват като „сума“ от корелации, които не могат да бъдат отчетени от двата резултатни фактора. Разбира се, диагоналните елементи на матрицата съдържат стандартното отклонение, за което тези фактори не могат да бъдат отчетени, което е равно на корен квадратен от едно минус съответните общности за двата фактора (припомнете си, че общността на една променлива е дисперсията което може да се обясни с избрания брой фактори). Ако се вгледате внимателно в тази матрица, можете да видите, че практически няма остатъчни корелации, по-големи от 0,1 или по-малки от -0,1 (всъщност само малък брой от тях са близки до тази стойност). Добавете към това, че първите два фактора представляват около 79% от общата дисперсия (вижте натрупания % от собствените стойности в таблицата с резултати).

"тайна" добър пример . Примерът, който току-що проучихте, всъщност дава решение на двуфакторния проблем, което е близко до идеалното. Той отчита по-голямата част от дисперсията, има разумна интерпретация и възпроизвежда корелационна матрица с умерени отклонения (остатъчни корелации). Всъщност реалните данни рядко позволяват да се получи такова просто решение и в действителност този фиктивен набор от данни е получен с помощта на генератор произволни числас нормално разпределение, налично в системата. По специален начин в данните бяха „въведени“ два ортогонални (независими) фактора, според които се генерираха корелации между променливите. Този пример за факторен анализ възпроизвежда двата фактора такива, каквито са били (т.е. факторът за удовлетворение от работата и факторът за удовлетворение от домашния живот). По този начин, ако едно явление (а не изкуствени данни, както в примера) съдържа тези два фактора, тогава, като ги изолирате, можете да научите нещо за скритата или латентна структура на феномена.

Други резултати . Преди да направим окончателно заключение, даваме кратки коментари за други резултати.

Общи черти . За да получите обобщенията на решението, щракнете върху бутона Общи положения в раздела Обяснена вариация на диалоговия прозорец Резултати от факторния анализ. Спомнете си, че общността на една променлива е пропорцията на дисперсията, която може да бъде възпроизведена при даден брой фактори. Завъртането на факторното пространство не влияе на големината на общността. Много ниските общности за една или две променливи (от многото в анализа) може да показват, че тези променливи не са много добре обяснени от модела.

Стойностни коефициенти. Факторните коефициенти могат да се използват за изчисляване на факторни стойности за всяко наблюдение. Самите коефициенти обикновено не представляват голям интерес, но стойностите на факторите са полезни за по-нататъшен анализ. За да покажете коефициентите, щракнете върху бутона Коефициенти на факторни стойности в раздела Стойности на диалоговия прозорец Резултати от факторен анализ.

Факторни стойности. Стойностите на факторите могат да се разглеждат като текущите стойности за всеки анкетиран респондент (т.е. за всяко наблюдение в оригиналната таблица с данни). Бутонът Стойности на факторите в раздела Стойности на диалоговия прозорец Резултати от анализа на факторите ви позволява да изчислявате стойностите на факторите. Тези стойности могат да бъдат запазени за по-късно, като щракнете върху бутона Запазване на стойностите.

Последен коментар. Факторният анализ не е проста процедура. Всеки, който постоянно използва факторен анализс много (например 50 или повече) променливи, може да видите много примери за "патологично поведение", като например: отрицателни собствени стойности и неинтерпретируеми решения, специални матрици и др. Ако се интересувате от използването на факторен анализ за определяне или определяне на значимите фактори на голям брой променливи, трябва внимателно да проучите някои подробно ръководство(напр. книгата на Харман (Harman, 1968)). По този начин, тъй като много критични решения във факторния анализ са субективни по природа (брой фактори, метод на ротация, тълкуване на натоварванията), бъдете подготвени, че е необходим известен опит, преди да се почувствате уверени в него. Модулът за факторен анализ е проектиран специално, за да улесни потребителя при интерактивното превключване между тях различен номерфактори, ротации и т.н., така че различни решения да могат да бъдат тествани и сравнени.

Този пример е взет от системата за помощ на PPP STATISTICAот StatSoft

Национален изследователски ядрен университет "МИФИ"
Факултет по бизнес информатика и управление
сложни системи
Катедра Икономика и управление
в индустрията (№ 71)
Математически и инструментални методи за обработка
статистическа информация
Киреев V.S.,
д-р, доцент
Имейл:
Москва, 2017 г
1

Нормализация

Десетично мащабиране
Минимаксна нормализация
Нормализация чрез стандартна трансформация
Нормализация чрез поелементни трансформации
2

Десетично мащабиране

Vi
"
Vi k, макс. (Vi) 1
10
"
3

Минимаксна нормализация

Vi
Vi min (Vi)
"
аз
макс. (Vi) мин. (Vi)
аз
аз
4

Нормализация с помощта на стандартно отклонение

Vi
"
V
V
Ви В
V
- селективни
средно
- примерен среден квадрат
отклонение
5

Нормализация чрез поелементни трансформации

Vi f Vi
"
Vi 1
"
log Vi
, Vi log Vi
"
Vi exp Vi
"
Vi Vi , Vi 1 г
Vi
"
г
"
6

Факторен анализ

(FA) е набор от методи, които
основа на реално съществуващи връзки на анализираните характеристики, самите връзки
наблюдавани обекти, ви позволяват да идентифицирате скрити (имплицитни, латентни)
обобщаващи характеристики на организационната структура и механизма за развитие
явления и процеси, които се изучават.
Основно се използват методите на факторния анализ в изследователската практика
начин с цел компресиране на информация, получаване на малък брой обобщения
характеристики, които обясняват променливостта (дисперсията) на елементарни характеристики (R-техника на факторния анализ) или променливостта на наблюдаваните обекти (Q-техника
факторен анализ).
Алгоритмите за факторен анализ се основават на използването на намалени
матрици на двойни корелации (ковариации). Намалената матрица е матрица
главният диагонал на който няма единици (оценки) на пълна корелация или
оценки на общата дисперсия и техните редуцирани, донякъде редуцирани стойности. При
Това постулира, че анализът няма да обясни цялата дисперсия.
характеристики (обекти), които се изучават, и някои от тях, обикновено големи. оставащи
необяснимата част от дисперсията е характеристиката, която възниква поради специфичност
наблюдавани обекти или грешки, допуснати при записване на явления, процеси,
тези. ненадеждност на входните данни.
7

Класификация на методите на ФА

8

Метод на главния компонент

(MGK) се използва за намаляване на размерността
пространство на наблюдаваните вектори, без да води до значителна загуба
информационно съдържание. Предпоставката на PCA е нормалният закон за разпределение
многомерни вектори. В PCA се дефинират линейни комбинации от случайни променливи
характеристика
вектори
ковариация
матрици.
Основен
компоненти представляват ортогонална координатна система, в която дисперсиите
компонентите се характеризират със своите статистически свойства. MGC не е класифициран като FA, въпреки че има
подобен алгоритъм и решава подобни аналитични проблеми. Основната му разлика
се състои в това, че на обработка подлежи не намалената, а обикновената матрица
двойни корелации, ковариации, по главния диагонал на които са разположени единици.
Нека е даден начален набор от вектори X на линейното пространство Lk. Приложение
метод на главните компоненти ни позволява да отидем до основата на пространството Lm (m≤k), така
че: първият компонент (първият базисен вектор) съответства на посоката по
при което дисперсията на векторите на оригиналния набор е максимална. Посока две
компоненти (на втория базисен вектор) се избира по такъв начин, че дисперсията на началния
вектори по него е максимален при условие за ортогоналност на първия вектор
база. Останалите базисни вектори се определят по подобен начин. В резултат на това насоки
базисните вектори са избрани, за да се увеличи максимално дисперсията на оригиналния набор
покрай първите компоненти, наречени главни компоненти (или принципал
оси).Оказва се, че основната променливост на векторите на оригиналния набор от вектори
представени от първите няколко компонента, и възниква възможност, изхвърляне
по-малко важни компоненти, преместете се в пространство с по-ниско измерение.
9

10. Метод на главния компонент. Схема

10

11. Метод на главния компонент. Матрица на акаунта

Матрицата за броене T ни дава проекции на оригиналните проби (J-измерен
вектори
x1,…,xI)
на
подпространство
основен
компонент
(А-измерен).
Редовете t1,…,tI на матрицата T са координатите на пробите в нова системакоординати
Колоните t1,…,tA на матрицата T са ортогонални и представляват проекции на всички проби върху
една нова координатна ос.
При изучаване на данни по метода PCA се обръща специално внимание на графиките
сметки. Те носят информация, полезна за разбиране как
данни. На графиката за броене всяка проба е изобразена в координати (ti, tj), най-често
– (t1, t2), означени PC1 и PC2. Близостта на две точки означава тяхното сходство, т.е.
положителна корелация. Точките, разположени под прав ъгъл, са
некорелирани, а диаметрално противоположните имат
отрицателна корелация.
11

12. Метод на главния компонент. Заредете матрицата

Матрицата на натоварване P е матрицата на прехода от оригиналното пространство
променливи x1, …xJ (J-измерно) в пространството на главните компоненти (A-измерно). всеки
ред на матрицата P се състои от коефициенти, свързващи променливите t и x.
например, а-ти реде проекцията на всички променливи x1, ...xJ върху а-та ососновен
компонент. Всяка колона P е проекцията на съответната променлива xj върху нова
координатна система.
Графиката на натоварването се използва за изследване на ролята на променливите. На това
В графиката всяка променлива xj е представена от точка в координати (pi, pj), напр.
(p1, p2). Анализирайки го подобно на сметкоплана, можете да разберете кои променливи
са свързани и които са независими. Съвместно изследване на сдвоени графики на сметки и
натоварва, също може да даде много полезна информацияотносно данните.
12

13. Характеристики на метода на главните компоненти

Методът на главния компонент се основава на следните предположения:
предположението, че размерността на данните може да бъде ефективно намалена
чрез линейна трансформация;
предположението, че най-много информация се носи от тези посоки, в които
дисперсията на входните данни е максимална.
Лесно се вижда, че тези условия не винаги са изпълнени. например,
ако точките от входното множество са разположени на повърхността на хиперсферата, тогава не
линейната трансформация няма да може да намали размерността (но може лесно да се справи с това
нелинейна трансформация на базата на разстоянието от точка до центъра на сферата).
Този недостатък е еднакво характерен за всички линейни алгоритми и може да бъде
преодолейте чрез използване на допълнителни фиктивни променливи, които са
нелинейни функции от елементи на входния набор от данни (т.нар. трик на ядрото).
Вторият недостатък на метода на главния компонент е, че посоките
Тези, които максимизират дисперсията, не винаги максимизират информационното съдържание.
Например, променлива с максимална дисперсия може да носи почти никакво
информация, докато променлива с минимална дисперсия позволява
напълно отделни класове. Методът на главния компонент в този случай ще даде
предпочитание към първата (по-малко информативна) променлива. Всички допълнителни
информация, свързана с вектора (например дали изображението принадлежи към един от
класове) се игнорира.
13

14. Примерни данни за MGC

К. Есбенсен. Многовариантен анализ на данни, съкр. платно от английски под
изд. О. Родионова, От Института по химична физика РАН, 2005 г
14

15. Примерни данни за MGC. Наименования

Височина
Височина: в сантиметри
Тегло
Тегло: в килограми
коса
Коса: къса: –1 или дълга:
+1
Обувки
Обувки: европейски размер
стандартен
Възраст
Възраст: в години
доходи
Доходи: в хиляди евро на година
бира
Бира: консумация в литри годишно
Вино
Вино: консумация в литри годишно
секс
Пол: мъжки: –1 или женски: +1
Сила
Сила: индекс, базиран на
тестване на физически способности
Регион
Регион: север: –1 или юг: +1
IQ
IQ,
измерено чрез стандартизиран тест
15

16. Матрица на акаунта

16

17. Натоварваща матрица

17

18. Извадка от обекти в пространството на нови компоненти

Жените (F) са обозначени с кръгове ● и ●, и
мъже (M) – квадратчета ■ и ■. Север (N)
представено със синьо ■ и юг (S) с червено
цвят ●.
Размерът и цветът на символите отразяват доходите - какви
колкото е по-голям и по-лек, толкова е по-голям. Числа
представляват възраст
18

19. Начални променливи в пространството на новите компоненти

19

20. Сипеен парцел

20

21. Метод на основните фактори

В парадигмата на метода на главния фактор, задачата за намаляване на измерението на характеристиката
пространството изглежда като n функции могат да бъдат обяснени с помощта на по-малки
брой m-латентни характеристики - общи фактори, където m<начални характеристики и въведени общи фактори (линейни комбинации)
взети предвид с помощта на така наречените характерни фактори.
Крайната цел на статистическо изследване, проведено с участието на
апаратът за факторен анализ като правило се състои от идентифициране и тълкуване
латентни общи фактори с едновременно желание да се минимизират и двата
брой и степен на зависимост от техния специфичен остатъчен случаен
компонент.
Всеки знак
е резултатът
въздействия на m хипотетични общи и
един характерен фактор:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2m m
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. Ротация на факторите

Ротацията е начин за превръщане на факторите, получени в предишния етап, в
в по-смислени. Ротацията се разделя на:
графика (чертайте оси, не се използва за повече от двуизмерни
анализ),
аналитичен (избира се определен критерий за ротация, ортогонален и
наклонен) и
матрично-приблизително (въртенето се състои в приближаване до определена даденост
целева матрица).
Резултатът от ротацията е вторичната факторна структура. Първичен
факторна структура (състояща се от първични натоварвания (получени от предишния
етап) са всъщност проекции на точки върху ортогонални координатни оси. Очевидно е, че
ако проекциите са нула, тогава структурата ще бъде по-проста. И прогнозите ще бъдат нула,
ако точката лежи на някаква ос. По този начин въртенето може да се счита за преход от
една координатна система към друга с известни координати в една система(
първични фактори) и итеративно избрани координати в друга система
(вторични фактори). При получаване на вторична структура те са склонни да преминат към такава
координатна система, за да начертаете възможно най-много оси през точки (обекти), така че
възможно най-много прогнози (и следователно натоварвания) бяха нулеви. В същото време могат
премахнати са ограниченията на ортогоналността и намаляващата значимост от първия към последния
фактори, характерни за първичната структура.
22

23. Ортогонално въртене

предполага, че ще ротираме факторите, но не
ще нарушим тяхната ортогоналност една спрямо друга. Ортогонално въртене
предполага умножаване на оригиналната основна матрица на натоварване с ортогонална
матрица R (матрица, такава че
V=BR
Алгоритъмът за ортогонално въртене в общия случай е следният:
0. B - матрица на първичните фактори.
1.
Търся
ортогонален
матрица
RT
размер
2*2
За
две
колони (фактори) bi и bj на матрица B, така че критерият за матрицата
R е максимумът.
2.
Заменете колони bi и bj с колони
3.
Проверяваме дали всички колони са сортирани. Ако не, тогава преминете към 1.
4.
Проверяваме дали критерият за цялата матрица се е увеличил. Ако да, тогава преминете към 1. Ако
не, тогава краят на алгоритъма.
.
23

24. Varimax ротация

Този критерий използва формализацията
дисперсия на квадратни натоварвания на променлива:
сложност
фактор
чрез
Тогава критерият като цяло може да се запише като:
В същото време факторните натоварвания могат да бъдат нормализирани, за да се отърват от тях
влияние на отделните променливи.
24

25. Квартимакс ротация

Нека формализираме понятието факторна сложност q на i-тата променлива чрез
дисперсия на квадратни факторни натоварвания на фактори:
където r е броят колони на факторната матрица, bij е факторното натоварване на j-тия
фактор върху i-тата променлива е средната стойност. Критерият за квартимакс се опитва
увеличете максимално сложността на целия набор от променливи, за да постигнете
лекота на интерпретация на факторите (цели да направи описанията на колоните по-лесни):
Като се има предвид това
- константа (сума от собствените стойности на матрицата
ковариация) и разширяване на средната стойност (и също като се вземе предвид, че степенната функция
расте пропорционално на аргумента), получаваме крайната форма на критерия за
максимизиране:
25

26. Критерии за определяне на броя на факторите

Основният проблем на факторния анализ е идентифицирането и интерпретацията
основни фактори. При избора на компоненти изследователят обикновено се сблъсква
значителни трудности, тъй като няма недвусмислен критерий за идентифициране
фактори и следователно субективизмът при тълкуването на резултатите е неизбежен.
Има няколко често използвани критерия за определяне на броя на факторите.
Някои от тях са алтернатива на други, а някои от тях
критериите могат да се използват заедно, така че единият да допълва другия:
Критерий на Кайзер или критерий за собствена стойност. Предлага се този критерий
Kaiser и вероятно е най-широко използваният. Само избрани
фактори със собствени стойности, равни на или по-големи от 1. Това означава, че ако
факторът не разпределя дисперсия, еквивалентна поне на дисперсията на едно
променлива, тогава тя се пропуска.
Сипеен критерий или скрининг критерий. Той е
графичен метод, предложен за първи път от психолога Кател. Собствен
стойностите могат да бъдат изобразени под формата на проста графика. Кател предложи да се намери такъв
мястото на графиката, където намаляването на собствените стойности отляво надясно е максимално
забавя се. Предполага се, че вдясно от тази точка има само
"факториален сипей" - "пързалка" е геоложки термин, който означава
скални фрагменти, натрупани в дъното на скалист склон.
26

27. Критерии за определяне на броя на факторите. Продължение

Критерий за значимост. Това е особено ефективно, когато общият модел
съвкупността е известна и няма вторични фактори. Но критерият е неподходящ
за търсене на промени в модела и се прилагат само във факторния анализ с помощта на метода
най-малки квадрати или максимална вероятност.
Критерий за дела на възпроизводимата дисперсия. Факторите са подредени по дял
детерминирана дисперсия, когато процентът на дисперсията се окаже незначителен,
освобождаването трябва да бъде спряно. Желателно е идентифицираните фактори да бъдат обяснени
повече от 80% от спреда. Недостатъци на критерия: първо, изборът е субективен; второ, спецификата на данните може да е такава, че всички основни фактори да не могат
колективно обяснете желания процент на разпространение. Следователно основните фактори
трябва заедно да обяснят най-малко 50,1% от дисперсията.
Критерий за интерпретируемост и инвариантност. Този критерий комбинира
статистическа прецизност със субективни интереси. Според него основните фактори
могат да бъдат изолирани, стига да е възможно тяхното ясно тълкуване. Тя, в нея
свой ред, зависи от големината на факторните натоварвания, т.е. ако факторът съдържа поне
едно силно натоварване, може да се тълкува. Възможен е и обратният вариант -
ако има силни натоварвания, но интерпретацията е трудна, това
компонентите за предпочитане трябва да се изхвърлят.
27

28. Пример за използване на MGC

Нека
налични
следното
показатели
икономически
дейности
предприятия: интензивност на труда (x1), дял на закупените артикули в производството (x2),
коефициент на смяна на оборудването (x3), дял на работниците в предприятието
(x4), бонуси и награди на служител (x5), рентабилност (y). Линеен
регресионният модел изглежда така:
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5
x1
x2
x3
x4
x5
г
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. Пример за използване на MGC

Изграждането на регресионен модел в статистически пакет показва
коефициентът X4 не е значим (p-стойност > α = 5%) и може да бъде изключен от модела.
Какво
След елиминирането на X4 процесът на изграждане на модела започва отново.
29

30. Пример за използване на MGC

Критерият на Кайзер за PCA показва, че е възможно да се оставят 2 компонента, които обясняват
около 80% от първоначалната дисперсия.
За избраните компоненти можете да съставите уравнения в оригиналната координатна система:
U1 = 0,41*x1 - 0,57*x2 + 0,49*x3 - 0,52*x5
U2 = 0,61*x1 + 0,38*x2 - 0,53*x3 - 0,44*x5
30

31. Пример за използване на MGC

Сега можете да изградите нов регресионен модел в новите компоненти:
y = 15,92 - 3,74*U1 - 3,87*U2
31

32. Метод на разлагане на сингулярна стойност (SVD).

Белтрами и Джордан се считат за основатели на теорията за сингулярността
разграждане. Белтрами – за това, че е първият, публикувал труд по
уникално разлагане и Джордан за елегантността и завършеността на своя
работа. Работата на Белтрами се появи в Journal of Mathematics за
Използването на студентите от италианските университети” през 1873 г., основен
чиято цел беше да запознае учениците с
билинейни форми. Същността на метода е разлагането на матрица A с размер n
x m с ранг d = ранг (M)<= min(n,m) в произведение матриц меньшего
ранг:
A =UDVT,
където матриците U с размер n x d и V с размер m x d се състоят от
ортонормални колони, които са собствени вектори за
ненулеви собствени стойности на матрици AAT и ATA, съответно, и
UTU = V TV = I, а D с размер d x d е диагонална матрица с
положителни диагонални елементи, сортирани в
в низходящ ред. Колоните на матрицата U представляват,
е ортонормална основа на колонното пространство на матрица A и колоните
матрица V е ортонормална основа на пространството на редовете на матрица A.
32

33. Метод на разлагане на сингулярна стойност (SVD).

Важно свойство на разлагането на SVD е фактът, че ако
за к само от k най-големите диагонални елемента, а също
оставете само първите k колони в матриците U и V, след това матрицата
Ak=UkDkVkT
ще бъде най-доброто приближение на матрица A по отношение на
Нормата на Фробениус сред всички матрици с ранг k.
Това отрязване първо намалява размерността на вектора
пространство, намалява изискванията за съхранение и изчисления
изисквания към модела.
Второ, чрез изхвърляне на малки единични стойности, малки
изкривяванията в резултат на шум в данните се премахват, оставяйки
само най-силните ефекти и тенденции в този модел.

След като се запознаете с концепциите за факторно натоварване и областта на ставните промени, можете да отидете по-далеч, като отново използвате апарата на матриците за представяне, чиито елементи този път ще бъдат коефициенти на корелация.

Матрицата на коефициентите на корелация, получена като правило експериментално, се нарича корелационна матрица или корелационна матрица.

Елементите на тази матрица са корелационните коефициенти между всички променливи в дадена съвкупност.

Ако имаме, например, набор, състоящ се от тестове, тогава броят на корелационните коефициенти, получени експериментално, ще бъде

Тези коефициенти запълват половината от матрицата, разположена от едната страна на нейния главен диагонал. От другата страна очевидно има същите коефициенти, тъй като и т.н. Следователно корелационната матрица е симетрична.

Схема 3.2. Пълна корелационна матрица

Има такива по диагонала на тази матрица, защото корелацията на всяка променлива със себе си е +1.

Корелационна матрица, в която елементите на главния диагонал са равни на 1, се нарича „пълна матрица“ на корелация (схема 3.2) и се обозначава

Трябва да се отбележи, че като поставим единиците или корелациите на всяка променлива със самата себе си на главния диагонал, ние вземаме предвид общата дисперсия на всяка променлива, представена в матрицата. По този начин се отчита влиянието не само на общи, но и на специфични фактори.

Напротив, ако на главния диагонал на корелационната матрица има елементи, съответстващи на общите неща и отнасящи се само до общата дисперсия на променливите, тогава се взема предвид влиянието само на общи фактори, влиянието на специфични фактори и грешки се елиминира , т.е. специфичността и разсейването на грешките се отхвърлят.

Корелационна матрица, в която елементите на главния диагонал съответстват на общи черти, се нарича редуцирана и се обозначава с R (схема 3.3).

Схема 3.3. Редуцирана корелационна матрица

Вече обсъдихме факторното зареждане или запълването на дадена променлива със специфичен фактор. Беше подчертано, че факторното натоварване има формата на корелационен коефициент между дадена променлива и даден фактор.

Матрица, чиито колони се състоят от натоварванията на даден фактор по отношение на всички променливи на дадена съвкупност, а редовете на която се състоят от факторните натоварвания на дадена променлива, се нарича факторна матрица или факторна матрица. Тук също можем да говорим за пълна и намалена факторна матрица. Елементите на пълната факторна матрица съответстват на общата единица дисперсия на всяка променлива в дадена популация. Ако натоварванията на общите фактори се означат с c, а натоварванията на специфичните фактори с и, тогава пълната факторна матрица може да бъде представена в следната форма:

Схема 3.4. Пълна факторна матрица за четири променливи

Показаната тук матрица на факторите има две части, които съдържат елементи, свързани с четири променливи и три общи фактора, за които се предполага, че се прилагат за всички променливи. Това не е необходимо условие, тъй като някои елементи от първата част на матрицата може да са равни на нула, което означава, че някои фактори не се отнасят за всички променливи. Елементите на първата част на матрицата са зарежданията на общите множители (например елементът показва зареждането на втория общ множител върху първата променлива).

Във втората част на матрицата виждаме 4 зареждания на характерни фактори, по един на всеки ред, което съответства на тяхната характерна природа. Всеки от тези фактори се отнася само до една променлива. Всички останали елементи от тази част на матрицата са равни на нула. Характерните фактори очевидно могат да бъдат разделени на специфични и свързани с грешки.

Колоната на факторната матрица характеризира фактора и неговото влияние върху всички променливи. Линията характеризира променливата и нейното съдържание с различни фактори, с други думи, факторната структура на променливата.

Когато анализираме само първата част от матрицата, имаме работа с факторна матрица, показваща общата дисперсия на всяка променлива. Тази част от матрицата се нарича редуцирана и се обозначава с F. Тази матрица не отчита натоварването на характерните фактори и не отчита специфичната вариация. Спомнете си, че в съответствие с казаното по-горе за общите дисперсии и факторните натоварвания, които са квадратни корени от общи дисперсии, сумата от квадратите на елементите на всеки ред на редуцираната факторна матрица F е равна на общността на дадена променлива

Съответно, сумата от квадратите на всички елементи на реда на пълната факторна матрица е равна на или общата дисперсия на дадена променлива.

Тъй като факторният анализ се фокусира върху общи фактори, в това, което следва, ще използваме главно намалената корелация и намалената факторна матрица.


STATISTICA ФАКТОРЕН АНАЛИЗ

Корелации (factor.sta) Отстраняване ред по ред на PD n=100

Променлива

JOB_1

РАБОТА_2

РАБОТА_3

КЪЩА_1

КЪЩА_2

КЪЩА_3

Както може да се види от корелационната матрица, променливите, свързани с удовлетворението от работата, са по-корелирани една с друга, а променливите, свързани с удовлетворението у дома, също са по-корелирани една с друга. Корелациите между тези два вида променливи (променливи, свързани с удовлетворението от работата и променливи, свързани с удовлетворението от дома) са относително малки. Следователно изглежда правдоподобно, че има два относително независими фактора (два вида фактори), отразени в корелационната матрица: единият е свързан с удовлетворението от работата, а другият с удовлетворението от домашния живот.

    Факторни натоварвания

Вторият етап на факторния анализ е първоначалното идентифициране на факторите или чрез метода на главните компоненти, или чрез метода на главните фактори. Резултатът за нашия пример е двуфакторно решение. Нека да разгледаме корелациите между променливите и двата фактора (или „новите“ променливи). Тези корелации се наричат ​​факторни корелации.

Таблица 3. 16

Таблица на факторните натоварвания (метод на главния компонент)

STATISTICA ФАКТОРЕН АНАЛИЗ

Факторни натоварвания (без ротация) Основни компоненти

Променлива

Фактор 1

Фактор 2

Обща дисперсия

Дял от общия разп.

Както може да се види от таблица 3.16, първият фактор е по-корелиран с променливите от втория (тъй като стойностите на тегловните натоварвания за всяка променлива на първия фактор са по-големи от тези на втория). Това е очевидно, тъй като, както бе споменато по-горе, факторите се идентифицират последователно и съдържат все по-малко и по-малко общо отклонение (виж раздел Собствени стойности и брой разпределени фактори, страница 61).

    Методи за ротация на факторите

Третият етап на факторния анализ е ротацията на факторните натоварвания, произтичащи от предходния етап. Типични методи за ротация са стратегиите varimax, квартимакс, И еквимакс. Целта на тези методи е да се създаде разбираема (интерпретируема) матрица на натоварванията, тоест фактори, които са ясно маркирани с високи натоварвания (например по-големи от 0,7) за някои променливи и ниски натоварвания за други. Този общ модел понякога се нарича проста структура.

Идеята за ротация по метод varimaxбеше описано по-горе (вижте раздел Метод на главния компонент, страница 60). Този метод може да се приложи и към разглеждания пример. Както преди, нашата задача е да намерим ротацията, която максимизира дисперсията по новите оси; или, с други думи, да се получи матрица от натоварвания на всеки фактор по такъв начин, че да се различават възможно най-много и да е възможно лесно да се интерпретират. По-долу е дадена таблица на натоварванията на ротираните фактори.

Таблица 3. 17

Таблица на факторните натоварвания (ротация - varimax)

STATISTICA ФАКТОРЕН АНАЛИЗ

Факторни натоварвания (Varimax нормализация) Избор: Основни компоненти

Променлива

Фактор 1

Фактор 2

Обща дисперсия

Дял от общия разп.

Както може да се види от таблица 3.17, първият фактор има високи натоварвания върху променливите, свързани с удовлетворението от работата, а вторият фактор има високи натоварвания върху удовлетворението у дома. От това можем да заключим, че удовлетвореността, измерена чрез въпросника, се състои от две части: удовлетвореност от дома и от работата. По този начин, произведени класификацияизследвани променливи. Въз основа на получената класификация, първият фактор може да се нарече фактор на удовлетвореността от работата (или фактор на социалните ценности), а съответно вторият - фактор на удовлетвореността от дома (или фактор на личните ценности).

    Интерпретация на резултатите от факторния анализ

Крайният етап на факторния анализ е съдържателната интерпретация на факторите, получени в резултат на ротация. Тук от изследователя се изисква да има добра теоретична подготовка и познаване на вече натрупаните експериментални резултати в тази област на изследване.

На практика интерпретацията на факторите се състои в идентифициране на значими факторни тегла (референтни променливи) за всеки от факторите. Няма точни критерии, които ни позволяват да разграничим значимите факторни тегла (натоварвания) от незначителните. Например, в случай на големи проби (няколкостотин души или повече), натоварвания от 0,3 и по-високи понякога се считат за значими. При намаляване на извадката до няколко десетки души се използват тегла от порядъка на 0,4–0,5 като значими.

Тълкуването на факторите не винаги протича гладко; в някои случаи той е само хипотетичен (например в случай на използване на данни, съответстващи на различни видове скали), а понякога авторите напълно го изоставят, тъй като факторът включва тестове, в които е трудно да се различи нещо общо.

В идеалния случай (разпределението на променливите не се различава от нормалното), интерпретацията на резултатите от факторния анализ може да започне с анализа на корелационната матрица, след което да премине към факторни натоварвания (идентифициране на референтни променливи). Следващата стъпка е да се сравнят резултатите от корелационната матрица и избраните фактори, съдържащи значими тегла. И накрая, последният етап е анализът на получените обобщения в съдържанието и естеството на онези изследвани променливи (характеристики), които имат най-висока корелация с даден фактор. Наименуването на факторите се извършва, като се вземат предвид онези референтни променливи, които са получили максимални тегла и имат най-висока корелация с фактора. Например, ако тестовете, оценяващи способността за запазване на безсмислен материал, имат високи тежести върху този фактор, тогава последният може да се нарече фактор „запомняне наизуст“.

Споделете