요인 분석을 위한 기본 방정식 및 절차. 문제의 정식화 및 상관행렬의 구성 주성분법의 특징

요인분석 수행 단계

요인분석에는 9단계가 있습니다. 명확성을 위해 이러한 단계를 다이어그램으로 표현한 다음 간략한 설명을 제공합니다.

요인 분석을 수행하는 단계는 그림 1에 나와 있습니다.

쌀.

문제의 공식화와 상관행렬의 구성

문제 공식화.요인분석의 목표를 명확하게 정의하는 것이 필요하다. 요인분석 대상 변인은 과거 연구, 이론적 고찰 또는 연구자의 판단에 따라 설정된다. 변수를 측정하는 것이 필요합니다. 간격또는 상대적인규모. 경험에 따르면 표본 크기는 변수 수보다 4~5배 커야 합니다.

상관 행렬의 구성.분석은 변수 간의 상관 행렬을 기반으로 합니다. 요인 분석 수행의 타당성은 변수 간 상관 관계의 존재 여부에 따라 결정됩니다. 모든 변수 간의 상관 관계가 작으면 요인 분석은 쓸모가 없습니다. 상관관계가 높은 변수는 동일한 요인과 상관관계가 높은 경향이 있습니다.

요인 모델 사용의 타당성을 테스트하는 몇 가지 통계가 있습니다. Bartlett의 구형성 검정을 사용하여 모집단의 변수 간에 상관관계가 없다는 귀무가설이 검정됩니다. 이는 모집단 상관 행렬이 고려된다는 진술이 모든 대각선 요소가 1과 같고 다른 모든 요소가 0과 같은 단위 행렬임을 의미합니다. 구형성 검정은 상관 행렬의 행렬식을 카이제곱 통계량으로 변환하는 것을 기반으로 합니다. ~에 큰 중요성통계학자들은 귀무가설을 기각합니다. 귀무가설이 기각되지 않으면 요인분석을 수행하는 것은 적절하지 않습니다. 또 다른 유용한 통계는 샘플링 적절성에 대한 KMO(Kaiser-Meyer-Olkin) 테스트입니다. 이 계수는 관찰된 상관 계수 값과 부분 상관 계수 값을 비교합니다. KMO 통계의 값이 작다는 것은 변수 쌍 간의 상관 관계가 다른 변수로 설명될 수 없음을 의미하므로 요인 분석의 사용이 부적절하다는 것을 의미합니다.

다음 예는 삶의 만족도 연구와 관련된 가상의 데이터를 기반으로 합니다. 무작위로 선택된 100명의 성인에게 설문지를 보냈다고 가정해 보겠습니다. 설문지는 직장 만족도, 취미 만족도, 가정생활 만족도, 생활 전반에 대한 만족도 등 총 10개 항목으로 구성됐다. 항목에 대한 응답을 컴퓨터에 입력하고 모든 항목의 평균이 약 100이 되도록 조정했습니다.

결과는 Factor.sta 데이터 파일에 저장되었습니다. 파일 - 열기 옵션을 사용하여 이 파일을 열 수 있습니다. 대부분 이 데이터 파일은 /Examples/Datasets 디렉터리에 있습니다. 다음은 이 파일의 변수 목록입니다. 목록을 얻으려면 데이터 메뉴에서 모든 변수 사양을 선택하세요.

분석 목적 . 분석의 목적은 다양한 활동 영역에서 만족도 사이의 관계를 연구하는 것입니다. 특히, 다양한 활동 영역 뒤에 "숨겨져 있는" 요인의 수와 그 중요성에 대한 질문을 연구하는 것이 바람직합니다.

분석 선택. 분석 - 다변량 탐색 분석 메뉴에서 요인 분석을 선택하여 요인 분석 모듈 실행 패드를 표시합니다. 실행 패드에서 변수 버튼을 클릭하고(아래 참조) 이 파일에 있는 10개의 변수를 모두 선택합니다.



다른 옵션 . 이 대화 상자에는 표준 요인 분석을 수행하는 데 필요한 모든 것이 포함되어 있습니다. 얻기 위해 간략한 개요실행 패드에서 사용할 수 있는 다른 명령의 경우 상관 행렬을 입력 파일로 선택할 수 있습니다(데이터 파일 필드 사용). PD 제거 필드에서 행별, 쌍별 제거 또는 누락된 데이터에 대한 평균 대체를 선택할 수 있습니다.

요인 추출 방법을 설정합니다. 이제 확인 버튼을 눌러 다음으로 넘어갑니다 대화 상자이름으로 요인 추출 방법을 지정합니다. 이 대화 상자를 사용하면 기술 통계 보기, 다중 회귀 분석 수행, 요인 추출 방법 선택, 최대 요인 수, 최소 고유값 선택 및 요인 추출 방법의 세부 사항과 관련된 기타 작업을 수행할 수 있습니다. 이제 설명 탭으로 가보겠습니다.



기술 통계를 봅니다. 이제 Corr./average/std.deviation 보기 버튼을 클릭하세요. 이 창에서 기술 통계 보기 창을 엽니다.



이제 기술 통계를 그래픽으로 보거나 결과 테이블을 사용하여 볼 수 있습니다.

상관 행렬 계산. 고급 탭에서 상관관계 버튼을 클릭하면 상관관계가 있는 결과 테이블이 표시됩니다.



이 결과 표의 모든 상관 관계는 양수이며 일부 상관 관계는 상당한 규모입니다. 예를 들어 Hobby_1 변수와 Miscel_1 변수는 0.90 수준에서 상관 관계가 있습니다. 일부 상관관계(예: 직장 만족도와 가정 만족도 간의 상관관계)는 비교적 작은 것으로 나타납니다. 매트릭스가 어떤 독특한 구조를 갖고 있는 것처럼 보입니다.

선택 방법. 이제 기술 통계 보기 대화 상자에서 취소를 클릭하여 요인 추출 방법 지정 대화 상자로 돌아갑니다. 고급 탭의 여러 추출 방법 중에서 선택할 수 있습니다. 각 방법에 대한 설명은 인자 추출 방법 지정 대화 상자의 고급 탭을 참조하고, 주요 구성 요소 방법 및 주요 요인 방법에 대한 설명은 소개 개요를 참조하세요. ). 이 예에서 기본 방법은 주성분, 최대 필드입니다. 요인 수에는 값 10(이 예에서는 최대 요인 수)과 최소 필드가 포함됩니다. 소유하다 값에는 0(이 명령의 최소값)이 포함되어 있습니다.



분석을 계속하려면 확인을 클릭하세요.

결과를 봅니다. 요인분석 결과 대화상자에서 요인분석 결과를 확인할 수 있습니다. 먼저 분산 설명 탭을 선택합니다.



고유값 표시 . 유지(해석)할 요소 수를 결정할 때 고유값의 목적과 사용자에 대한 유용성은 소개 개요에 설명되어 있습니다. 이제 고유값 버튼을 클릭하면 고유값, 전체 분산의 백분율, 누적 고유값 및 누적 백분율이 포함된 테이블을 얻을 수 있습니다.


표에서 볼 수 있듯이 첫 번째 요소의 고유값은 6.118369입니다. 저것들. 첫 번째 요인에 의해 설명되는 분산 비율은 약 61.2%입니다. 여기서는 10개의 변수가 분석되므로 모든 고유값의 합이 10이 되기 때문에 이러한 값을 쉽게 비교할 수 있습니다. 두 번째 요소에는 분산의 약 18%가 포함됩니다. 기타 요소는 5%를 넘지 않습니다.총 차이.요인 수 선택. 소개 개요 섹션에서는 결과 고유값을 사용하여 모델에 유지할 요인 수를 결정하는 방법을 간략하게 설명합니다. Kaiser의 기준(Kaiser, 1960)에 따르면 고유값이 1보다 큰 요인을 유지해야 합니다. 위의 표를 보면 기준에 따라 두 가지 요인이 선택되는 것으로 나타납니다.

비명 기준 . 이제 Cattell의 Scree 기준(Cattell, 1966)을 적용할 목적으로 고유값 플롯을 얻으려면 Scree Plot 버튼을 클릭하세요. 아래 그래프에는 기준을 더욱 시각적으로 만들기 위해 인접한 고유값을 연결하는 선분을 추가했습니다. Cattell은 Monte Carlo 방법을 기반으로 고유값의 지속적인 감소가 느려지는 지점과 나머지 고유값 수준이 무작위 "잡음"만을 반영하는 지점을 주장합니다. 아래 그래프에서 이 점은 2 또는 3의 요소에 해당할 수 있습니다(화살표로 표시됨). 따라서 두 가지 솔루션을 모두 시도해보고 어느 것이 더 적절한 그림을 제공하는지 확인하십시오.



이제 요인 로딩을 살펴보겠습니다.

인자 로딩 . 소개 개요 섹션에 설명된 대로 요인 로딩은 요인과 변수 간의 상관관계로 해석될 수 있습니다. 그러므로 그들은 가장 많은 것을 대표합니다. 중요한 정보, 요인 해석의 기초가됩니다. 먼저 10개 요인 모두에 대한 (회전되지 않은) 요인 로딩을 살펴보겠습니다. 요인분석 결과 대화상자의 Loadings 탭에 있는 Factor 회전 항목에 회전하지 않은 값을 설정하고 Factor loading 버튼을 클릭하면 하중 테이블이 표시됩니다.



요인 선택은 후속 요인에 분산이 점점 더 적게 포함되는 방식으로 발생했습니다(서론 검토 섹션 참조). 따라서 첫 번째 요소의 로딩이 가장 높다는 것은 놀라운 일이 아닙니다. 요인 로딩의 징후는 동일한 요인에 대해 반대 로딩을 갖는 변수가 반대 방식으로 해당 요인과 상호 작용한다는 것을 나타낼 때만 중요합니다. 그러나 열의 모든 로딩에 -1을 곱하고 부호를 반대로 할 수 있습니다. 다른 모든 측면에서는 결과가 변경되지 않습니다.

요인 솔루션의 회전. 소개 개요 섹션에 설명된 대로 요인 공간에서 요인의 실제 방향은 임의적이며 모든 요인 회전은 다른 회전뿐만 아니라 상관관계도 재현합니다. 따라서 해석하기 가장 쉬운 요인 구조를 선택하는 방식으로 요인을 회전시키는 것이 자연스러워 보입니다. 실제로 단순 구조라는 용어는 Thurstone(1947)이 주로 요소가 일부 변수에 높은 로드를 갖고 다른 변수에 낮은 로드를 갖는 조건과 여러 개의 큰 교차 로드가 있는 조건을 설명하기 위해 만들어지고 정의되었습니다. 둘 이상의 요인에 상당한 부하를 갖는 여러 변수가 있습니다. 간단한 구조를 얻기 위한 가장 표준적인 계산 회전 방법은 Kaiser(1958)가 제안한 varimax 회전 방법이다. Harman(1967)이 제안한 다른 방법으로는 quartimax, biquartimax 및 Equimax 방법이 있습니다(Harman, 1967 참조).

회전 선택 . 먼저 회전 및 해석을 위해 남기려는 요인의 수를 고려하십시오. 기존에는 가장 타당하고 수용 가능한 요인수는 2개로 결정됐으나, 기준치에 따라 3개 요인으로 해결하는 방안도 고려하기로 결정됐다. 취소 버튼을 클릭하여 요인 추출 방법 설정 대화 상자로 돌아가서 Quick 탭의 최대 요인 수 필드를 10에서 3으로 변경한 후 확인 버튼을 클릭하여 분석을 계속합니다.

이제 varimax 방법을 사용하여 회전을 수행해 보겠습니다. 요인 분석 결과 대화 상자의 로딩 탭에 있는 요인 회전 필드에서 원래 값의 Varimax를 설정합니다.



요인 로딩 버튼을 클릭하면 결과 요인 로딩 결과가 테이블에 표시됩니다.


세 가지 요소를 회전하여 솔루션을 표시합니다. 표는 집과 관련된 변수를 제외한 모든 변수에 대해 첫 번째 요인에 대한 유의미한 로딩을 보여줍니다. 요인 2는 직업 만족도와 관련된 변수를 제외한 모든 변수에 대해 상당히 중요한 부하를 갖습니다. 요인 3에는 Home_1 변수에 단 하나의 중요한 로딩이 있습니다. 단 하나의 변수만이 세 번째 요인에 높은 부하를 준다는 사실이 세 번째 요인 없이도 결과가 좋을 수 있는지 궁금하게 만듭니다.

두 요소를 회전시킬 때의 솔루션 검토 . 요인 분석 결과 대화 상자에서 취소 버튼을 다시 클릭하면 요인 추출 방법 지정 대화 상자로 돌아갑니다. Quick 탭의 최대 요인 수 필드를 3에서 2로 변경하고 확인을 클릭하여 요인 분석 결과 대화 상자로 이동합니다. Loadings 탭의 Factor 회전 필드에서 원래 값의 Varimax 값을 설정하고 Factor loading 버튼을 클릭합니다.


표에서 볼 수 있듯이 요인 1은 직업 만족도와 관련된 변수에 대해 가장 높은 부하를 갖습니다. 주택 만족도와 관련된 변수에 대한 로딩이 가장 작습니다. 다른 하중은 중간 값을 취합니다. 요인 2는 가정 만족도와 관련된 변수에 대해 가장 높은 로딩을 갖고, 직장 만족도에 대해 가장 낮은 로딩을 가지며, 나머지 변수에 대해서는 평균 로딩을 갖습니다.

2요인 회전에 대한 해법 해석 . 해석이 가능한가요? 이 모델? 두 가지 요인은 직업 만족도 요인(요인 1)과 가정생활 만족도 요인(요인 2)으로 가장 잘 식별되는 것처럼 보입니다. 취미와 삶의 다양한 측면에 대한 만족도는 두 요소 모두와 관련이 있는 것으로 보입니다. 이 모델은 이 표본의 일과 가정 생활에 대한 만족도가 서로 독립적일 수 있지만 둘 다 취미와 삶의 다른 측면에 대한 만족도에 기여한다는 점을 어떤 면에서 시사합니다.

두 가지 요소의 회전을 기반으로 한 솔루션 다이어그램 . 두 요인의 산점도를 얻으려면 요인 분석 결과 대화 상자의 로딩 탭에서 2M 로딩 플롯 버튼을 클릭하십시오. 아래 다이어그램은 각 변수에 대한 두 가지 로딩을 간단히 보여줍니다. 산점도는 교차 로딩이 있는 2개의 독립 요인과 4개의 변수(Hobby_1, Hobby_2, Miscel_1, Miscel_2)를 잘 보여줍니다.



이제 관찰된 공분산 행렬이 2요인 솔루션으로 얼마나 잘 재현될 수 있는지 살펴보겠습니다.

복제 및 잔차 상관 행렬. 설명된 분산 탭에서 재현 및 잔차 상관 관계 버튼을 클릭하면 재현된 상관 행렬과 잔차 상관 행렬(관찰된 마이너스 재현 상관 관계)이 포함된 두 개의 테이블을 얻을 수 있습니다.



잔차 상관관계 표의 항목은 두 가지 결과 요인으로 설명할 수 없는 상관관계의 "합계"로 해석될 수 있습니다. 물론, 행렬의 대각선 요소에는 이러한 요인을 설명할 수 없는 표준 편차가 포함되어 있습니다. 이는 1의 제곱근에서 두 요인에 대한 각각의 공통성을 뺀 값과 같습니다(변수의 공통성은 분산이라는 점을 기억하세요). 이는 선택된 요인의 수로 설명될 수 있습니다). 이 행렬을 자세히 살펴보면 0.1보다 크거나 -0.1보다 작은 잔차 상관관계가 사실상 없다는 것을 알 수 있습니다(실제로 그 중 소수만이 이 값에 가깝습니다). 여기에 처음 두 요소가 전체 분산의 약 79%를 차지한다는 점을 추가합니다(결과 표에서 고유값의 누적 % 참조).

"비밀" 좋은 예 . 방금 연구한 예는 실제로 이상에 가까운 2요인 문제에 대한 해결책을 제시합니다. 이는 대부분의 분산을 설명하고, 합리적인 해석을 가지며, 중간 정도의 편차(잔차 상관)를 갖는 상관 행렬을 재현합니다. 실제로 실제 데이터에서는 이렇게 간단한 솔루션이 거의 허용되지 않으며 실제로 이 가상 데이터 세트는 생성기를 사용하여 얻은 것입니다. 난수시스템에서 정규 분포를 사용할 수 있습니다. 특별한 방법으로 두 개의 직교(독립) 요인이 데이터에 "도입"되어 변수 간의 상관 관계가 생성되었습니다. 이 요인분석의 예는 두 가지 요인(직업만족도 요인과 가정생활 만족도 요인)을 그대로 재현한 것이다. 따라서 현상(예에서와 같이 인공 데이터가 아님)에 이 두 가지 요소가 포함되어 있는 경우 이를 분리함으로써 현상의 숨겨진 또는 잠재적 구조에 대해 배울 수 있습니다.

기타 결과 . 최종 결론을 내리기 전에 다른 결과에 대해 간략하게 설명하겠습니다.

공통점 . 솔루션의 일반성을 얻으려면 요인 분석 결과 대화 상자의 분산 설명 탭에서 일반성 버튼을 클릭합니다. 변수의 공통성은 주어진 요인 수에 대해 재현할 수 있는 분산의 비율이라는 점을 기억하십시오. 요인 공간의 회전은 일반성의 크기에 영향을 주지 않습니다. (분석의 많은 변수 중에서) 하나 또는 두 개의 변수에 대한 매우 낮은 공통성은 해당 변수가 모델에 의해 잘 설명되지 않음을 나타낼 수 있습니다.

가치 계수. 요인 계수를 사용하여 각 관측값에 대한 요인 값을 계산할 수 있습니다. 계수 자체는 일반적으로 별 관심이 없지만 요소 값은 추가 분석에 유용합니다. 계수를 표시하려면 요인 분석 결과 대화 상자의 값 탭에서 요인 값 계수 버튼을 클릭하세요.

요인 값. 요인 값은 조사 대상 각 응답자(즉, 원본 데이터 테이블의 각 관측값)에 대한 현재 값으로 생각할 수 있습니다. 요인 분석 결과 대화 상자의 값 탭에 있는 요인 값 버튼을 사용하면 요인 값을 계산할 수 있습니다. 이 값은 나중에 값 저장 버튼을 클릭하여 저장할 수 있습니다.

최종 코멘트. 요인 분석은 간단한 절차가 아닙니다. 꾸준히 사용하시는 분 요인 분석많은(예: 50개 이상의) 변수를 사용하면 음의 고유값 및 해석할 수 없는 솔루션, 특수 행렬 등과 같은 "병리학적 행동"의 많은 예를 볼 수 있습니다. 요인 분석을 사용하여 많은 변수의 유의미한 요인을 결정하는 데 관심이 있다면 몇 가지 변수를 주의 깊게 연구해야 합니다. 자세한 안내(예: Harman의 책(Harman, 1968)). 따라서 요인 분석의 많은 중요한 결정은 본질적으로 주관적이므로(요인 수, 회전 방법, 부하 해석) 자신감을 갖기 전에 약간의 경험이 필요하다는 점을 준비하십시오. 요인 분석 모듈은 사용자가 쉽게 대화형으로 전환할 수 있도록 특별히 설계되었습니다. 다른 번호요인, 회전 등을 통해 다양한 솔루션을 테스트하고 비교할 수 있습니다.

이 예는 PPP 도움말 시스템에서 가져온 것입니다. 통계 StatSoft에서

국립 연구 원자력 대학 "MEPhI"
비즈니스 정보학 및 경영 학부
복잡한 시스템
경제경영학과
업계(71위)
수학적 및 도구적 처리 방법
통계정보
키레 예프 V.S.,
박사, 부교수
이메일:
모스크바, 2017
1

표준화

소수 스케일링
최소최대 정규화
표준 변환을 사용한 정규화
요소별 변환을 사용한 정규화
2

소수 스케일링

바이
"
Vi k , 최대(Vi) 1
10
"
3

최소최대 정규화

바이
비 분(Vi)
"

최대(Vi) 최소(Vi)


4

표준편차를 이용한 정규화

바이
"
V
V
Vi V
V
- 선택적
평균
- 표본 평균 제곱
편차
5

요소별 변환을 사용한 정규화

Vi f Vi
"
바이 1
"
로그 VI
, Vi 로그 Vi
"
Vi 특급 Vi
"
Vi Vi , Vi 1 y
바이
"
와이
"
6

요인 분석

(FA)는 다음과 같은 방법 세트입니다.
분석된 특징의 실제 연결 기반, 연결 자체
관찰된 객체를 통해 숨겨진(암시적, 잠재적) 식별을 허용합니다.
조직 구조와 개발 메커니즘의 특성을 일반화하는 것
현상과 과정이 연구되고 있습니다.
연구실무에서 요인분석 방법이 주로 사용된다.
정보를 압축하고 소수의 일반화를 얻기 위한 방법
기본 특성의 변동성(분산)(요인 분석의 R 기술) 또는 관찰된 개체의 변동성(Q 기술)을 설명하는 특성
요인 분석).
요인 분석 알고리즘은 감소된 사용을 기반으로 합니다.
쌍별 상관관계(공분산) 행렬. 축소된 행렬은 행렬이다
완전한 상관관계의 단위(추정치)가 없는 주대각선 또는
전체 분산의 추정치 및 감소된, 다소 감소된 값. ~에
이는 분석이 모든 분산을 설명하지 못한다고 가정합니다.
연구되는 특성(객체) 중 일부는 일반적으로 큰 것입니다. 남은
설명할 수 없는 분산 부분은 특이성으로 인해 발생하는 특성입니다.
현상이나 과정을 기록할 때 관찰된 대상이나 오류가 발생했습니다.
저것들. 입력 데이터의 신뢰성이 낮습니다.
7

FA 방법의 분류

8

주성분법

(MGK)는 차원을 줄이는 데 사용됩니다.
상당한 손실을 초래하지 않고 관찰된 벡터의 공간
정보 내용. PCA의 전제는 정규분배법칙이다.
다차원 벡터. PCA에서는 확률 변수의 선형 조합이 정의됩니다.
특성
벡터
공분산
행렬.
기본
구성 요소는 분산이 있는 직교 좌표계를 나타냅니다.
구성요소는 통계적 특성을 특징으로 합니다. MGC는 FA로 분류되지 않습니다.
유사한 알고리즘을 사용하고 유사한 분석 문제를 해결합니다. 주요 차이점
이는 축소된 매트릭스가 아니라 처리 대상인 일반 매트릭스라는 사실에 있습니다.
단위가 위치한 주 대각선에 대한 쌍별 상관 관계, 공분산.
선형 공간 Lk의 벡터 X의 초기 세트가 주어집니다. 애플리케이션
주성분 방법을 사용하면 공간 Lm(m≤k)의 기초로 이동할 수 있습니다.
즉, 첫 번째 구성 요소(첫 번째 기본 벡터)는 다음 방향에 해당합니다.
원래 세트의 벡터 분산이 최대입니다. 방향 2
(두 번째 기본 벡터의) 구성요소는 초기의 분산이 다음과 같은 방식으로 선택됩니다.
이를 따른 벡터는 첫 번째 벡터에 대한 직교성 조건에서 최대였습니다.
기초. 나머지 기저 벡터도 비슷하게 결정됩니다. 결과적으로 방향은
기본 벡터는 원래 세트의 분산을 최대화하도록 선택됩니다.
주성분(또는 주성분)이라고 불리는 첫 번째 구성요소를 따라
축) 원래 벡터 세트의 벡터의 주요 변동성은
처음 몇 개의 구성 요소로 표시되며 기회가 발생하여 폐기됩니다.
덜 필수적인 구성 요소는 더 낮은 차원의 공간으로 이동합니다.
9

10. 주성분 방법. 계획

10

11. 주성분 방법. 계정 매트릭스

계수 행렬 T는 원래 샘플의 투영(J차원)을 제공합니다.
벡터
x1,…,xI)
~에
부분공간
기본
요소
(A 차원).
행렬 T의 행 t1,…,tI은 샘플의 좌표입니다. 새로운 시스템좌표
행렬 T의 열 t1,…,tA는 직교하며 모든 샘플의 투영을 나타냅니다.
하나의 새로운 좌표축.
PCA 방법을 사용하여 데이터를 연구할 때 그래프에 특별한 주의를 기울입니다.
계정. 그들은 방법을 이해하는 데 유용한 정보를 전달합니다.
데이터. 계수 그래프에서 각 샘플은 좌표(ti, tj)로 표시되며, 가장 자주 표시됩니다.
– (t1, t2), PC1 및 PC2로 표시됩니다. 두 점의 근접성은 유사성을 의미합니다.
양의 상관관계. 직각으로 위치한 점은
상관 관계가 없으며 정반대에 위치한 것들은
음의 상관 관계.
11

12. 주성분 방법. 행렬 로드

로드 행렬 P는 원래 공간의 전이 행렬입니다.
변수 x1, …xJ(J차원)를 주성분 공간(A차원)으로 변환합니다. 각
행렬 P의 행은 변수 t와 x를 연결하는 계수로 구성됩니다.
예를 들어, a번째 줄모든 변수 x1, ...xJ를 투영한 것입니다. a번째 축기본
요소. 각 열 P는 해당 변수 xj를 새 열에 투영한 것입니다.
좌표계.
로딩 플롯은 변수의 역할을 조사하는 데 사용됩니다. 이에
그래프에서 각 변수 xj는 좌표(pi, pj)의 점으로 표시됩니다. 예를 들어
(p1, p2). 계정과목표와 유사하게 분석하면 어떤 변수가 있는지 알 수 있습니다.
서로 관련되어 있고 독립적입니다. 계정과 계정의 쌍 그래프에 대한 공동 연구
로드도 많이 줄 수 있습니다 유용한 정보데이터에 대해.
12

13. 주성분법의 특징

주성분 방법은 다음 가정을 기반으로 합니다.
데이터 차원을 효과적으로 줄일 수 있다고 가정
선형 변환에 의해;
가장 많은 정보가 다음 방향으로 전달된다는 가정
입력 데이터의 분산이 최대입니다.
이러한 조건이 항상 충족되는 것은 아니라는 것을 쉽게 알 수 있습니다. 예를 들어,
입력 세트의 포인트가 초구체 표면에 위치하는 경우
선형 변환은 차원을 줄일 수 없습니다(그러나 이러한 문제에 쉽게 대처할 수 있습니다).
점에서 구 중심까지의 거리를 기반으로 한 비선형 변환).
이 단점은 모든 선형 알고리즘의 특징이며 다음과 같습니다.
추가 더미 변수를 사용하여 극복합니다.
입력 데이터 세트 요소의 비선형 함수(소위 커널 트릭)
주성분법의 두 번째 단점은 방향이
분산을 최대화하는 것이 항상 정보 내용을 최대화하는 것은 아닙니다.
예를 들어, 최대 분산을 갖는 변수는 거의 변동이 없을 수 있습니다.
정보를 제공하는 반면, 최소 분산을 갖는 변수는 다음을 허용합니다.
완전히 별개의 수업. 이 경우 주성분 방법은 다음과 같습니다.
첫 번째(정보가 적은) 변수를 선호합니다. 모든 추가
벡터와 관련된 정보(예: 이미지가 다음 중 하나에 속하는지 여부)
클래스)는 무시됩니다.
13

14. MGC의 예시 데이터

K. Esbensen. 다변량 데이터 분석, 약어. 레인 영어로부터 아래에
에드. O. Rodionova, 화학물리연구소 RAS, 2005
14

15. MGC 데이터의 예. 명칭


높이: 센티미터
무게
무게: 킬로그램
머리카락
머리카락: 짧은: –1 또는 긴:
+1
신발
신발: 유럽 크기
기준
나이
나이: 년
소득
소득: 연간 수천 유로
맥주
맥주: 연간 소비량(리터)
와인
와인 : 연간 소비량(리터)
섹스
성별: 남성: –1, 또는 여성: +1

강도: 지수 기반
신체 능력 테스트
지역
지역: 북쪽: –1, 또는 남쪽: +1
IQ
아이큐,
표준화된 테스트로 측정
15

16. 계정 매트릭스

16

17. 로드 매트릭스

17

18. 새로운 구성 요소 공간에서 객체 샘플링

여성(F)은 ● 및 ● 원으로 표시되며,
남자(M) – 정사각형 ■ 및 ■. 북쪽(N)
■ 파란색으로, 남쪽(S)은 빨간색으로 표시
● 색상.
기호의 크기와 색상은 소득을 반영합니다.
더 크고 가벼울수록 더 커집니다. 숫자
나이를 표현하다
18

19. 새로운 구성 요소 공간의 초기 변수

19

20. 스크리 플롯

20

21. 주요 요인의 방법

주요인법 패러다임에서는 특징의 차원을 줄이는 작업
공간은 n개의 특징처럼 보입니다. 더 작은 것을 사용하여 설명할 수 있습니다.
m-잠재 특징 수 - 공통 인자, 여기서 m<초기 특성 및 도입된 공통 인자(선형 조합)
소위 특성 요인을 사용하여 고려됩니다.
의 참여로 수행되는 통계연구의 궁극적인 목적은 다음과 같다.
요인 분석 장치는 원칙적으로 식별 및 해석으로 구성됩니다.
두 요소를 동시에 최소화하려는 잠재 공통 요소
특정 잔차 랜덤에 대한 의존도의 수와 정도
요소.
모든 표시
결과는
m 가상 일반의 영향 및
한 가지 특징적인 요소:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2미터미터
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. 요인의 회전

회전은 이전 단계에서 얻은 요소를 다음으로 바꾸는 방법입니다.
좀 더 의미 있는 일로. 회전은 다음과 같이 나뉩니다.
그래픽(축 그리기, 2차원 이상에서는 사용되지 않음)
분석),
분석(특정 회전 기준이 선택되고 직교 및
비스듬한) 그리고
행렬 근사(회전은 특정 주어진 값에 접근하는 것으로 구성됨)
목표 매트릭스).
회전의 결과는 2차 요인 구조입니다. 주요한
요인 구조(1차 적재로 구성됨(이전에서 얻은)
단계)은 사실 직교 좌표축에 점을 투영한 것입니다. 그것은 분명하다
투영이 0이면 구조가 더 간단해집니다. 그리고 예측은 0이 될 것입니다.
점이 어떤 축에 있는 경우. 따라서 회전은 다음에서 전환으로 간주될 수 있습니다.
한 시스템의 알려진 좌표를 사용하여 한 좌표계를 다른 좌표계로(
주요 요인) 및 다른 시스템에서 반복적으로 선택된 좌표
(2차 요인). 2차 구조를 얻을 때, 그들은 그러한 구조로 이동하는 경향이 있습니다.
점(객체)을 통해 가능한 한 많은 축을 그리기 위한 좌표계
가능한 한 많은 투영(및 그에 따른 부하)이 0이었습니다. 동시에 그들은 할 수 있다
직교성 제한과 처음부터 마지막까지의 중요성 감소가 제거됩니다.
기본 구조의 특징적인 요소.
22

23. 직교 회전

이는 우리가 요인을 회전할 것임을 의미하지만 그렇지는 않습니다.
우리는 서로의 직교성을 위반할 것입니다. 직교 회전
원래의 1차 하중 행렬에 직교 행렬을 곱하는 것을 의미합니다.
행렬 R(행렬은 다음과 같습니다.
V=BR
일반적인 경우의 직교 회전 알고리즘은 다음과 같습니다.
0. B - 주요 요인의 매트릭스.
1.
를 찾고 있습니다
직교
행렬
RT
크기
2*2
을 위한

행렬 B의 열(요인) bi 및 bj는 행렬에 대한 기준이 됩니다.
R이 최대입니다.
2.
bi 및 bj 열을 열로 교체
3.
모든 열이 정렬되었는지 확인합니다. 그렇지 않다면 1로 가세요.
4.
전체 행렬에 대한 기준이 증가했는지 확인합니다. 그렇다면 1로 이동하십시오.
아니요, 그러면 알고리즘이 종료됩니다.
.
23

24. 배리맥스 회전

이 기준은 공식화를 사용합니다
변수의 제곱 로딩 분산:
어려움
요인 a
~을 통해
그러면 일반적으로 기준은 다음과 같이 작성할 수 있습니다.
동시에 요인 로딩을 정규화하여 다음을 제거할 수 있습니다.
개별 변수의 영향.
24

25. 쿼티맥스 회전

i번째 변수의 요인복잡도 q의 개념을 다음과 같이 공식화해보자.
요인의 제곱 요인 로딩의 분산:
여기서 r은 요인 행렬의 열 수이고, bij는 j번째 행렬의 요인 로딩입니다.
i번째 변수의 요소는 평균값입니다. quartimax 기준은 다음을 시도합니다.
달성하기 위해 전체 변수 세트의 복잡성을 최대화합니다.
요인 해석의 용이성(열 설명을 더 쉽게 만드는 것이 목표):
고려해 보면
- 상수(행렬의 고유값의 합)
공분산) 평균을 확장하고 (또한 검정력 함수를 고려하여)
인수에 비례하여 증가), 우리는 기준의 최종 형태를 얻습니다.
극대화:
25

26. 요인수 결정기준

요인분석의 주요 문제는 식별과 해석이다.
주요 요인. 구성 요소를 선택할 때 연구원은 일반적으로 직면합니다.
식별에 대한 명확한 기준이 없기 때문에 심각한 어려움이 있습니다.
따라서 결과 해석에 있어 주관성은 불가피합니다.
요인 수를 결정하는 데 일반적으로 사용되는 몇 가지 기준이 있습니다.
그들 중 일부는 다른 것의 대안이고 일부는
하나가 다른 하나를 보완하도록 기준을 함께 사용할 수 있습니다.
카이저 기준 또는 고유값 기준. 이 기준이 제안되었습니다
Kaiser는 아마도 가장 널리 사용되는 것일 것입니다. 선택한 것만
고유값이 1보다 크거나 같은 요소입니다. 이는 다음을 의미합니다.
요인은 적어도 하나의 분산과 동일한 분산을 할당하지 않습니다.
변수이면 생략됩니다.
비명 기준 또는 선별 기준. 그는
심리학자 Cattell이 처음 제안한 그래픽 방법. 소유하다
그 값을 간단한 그래프 형태로 표현할 수 있습니다. Cattell은 다음과 같은 것을 찾을 것을 제안했습니다.
그래프에서 왼쪽에서 오른쪽으로 고유값의 감소가 최대가 되는 위치
속도가 느려집니다. 이 지점의 오른쪽에만 있다고 가정합니다.
"팩토리얼 스크리(factorial scree)" - "미끄러짐(slide)"은 지질학적 용어로 다음을 의미합니다.
바위 경사면 바닥에 쌓인 암석 조각.
26

27. 요인 수를 결정하는 기준. 계속

중요성 기준. 일반 모델일 때 특히 효과적입니다.
전체가 알려져 있고 2차적인 요인은 없습니다. 그런데 기준이 부적절하네요
모델의 변화를 검색하고 방법을 사용한 요인 분석에서만 구현됩니다.
최소 제곱 또는 최대 우도.
재현 가능한 분산의 비율에 대한 기준입니다. 요인은 점유율에 따라 순위가 매겨집니다.
결정론적 분산은 분산의 백분율이 중요하지 않은 것으로 판명될 때,
출시를 중단해야 합니다. 확인된 요인을 설명하는 것이 바람직합니다.
80% 이상 퍼졌습니다. 기준의 단점: 첫째, 선택이 주관적이라는 점, 둘째, 데이터의 특이성으로 인해 모든 주요 요인이
원하는 확산 비율을 종합적으로 설명합니다. 따라서 주요 요인
분산의 최소 50.1%를 함께 설명해야 합니다.
해석 가능성 및 불변성의 기준. 이 기준은 결합
주관적인 관심을 바탕으로 통계적 정확성을 제공합니다. 그에 따르면 주요 요인은
명확한 해석이 가능한 한 분리될 수 있습니다. 그녀, 그 안에
회전은 요인 로딩의 크기에 따라 달라집니다. 즉, 요인에 최소한
하나의 강한 부하로 해석될 수 있습니다. 반대 옵션도 가능합니다 -
하중이 강하지만 해석이 어려운 경우
구성품을 폐기하는 것이 좋습니다.
27

28. MGC 사용 예

허락하다
사용 가능
수행원
지표
간결한
활동
기업: 노동 강도(x1), 생산 시 구매 품목 점유율(x2),
장비 이동 비율(x3), 기업 내 근로자 비율
(x4), 직원당 보너스 및 보상(x5), 수익성(y). 선의
회귀 모델은 다음과 같습니다.
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5
x1
x2
x3
x4
x5
와이
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. MGC 사용 예시

통계 패키지에 회귀 모델을 구축하면 다음과 같습니다.
계수 X4는 유의하지 않으며(p-값 > α = 5%) 모델에서 제외될 수 있습니다.
무엇
X4를 제거한 후 모델 구축 프로세스가 다시 시작됩니다.
29

30. MGC 사용 예시

PCA에 대한 Kaiser 기준은 설명하기 위해 두 가지 구성 요소가 남아 있을 수 있음을 보여줍니다.
원래 분산의 약 80%입니다.
선택한 구성요소에 대해 원래 좌표계에서 방정식을 구성할 수 있습니다.
U1 = 0.41*x1 - 0.57*x2 + 0.49*x3 - 0.52*x5
U2 = 0.61*x1 + 0.38*x2 - 0.53*x3 - 0.44*x5
30

31. MGC 사용 예시

이제 새 구성요소에서 새 회귀 모델을 구축할 수 있습니다.
y = 15.92 - 3.74*U1 - 3.87*U2
31

32. 특이값 분해(SVD) 방법

벨트라미와 조던은 특이점 이론의 창시자로 간주됩니다.
분해. Beltrami - 최초로 작품을 출판한 공로
특이점 분해, 조던의 우아함과 완성도
일하다. Beltrami의 연구는 Journal of Mathematics에 게재되었습니다.
1873년 이탈리아 대학교 학생의 이용”, 주요 내용
그 목적은 학생들에게 친숙해지도록 하는 것이었습니다.
이중선형 형태 이 방법의 핵심은 크기가 n인 행렬 A를 분해하는 것입니다.
x m, 순위 d = 순위(M)<= min(n,m) в произведение матриц меньшего
계급:
A =UDVT,
여기서 n x d 크기의 행렬 U와 m x d 크기의 V는 다음으로 구성됩니다.
정규직교 열은 고유벡터입니다.
행렬 AAT와 ATA의 0이 아닌 고유값, 그리고
UTU = V TV = I이고 d x d 크기의 D는 다음과 같은 대각 행렬입니다.
양의 대각선 요소는 다음과 같이 정렬됩니다.
내림차순으로. 행렬 U의 열은 다음을 나타냅니다.
는 행렬 A의 열 공간의 정규 직교 기반이며, 열은
행렬 V는 행렬 A의 행 공간의 정규 직교 기저입니다.
32

33. 특이값 분해(SVD) 방법

SVD 분해의 중요한 속성은 다음과 같다는 사실입니다.
포크 k개의 가장 큰 대각선 요소에서만
행렬 U와 V의 처음 k개 열만 남겨두고 행렬
Ak=UkDkVkT
에 관해 행렬 A의 가장 좋은 근사치가 될 것입니다.
순위 k를 갖는 모든 행렬에 대한 Frobenius 표준입니다.
이 잘림은 먼저 벡터의 차원을 줄입니다.
공간을 확보하고 스토리지 및 컴퓨팅 요구 사항을 줄입니다.
모델 요구 사항.
둘째, 작은 특이값을 버리면 작은
데이터의 노이즈로 인한 왜곡이 제거되어
이 모델에서는 가장 강력한 효과와 추세만 나타납니다.

요인 로딩의 개념과 결합 변화 영역에 익숙해지면 이번에는 상관 계수가 될 요소인 표현용 행렬 장치를 사용하여 더 나아갈 수 있습니다.

일반적으로 실험적으로 얻은 상관 계수 행렬을 상관 행렬 또는 상관 행렬이라고합니다.

이 행렬의 요소는 주어진 모집단의 모든 변수 사이의 상관 계수입니다.

예를 들어 테스트로 구성된 세트가 있는 경우 실험적으로 얻은 상관 계수의 수는 다음과 같습니다.

이러한 계수는 주대각선의 한쪽에 있는 행렬의 절반을 채웁니다. 반대편에는 분명히 동일한 계수가 있습니다. 따라서 상관 행렬은 대칭입니다.

계획 3.2. 전체 상관 행렬

각 변수와 그 자체의 상관관계가 +1이기 때문에 이 행렬의 대각선에 변수가 있습니다.

주대각선의 요소가 1과 같은 상관 행렬을 상관 관계의 "전체 행렬"(Scheme 3.2)이라고 하며 다음과 같이 표시됩니다.

각 변수의 단위 또는 상관 관계를 주대각선에 배치함으로써 행렬에 표시된 각 변수의 총 분산을 고려한다는 점에 유의해야 합니다. 따라서 일반적인 요인뿐만 아니라 특정 요인의 영향도 고려됩니다.

반대로, 상관 행렬의 주 대각선에 일반성에 해당하고 변수의 일반적인 분산에만 관련된 요소가 있으면 일반적인 요인의 영향만 고려되고 특정 요인 및 오류의 영향은 제거됩니다. 즉, 특이성과 오류 분산이 폐기됩니다.

주 대각선의 요소가 공통성에 해당하는 상관 행렬을 축소라고 하며 R로 표시합니다(도식 3.3).

계획 3.3. 감소된 상관 행렬

우리는 이미 요인 로딩(factor loading), 즉 주어진 변수를 특정 요인으로 채우는 것에 대해 논의했습니다. 요인 로딩은 주어진 변수와 주어진 요인 사이의 상관 계수의 형태를 갖는다는 것이 강조되었습니다.

주어진 모집단의 모든 변수에 대한 주어진 요인의 로딩으로 구성된 열과 주어진 변수의 요인 로딩으로 구성된 행을 요인 행렬 또는 요인 행렬이라고 합니다. 여기서 우리는 완전 및 축소 요인 행렬에 대해서도 이야기할 수 있습니다. 전체 요인 행렬의 요소는 주어진 모집단에서 각 변수의 총 단위 분산에 해당합니다. 일반 요인에 대한 로딩을 c로 표시하고 특정 요인의 로딩을 로 표시하면 전체 요인 행렬은 다음과 같이 나타낼 수 있습니다.

계획 3.4. 4개 변수에 대한 전체 인자 행렬

여기에 표시된 요인 행렬은 두 부분으로 구성되어 있으며, 첫 번째 부분에는 4개의 변수와 3개의 일반 요인에 관련된 항목이 포함되어 있으며 모두 모든 변수에 적용되는 것으로 가정됩니다. 행렬의 첫 번째 부분의 일부 요소는 0과 같을 수 있으므로 이는 필수 조건이 아닙니다. 이는 일부 요소가 모든 변수에 적용되지 않음을 의미합니다. 행렬의 첫 번째 부분의 요소는 공통 인수의 로딩입니다(예를 들어, 요소는 첫 번째 변수에 대한 두 번째 공통 인수의 로딩을 표시합니다).

행렬의 두 번째 부분에서는 각 행에 하나씩 4개의 특성 요인 로딩이 표시되며 이는 해당 특성에 해당합니다. 이러한 각 요인은 하나의 변수에만 관련됩니다. 행렬의 이 부분의 다른 모든 요소는 0과 같습니다. 특징적인 요인은 분명히 특정 요인과 오류 관련 요인으로 나눌 수 있습니다.

요인 행렬의 열은 요인과 요인이 모든 변수에 미치는 영향을 나타냅니다. 이 선은 변수와 그 내용을 다양한 요인, 즉 변수의 요인 구조로 특성화합니다.

행렬의 첫 번째 부분만 분석할 때 각 변수의 전체 분산을 표시하는 요인 행렬을 다루고 있습니다. 행렬의 이 부분을 감소라고 하며 F로 표시합니다. 이 행렬은 특성 요인의 로딩을 고려하지 않으며 특정 분산을 고려하지 않습니다. 공분산의 제곱근인 공분산과 인자 적재에 대해 위에서 말한 내용에 따라, 축소 인자 행렬 F의 각 행 요소의 제곱의 합은 주어진 공차성과 동일하다는 점을 기억하십시오. 변하기 쉬운

따라서 전체 요인 행렬의 모든 행 요소의 제곱의 합은 , 즉 주어진 변수의 전체 분산과 같습니다.

요인 분석은 공통 요인에 중점을 두기 때문에 다음에서는 축소된 상관 관계와 축소된 요인 행렬을 주로 사용합니다.


통계 요인 분석

상관관계(factor.sta) PD n=100의 라인별 제거

변하기 쉬운

JOB_1

WORK_2

직장_3

집 번호 1

하우스 2

더 하우스 3

상관행렬에서 볼 수 있듯이 직장 만족도와 관련된 변수들은 서로 더 높은 상관관계를 갖고 있고, 가정에서의 만족도와 관련된 변수들도 서로 더 높은 상관관계를 보이고 있습니다. 이 두 가지 유형의 변수(직업 만족도 관련 변수와 가정 만족도 관련 변수) 간의 상관 관계는 상대적으로 작습니다. 따라서 상관행렬에 반영된 상대적으로 독립적인 두 가지 요인(두 가지 유형의 요인)이 있다는 것이 타당해 보입니다. 하나는 직장 만족도와 관련되고 다른 하나는 가정생활 만족도와 관련이 있습니다.

    인자 로딩

요인 분석의 두 번째 단계는 주성분 방법이나 주요인 방법을 통해 요인을 초기에 식별하는 것입니다. 우리 예의 결과는 2단계 솔루션입니다. 변수와 두 요인(또는 "새로운" 변수) 간의 상관관계를 살펴보겠습니다. 이러한 상관 관계를 요인 상관 관계라고 합니다.

표 3. 16

요인 로딩 표(주성분 방법)

통계 요인 분석

인자 부하(회전 없음) 주성분

변하기 쉬운

요인 1

요인 2

총 분산

총 디스플레이 비율

표 3.16에서 볼 수 있듯이 첫 번째 요소는 두 번째 요소보다 변수와 더 많은 상관 관계가 있습니다(첫 번째 요소의 각 변수에 대한 가중치 부하 값이 두 번째 요소의 값보다 크기 때문). 위에서 언급한 것처럼 요인이 순차적으로 식별되고 총 분산이 점점 줄어들기 때문에 이는 분명합니다(섹션 참조). 고유값과 할당된 인자의 개수, 61페이지).

    요인 회전 방법

요인 분석의 세 번째 단계는 이전 단계에서 발생한 요인 로딩의 회전입니다. 일반적인 회전 방법은 전략입니다. 배리맥스, 쿼티맥스, 그리고 에퀴맥스. 이러한 방법의 목표는 이해하기 쉬운(해석 가능한) 로딩 매트릭스, 즉 일부 변수에 대한 높은 로딩(예: 0.7보다 큼)과 다른 변수에 대한 낮은 로딩으로 명확하게 표시되는 요소를 생성하는 것입니다. 이 일반 모델은 때때로 간단한 구조.

방법에 의한 회전의 아이디어 배리맥스위에 설명되어 있습니다(섹션 참조). 주성분법, 60페이지). 이 방법은 고려 중인 예제에도 적용될 수 있습니다. 이전과 마찬가지로 우리의 임무는 새 축을 따라 분산을 최대화하는 회전을 찾는 것입니다. 즉, 가능한 한 많이 달라지는 방식으로 각 요인에 대한 로딩 행렬을 얻고 이를 쉽게 해석하는 것이 가능합니다. 아래는 회전된 요인에 대한 로딩 표입니다.

표 3. 17

인자 로딩 표(회전 – varimax)

통계 요인 분석

요인 로딩(Varimax 정규화) 선택: 주요 구성 요소

변하기 쉬운

요인 1

요인 2

총 분산

총 디스플레이 비율

표 3.17에서 볼 수 있듯이 첫 번째 요인은 직장 만족도 관련 변수에 높은 로딩을 갖고 있고, 두 번째 요인은 가정 만족도에 높은 로딩을 갖고 있다. 이를 통해 설문지로 측정된 만족도는 가정과 직장에 대한 만족도라는 두 부분으로 구성된다는 결론을 내릴 수 있다. 그리하여 생산된 분류변수를 연구했습니다. 얻은 분류에 따라 첫 번째 요소는 직업 만족도 요소 (또는 사회적 가치 요소)라고 할 수 있으며, 따라서 두 번째 요소는 가정 만족도 요소 (또는 개인 가치 요소)입니다.

    요인분석 결과 해석

요인 분석의 마지막 단계는 회전의 결과로 얻은 요인을 의미있게 해석하는 것입니다. 여기서 연구자는 해당 연구 분야에서 이미 축적된 실험 결과에 대한 좋은 이론적 훈련과 지식이 필요합니다.

실제로 요인 해석은 각 요인에 대한 중요한 요인 가중치(참조 변수)를 식별하는 것으로 구성됩니다. 유의미한 요인 가중치(적재)와 중요하지 않은 요인 가중치를 구별하는 정확한 기준은 없습니다. 예를 들어 대규모 표본(수백 명 이상)의 경우 0.3 이상의 로딩이 중요한 것으로 간주되는 경우가 있습니다. 표본을 수십 명으로 줄이면 0.4~0.5 정도의 가중치가 유의미한 것으로 사용됩니다.

요인의 해석이 항상 순조롭게 진행되는 것은 아닙니다. 어떤 경우에는 단지 가설일 뿐이고(예를 들어, 다양한 유형의 척도에 해당하는 데이터를 사용하는 경우), 요인에 공통점을 식별하기 어려운 테스트가 포함되어 있기 때문에 저자가 완전히 포기하는 경우도 있습니다.

이상적으로는(변수 분포가 정규 분포와 다르지 않음) 요인 분석 결과 해석은 상관 행렬 분석으로 시작한 다음 요인 로딩(참조 변수 식별)으로 이동할 수 있습니다. 다음 단계는 상관행렬의 결과와 유의미한 가중치를 포함하는 선택된 요인을 비교하는 것입니다. 그리고 마지막 단계는 주어진 요인과 가장 높은 상관관계를 갖는 연구된 변수(특성)의 내용과 성격에서 얻은 일반성을 분석하는 것입니다. 요인의 이름은 최대 가중치를 받고 요인과 가장 높은 상관 관계를 갖는 참조 변수를 고려하여 수행됩니다. 예를 들어, 말도 안되는 내용을 기억하는 능력을 평가하는 테스트에서 이 요소에 높은 가중치가 부여되면 후자를 "암기" 요소라고 부를 수 있습니다.

공유하다