변형 시리즈의 분포를 위한 다각형을 구성합니다. 다각형 그래픽

섹션: 수학

표적:

  • Excel에서 계산 작업을 통해 무작위 변수의 통계적 특성을 찾는 기술을 향상시킵니다.
  • 데이터 분석을 위한 정보 스위칭 기술의 적용; 다양한 정보 매체와 협력합니다.

수업 중에는

  1. 오늘 수업에서는 현대 컴퓨터 기술의 기능을 사용하여 대규모 표본의 통계적 특성을 계산하는 방법을 배웁니다.
  2. 먼저, 기억하자:

– 확률변수란 무엇인가? (랜덤변수는 테스트 결과에 따라 가능한 여러 값 중 하나의 값을 취하는 변수입니다.)

– 우리는 어떤 종류의 확률변수를 알고 있나요? (이산적, 연속적.)

– 연속 확률 변수(나무 성장), 이산 확률 변수(학급의 학생 수)의 예를 제공합니다.

– 확률변수의 어떤 통계적 특성을 알고 있습니까(모드, 중앙값, 표본 평균, 계열 범위).

– 확률변수의 통계적 특성을 시각적으로 표현하기 위해 어떤 기법이 사용되는가(빈도다각형, 파이 및 막대 그래프, 히스토그램).

  1. 구체적인 예를 통해 Excel 도구를 사용하여 통계 문제를 해결하는 방법을 살펴보겠습니다.

예. 100개 업체를 대상으로 점검을 실시했습니다. 회사의 직원 수(명)에 대해 다음 값이 제공됩니다.

진전.

1. 각 숫자를 별도의 셀에 입력하여 EXCEL에 데이터를 입력합니다.

23 25 24 25 30 24 30 26 28 26
32 33 31 31 25 33 25 29 30 28
23 30 29 24 33 30 30 28 26 25
26 29 27 29 26 28 27 26 29 28
29 30 27 30 28 32 28 26 30 26
31 27 30 27 33 28 26 30 31 29
27 30 30 29 27 26 28 31 29 28
33 27 30 33 26 31 34 28 32 22
29 30 27 29 34 29 32 29 29 30
29 29 36 29 29 34 23 28 24 28

2. 수치적 특성을 계산하려면 Insert – Function 옵션을 사용하십시오. 그리고 나타나는 창의 카테고리 라인에서 목록에서 - 통계를 선택합니다. FASHION

확인 키를 누르세요. M o = 29(명)을 받았습니다 – 직원이 29명인 회사가 가장 많습니다.

동일한 경로를 사용하여 중앙값을 계산합니다.

삽입 – 기능 – 통계 – 중앙값.

숫자 1 필드에 커서를 놓고 마우스로 테이블을 선택합니다.

확인 키를 누르세요. M e = 29(명) - 회사 직원의 평균 가치를 받았습니다.

일련의 숫자의 범위는 임의 변수의 가능한 가장 작은 값과 가장 큰 값의 차이입니다. 계열의 범위를 계산하려면 표본의 가장 큰 값과 가장 작은 값을 찾아 그 차이를 계산해야 합니다.

삽입 – 기능 – 통계 – MAX.

숫자 1 필드에 커서를 놓고 마우스로 테이블을 선택합니다.

확인 키를 누르세요. 가장 높은 값 = 36을 얻었습니다.

삽입 – 기능 – 통계 – MIN.

숫자 1 필드에 커서를 놓고 마우스로 테이블을 선택합니다.

확인 키를 누르세요. 가장 작은 값 = 22를 얻었습니다.

36 – 22 = 14(명) – 직원 수가 가장 많은 회사와 직원이 가장 적은 회사의 차이입니다.

빈도도와 다각형을 구성하려면 분포 법칙을 설정해야 합니다. 무작위 변수 값과 해당 빈도의 테이블을 만듭니다. 우리는 이미 회사의 최소 직원 수는 22명, 최대 직원 수는 36명이라는 것을 알고 있습니다. x 나는확률변수는 22에서 36까지 1단계씩 변경됩니다.

x 나는 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
아니 나는

삽입 – 함수 – 통계 – COUNTIF.

Range 창에서 커서를 놓고 샘플을 선택한 다음 Criterion 창에 숫자 22를 입력합니다.

OK 키를 누르면 값 1을 얻습니다. 숫자 22는 우리 샘플에서 1번 발생하고 빈도는 1입니다. 같은 방식으로 전체 테이블을 작성합니다.

x 나는 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
아니 나는 1 3 4 5 11 9 13 18 16 6 4 6 3 0 1

확인하기 위해 샘플 크기, 빈도 합계(삽입 – 함수 – 수학 – SUM)를 계산합니다. 결과는 100(모든 회사 수)이어야 합니다.

빈도 다각형을 만들려면 테이블 – 삽입 – 다이어그램 – 표준 – 분산형(값이 세그먼트로 연결된 분산형 다이어그램)을 선택합니다.

우리는 다음을 얻습니다:

막대형 및 원형 차트를 작성하려면 동일한 경로를 사용합니다(필요한 차트 유형 선택).

차트 – 표준 – 파이.

차트 – 표준 – 히스토그램.

4. 오늘 수업에서 우리는 컴퓨터 기술을 사용하여 통계 정보를 분석하고 처리하는 방법을 배웠습니다.

이 작업을 완료하려면 다음 단계를 완료하세요.

  1. 새 워크시트로 이동합니다. A1:A36 셀에 예제에 표시된 데이터를 입력합니다.

2. 먼저 다음과 같은 형식으로 주파수 및 상대 주파수(주파수)별로 샘플링 분포를 얻습니다.

내가 승 1 승 2

이렇게 하려면 C1 셀에 '를 입력합니다. x 나는", C2 셀에 "를 입력합니다. 아니 나는» 셀 C3에 입력 내가.

  1. 다음으로 D1:W1 셀을 최소 0에서 최대 19까지의 데이터 계열 값으로 채워야 합니다. 이렇게 하려면 채우기 표시를 사용할 수 있습니다.

4. 그런 다음 기능을 사용하여 카운티특정 값이 몇 번이나 관찰되었는지 계산합니다. 이렇게 하려면 커서를 D2 셀에 놓습니다. 함수 호출 카운티라인에 범위$A$1:$A$36 셀 범위에 대한 절대 참조를 입력합니다(셀 범위 참조는 절대적이어야 합니다!). 줄을 서서 표준첫 번째 옵션 0이 포함된 셀 D1의 주소를 입력하고 확인을 클릭합니다. 결과적으로 셀에 숫자 1이 나타납니다.

  1. 이제 채우기 표시를 사용하여 D2 셀에 있는 함수를 E2:W2 셀에 복사합니다. 결과적으로 샘플의 빈도 분포를 얻습니다.
x 나는
아니 나는

6. 다음으로 상대도수를 계산합니다. 이 작업을 완료하려면 먼저 표본 크기를 계산해야 합니다. 이렇게 하려면 커서를 X2 셀에 놓고 자동 합계 아이콘을 클릭한 다음 입력하다.결과적으로 모든 주파수 36의 합(D2:W2 범위에 있는 숫자의 합)이 이 셀에 나타납니다.

7. 상대도수를 계산합니다. 이렇게 하려면 커서를 D3 셀에 놓고 그 안에 수식 =D2/$X$2를 입력합니다(샘플 크기에 대한 참조는 절대적이어야 합니다!). 이 셀을 선택하고 다음을 사용하여 입력된 수식을 복사합니다. 채우기 마커셀 D3: W3.



8. 이제 주파수 다각형을 만듭니다. 일반 도구를 사용하여 빠르게 구축할 수 있습니다. 차트 마법사. 이렇게 하려면 D1:W2 셀 범위를 선택하고 호출합니다. 차트 마법사.

9. 나타나는 대화 상자에서 차트 마법사(4단계 중 1단계): 차트 유형선택하다 XY 다이어그램그리고 옵션 선과 점. 버튼을 클릭하세요 더 나아가.

10. 다음 창에서 차트 마법사(4단계 중 2단계): 데이터 범위표시 행의 행을 누르고 더 나아가.

11. 다음 창에서 차트 마법사(4단계 중 3단계): 데이터 시리즈아무것도 바꿀 필요 없이 바로 클릭하세요 더 나아가

12. 마지막 창에서 차트 마법사(4단계 중 4단계): 차트 요소

· 현장에서 표제다이얼: " 주파수 다각형»;

· 현장에서 X축(카테고리): X축 이름: " 옵션»;

· 현장에서 Y축(가치): Y축 이름: " 주파수»;

13. 해당 지역 내 그리드 표시라디오 버튼 선택을 취소하세요 Y축(가치).

14. 오른쪽 영역에서 라디오 버튼을 선택 취소합니다. 범례 표시그리고 버튼을 클릭하세요 준비가 된.

16. 결과적으로 다음과 같은 주파수 범위를 가져야 합니다.

17. 이제 상대 빈도의 다각형을 구성하십시오. 이렇게 하려면 D1:W1 옵션을 사용하여 셀 간격을 선택한 다음 키를 길게 누르세요. Ctrl 키마우스를 사용하여 상대 빈도 D3:W3을 사용하여 셀 간격을 선택합니다.

18. 전화 차트 마법사시그니처를 제외하고 빈도 다각형을 구성할 때와 동일한 단계를 모두 수행합니다. 창문에서 차트 마법사(4단계 중 4단계): 차트 요소현장에서 표제다이얼: " 상대도수다각형" 여기서는 Y축에 대해 다른 이름을 입력해야 합니다. 상대빈도"에서 X축의 이름은 주파수 다각형과 동일하게 유지됩니다.

20. 이 차트의 서식 지정을 모두 완료한 후에는 Y축의 숫자에 서로 다른 소수 자릿수가 있음을 확인하세요. 축 레이블의 소수 자릿수가 동일한지 확인하려면 다음을 수행해야 합니다.

  • 이 축을 두 번 클릭합니다.
  • 나타나는 대화 상자에서 Y축탭 선택 숫자;
  • 그룹에서 범주선택하다 숫자설치하고 소수점 이하 자릿수: 2.
  • 누르다 좋아요.

완성된 상대 빈도의 다각형은 다음과 같습니다.

통제 질문.

1. AVERAGE 함수의 목적은 무엇입니까?

2. 통계자료의 확산도를 평가하기 위해 어떤 특성을 사용하나요? 어떤 기능이 있나요? 뛰어나다계산되고 있나요? 일반 모집단과 표본 모집단에 대한 데이터 분산을 추정하는 기능의 차이점은 무엇입니까?

3. COUNT와 COUNT 함수의 차이점은 무엇인가요?

4. 모드란 무엇이며 이를 계산하는 기능은 무엇입니까?

5. 중앙값은 무엇이며 이를 계산하는 함수는 무엇입니까?

6. 변동 범위를 계산하는 방법은 무엇입니까?

7. 무작위 분포와 정규 분포의 편차를 평가하는 데 어떤 특성이 사용됩니까? 이러한 특성의 의미는 무엇이며 어떤 기능을 수행합니까? 뛰어나다계산되고 있나요?

8. 무엇입니까? 분석 도구? 다운로드 방법 Excel의 분석 패키지?

9. 생성을 위해 수행되어야 하는 일련의 작업을 설명합니다. 난수정상적으로 분포되어 있습니다.

10. 히스토그램을 만드는 방법은 무엇입니까?

11. 도구는 무엇입니까? 기술통계?

12. 도수다각형과 상대도수다각형이란 무엇입니까?

그래프는 분포 계열을 표시하는 시각적 형태입니다. 직교좌표계로 구성된 선형 그래프와 평면 다이어그램을 사용하여 계열을 표시합니다.

속성 분포 계열을 그래픽으로 표현하기 위해 막대, 선, 파이, 그림, 섹터 등 다양한 다이어그램이 사용됩니다.

이산형 변형 계열의 경우 그래프는 분포 다각형입니다.

분포 다각형점과 좌표를 연결하는 점선을 파선이라고 합니다. - 속성의 이산 값, - 빈도, - 빈도.

그래프는 허용된 척도에 따라 그려집니다. 분포 다각형은 그림 1에 나와 있습니다. 5.1.

간격 변동 계열을 나타내려면 다음을 사용하십시오. 히스토그램, 대표하는밑변이 간격의 너비와 같은 직사각형으로 구성된 계단형 도형 및 높이 - 빈도 (주파수 ) 등간격 계열 또는 불평등 간격의 밀도 분포 차트를 구성하는 것은 막대 차트를 구성하는 것과 유사합니다. 히스토그램의 일반적인 모습은 그림 1에 나와 있습니다. 5.2.

변형 시리즈의 그래픽 표현을 위해 사용할 수도 있습니다. 누적- 누적된 주파수(주파수)로부터 그려진 파선. 누적된 주파수는 세로 좌표로 표시됩니다. 개별 세로좌표의 꼭지점을 직선 세그먼트로 연결하여 감소하지 않는 형태의 파선을 얻습니다. 이산형 계열에 대한 그래프의 점 좌표는 간격 계열에 대한 것입니다. - 그래프의 시작점은 가장 높은 점의 좌표를 갖습니다. - 누적의 일반적인 보기는 그림 5.3에 나와 있습니다. 누적을 사용하면 변동 계열을 비교할 때 특히 편리합니다.

분포 계열을 그릴 때 큰 중요성가로축과 세로축을 따라 눈금 비율이 있습니다.. 그 안에 이 경우 "황금분할 규칙"을 따라야 합니다. 그것에 따르면 그래프의 높이는 밑면 크기의 약 절반이어야 합니다..

분포 계열에 대한 실증적 연구를 수행할 때 다음 지표 그룹이 계산되고 분석됩니다.

유통센터의 위치를 ​​나타내는 지표

동질성 정도를 나타내는 지표

분포 형태 지표.

유통 센터의 위치를 ​​나타내는 지표입니다.여기에는 다음이 포함됩니다 산술 평균과 구조적 형태의 전력 평균 평균 – 최빈값과 중앙값.

산술 평균이산형 분포 계열의 경우 다음 공식으로 계산됩니다.

모든 옵션을 기반으로 계산되는 산술 평균과 달리 모드와 중앙값은 변형 시리즈에서 특정 위치를 차지하는 통계 단위의 특성 값을 나타냅니다.

중앙값( ) - 순위가 매겨진 계열의 중간에 위치하며 인구를 동일한 크기의 두 부분으로 나누는 통계 단위에 대한 속성 값입니다.

패션 (Mo)는 집합체에서 특성의 가장 일반적인 값입니다.모드는 통계 실습에서 널리 사용됩니다. 소비자 수요, 가격 등록 등을 연구합니다.

개별 변형 시리즈의 경우 그리고 정의에 따라 선택됩니다. 모드 - 가장 높은 빈도를 갖는 기능의 값 : 모집단 크기가 홀수인 중앙값의 위치는 그 수에 의해 결정됩니다. 여기서 N은 통계적 모집단의 부피입니다. 계열의 거래량이 짝수인 경우 중앙값은 계열의 중간에 위치한 두 옵션의 평균과 같습니다.

중앙값은 가장 신뢰할 수 있는 지표로 사용됩니다. 전형적인이질적인 인구의 가치는 민감하지 않기 때문에 특성의 극한 값은 크게 다를 수 있습니다. 해당 값의 기본 배열입니다. 또한, 중앙값은 다음을 찾습니다. 특별한 수학적 특성으로 인한 실제 적용: 다음 예를 사용하여 최빈값과 중앙값의 정의를 고려해보세요. 기술 수준에 따라 현장 작업자의 분포가 다양합니다.

데이터는 표 5.2에 나와 있습니다.

모드는 최대 주파수 값에 따라 선택됩니다. N최대 = 14 =4, 즉 네 번째 범주가 가장 일반적입니다. 중앙값을 찾으려면 중앙 단위가 결정되는데, 이것이 25번째와 26번째 단위입니다. 누적된 주파수에 따라 이러한 장치가 속하는 그룹이 결정됩니다. 이는 속성 값이 4인 4번째 그룹입니다. 따라서, = 4, 이는 근로자의 절반이 4위 이하의 순위를 갖고 나머지 절반은 4위 이상이라는 것을 의미합니다. 간격 계열 값에서 그리고 좀 더 복잡한 방식으로 계산됩니다.

모드는 다음과 같이 정의됩니다.

최대 주파수 값은 모드 값이 있는 간격을 결정합니다. 모달이라고 합니다.

모달 간격 내에서 모드 값은 다음 공식을 사용하여 계산됩니다.

간격 계열의 중앙값을 계산하려면 다음 접근 방식이 사용됩니다.

누적된 빈도를 바탕으로 중앙값 간격을 구합니다. 중앙값은 중앙 단위를 포함하는 간격입니다.

중앙값 간격 내에서 값 다음 공식에 의해 결정됩니다.

계산할 때 불평등한 간격 계열에서 다른 하나가 사용됩니다 주파수 응답– 절대 밀도 분포:

표 5.3에 주어진 근속 기간별 근로자 분포 계열의 예를 사용하여 간격 분포 계열의 모드 및 중앙값 계산을 고려해 보겠습니다.

모 계산:

최대 주파수 N max = 13이면 네 번째 그룹에 해당하므로 모달 간격은 12~16년입니다.

다음 공식을 사용하여 모드를 계산해 보겠습니다.

대부분 약 13년의 업무 경험을 가진 근로자가 있습니다. 모드가 모달 간격의 중간에 있지 않고 아래쪽 경계로 이동합니다. 이는 구조 때문입니다. 이 시리즈분포(사전 모달 간격의 빈도는 사후 모달 간격의 빈도보다 상당히 큽니다).

중앙값 계산:

중앙값 간격은 누적 빈도 그래프에서 결정됩니다. 여기에는 3번째와 4번째의 서로 다른 그룹에 있는 25번째와 26번째 통계 단위가 포함되어 있습니다. 찾다 당신은 그들 중 하나를 사용할 수 있습니다. 세 번째 그룹에 대한 계산을 수행합니다.

같은 의미 는 네 번째 그룹을 사용하여 계산하여 얻을 수 있습니다.

더블 센터 포함 항상 중앙 단위를 포함하는 간격의 교차점에 위치합니다. 계산된 값 처음 25명의 근로자는 12년 미만의 근무 경력을 가지고 있고 나머지 25명의 근로자는 12년 이상의 근무 경력을 가지고 있는 것으로 나타났습니다.

최빈값은 이산 계열의 분포 다각형, 간격 계열의 분포 히스토그램 및 누적에 의한 중앙값에 의해 그래픽으로 결정될 수 있습니다.

간격 계열에서 모드를 찾으려면 모달 직사각형의 오른쪽 꼭지점은 이전 직사각형의 오른쪽 상단 모서리에 연결되어야 하고, 왼쪽 꼭지점은 다음 직사각형의 왼쪽 상단 모서리에 연결되어야 합니다. 이 선들의 교차점의 가로좌표가 분포 모드가 됩니다.

중앙값을 결정하기 위해 전체 인구 규모에 해당하는 누적의 가장 큰 세로 좌표의 높이를 반으로 나눕니다. 결과 점을 통해 가로좌표 축과 평행한 직선이 누적과 교차할 때까지 그려집니다. 교차점의 가로좌표가 중앙값입니다.

제외하고 그리고 변형 시리즈에서는 다른 구조적 특성(분위수)을 결정할 수 있습니다. 분위수는 분포 계열의 구조에 대한 심층적인 연구를 위한 것입니다. 분위수– 이는 이 특성에 따라 정렬된 모집단에서 특정 위치를 차지하는 특성의 값입니다. 다음 유형의 분위수가 구별됩니다.

사분위수– 주문된 세트를 4개의 동일한 부분으로 나누는 특성 값;

십분위수– 인구를 10등분으로 나누는 특성값

백분위- 인구를 100등분으로 나누는 특성값.

데이터가 그룹화되면 사분위수 값은 누적 빈도, 즉 i번째 분위수를 포함하는 그룹의 수에 의해 결정됩니다. 누적 빈도의 합이 i N 이상인 계열의 시작 부분에서 첫 번째 그룹의 수로 정의됩니다. 여기서 I는 분위수 지수입니다. 계열이 간격인 경우 분위수 값은 다음 공식에 의해 결정됩니다.

서비스 기간에 따른 현장 작업자 분포의 사분위수를 계산해 보겠습니다.

결과적으로 근로자의 4분의 1은 7년 미만의 경력을 갖고 있으며 4분의 1은 16년 이상의 경력을 갖고 있습니다. 따라서 분포 계열의 중심 위치를 특성화하기 위해 3가지 지표를 사용할 수 있습니다. 평균값 징후, 모드, 중앙값.

특정 유통 센터 표시기의 유형과 형태를 선택할 때 다음 권장 사항에 따라 진행해야 합니다.

안정적인 사회 경제적 과정을 위해 산술 평균이 중심의 지표로 사용됩니다. 이러한 프로세스는 다음과 같은 대칭 분포를 특징으로 합니다.

불안정한 프로세스의 경우 유통 센터의 위치는 다음을 사용하여 특성화됩니다. 또는 . 비대칭 프로세스의 경우 분포 센터의 선호되는 특성은 중앙값입니다. 이는 산술 평균과 최빈값 사이의 위치를 ​​차지하기 때문입니다.

분포의 일반적인 성격을 결정하는 데 있어 두 번째로 중요한 작업은 분포의 균질성 정도를 평가하는 것입니다. 통계적 모집단의 동질성은 특성의 변동(분산) 정도에 따라 결정됩니다. 다른 통계 단위의 값 사이의 불일치. 통계의 변화를 측정하기 위해 절대 및 상대 지표가 사용됩니다. 분포의 일반적인 성격을 결정하려면 동질성 정도를 평가하는 것뿐만 아니라 분포의 형태를 연구하는 것도 포함됩니다. 대칭 및 첨도 평가.

수학적 통계를 통해 통계 모집단의 양이 증가하고 그룹화 간격이 동시에 감소함에 따라 다각형 또는 분포 히스토그램이 이러한 그래프의 한계인 특정 부드러운 곡선에 점점 더 가까워지는 것으로 알려져 있습니다. 이 곡선은 경험적 분포 곡선그리고 대표한다 연속적인 변화선 형태의 그래픽 표현 변경 옵션과 기능적으로 연관된 빈도.

통계는 다음을 구별합니다. 분포 곡선의 종류:

단일 꼭지점 곡선; 다중 꼭지점 곡선.

동질적인 모집단은 단일 정점 분포로 설명됩니다. 다중 정점 분포는 연구 대상 인구의 이질성 또는 그룹화 품질이 좋지 않음을 나타냅니다.

단일 피크 분포 곡선은 대칭형, 약간 비대칭형, 극도 비대칭형으로 구분됩니다.

분포 중심의 양쪽에 동일한 간격으로 위치한 두 옵션의 빈도가 서로 같을 경우 분포를 대칭이라고 합니다. 그러한 분포에서는

비대칭성을 특성화하기 위해 비대칭 계수가 사용됩니다.

가장 일반적으로 사용되는 것은 다음과 같습니다.

피어슨 왜도 계수

단일 정점 분포에서 이 표시기의 값은 -1에서 +1까지 다양합니다. 대칭 분포에서는 As=0입니다. As>0이면 오른쪽 비대칭이 관찰됩니다(그림 5.4). 오른쪽 왜도를 갖는 분포에서

쌀. 5.4 우측 비대칭 그림 5.5. 왼쪽 비대칭

계수가 가까울수록 처럼 1로 갈수록 비대칭성이 더욱 중요해집니다.

피어슨 왜도 계수는 분포의 중앙 부분에서만 왜도를 특성화하므로 더 일반적이고 정확합니다. 비대칭 계수, 3차 중심 모멘트를 기준으로 계산:

중심 순간통계에서는 산술 평균과 특성의 개별 값의 평균 편차를 호출합니다.

k차 중심 모멘트는 다음과 같이 계산됩니다.

따라서 3차 중심 모멘트를 결정하는 공식은 다음과 같은 형식을 갖습니다.

두 번째 방법으로 계산된 비대칭 계수의 중요성을 평가하기 위해 제곱평균제곱근 오차가 결정됩니다.

단일 정점 분포의 경우 모양을 평가하기 위한 또 다른 지표가 계산됩니다. 과잉. 과잉지표이다 피크 분포. 4차 중심 모멘트를 기준으로 대칭 분포에 대해 계산됩니다.

에게 평평한.

그룹화- 이것은 어떤 특성에 따라 인구를 동질적인 그룹으로 나누는 것입니다.

서비스의 목적. 온라인 계산기를 사용하면 다음을 수행할 수 있습니다.

  • 변형 시리즈를 구축하다, 히스토그램과 다각형을 만듭니다.
  • 변동 지표 찾기(평균, 모드(포함) 그래픽적으로), 중앙값, 변동 범위, 사분위수, 십분위수, 사분위수 차별화 계수, 변동 계수 및 기타 지표);

지침. 계열을 그룹화하려면 얻은 변형 계열 유형(이산형 또는 간격)을 선택하고 데이터 양(행 수)을 표시해야 합니다. 결과 솔루션은 다음 위치에 저장됩니다. 워드 파일(통계 데이터 그룹화의 예 참조)

그룹화가 이미 수행되었으며 개별 변형 시리즈또는 간격 시리즈, 그런 다음 온라인 계산기 Variation Indices를 사용해야 합니다. 분포 유형에 대한 가설 테스트배포 형태를 연구하는 서비스를 사용하여 수행됩니다.

통계적 그룹화 유형

변형 시리즈. 이산 확률 변수를 관찰하는 경우 동일한 값이 여러 번 나타날 수 있습니다. 무작위 변수의 이러한 값 x i는 n 관측에 나타나는 횟수를 나타내는 것으로 기록되며, 이것이 이 값의 빈도입니다.
연속확률변수의 경우에는 실제로 그룹화가 사용됩니다.
  1. 유형학적 그룹화- 이것은 연구중인 질적으로 이질적인 인구를 계급, 사회 경제적 유형, 동질적인 단위 그룹으로 나누는 것입니다. 이 그룹화를 작성하려면 Discrete Variation Series 매개변수를 사용하십시오.
  2. 그룹화를 구조적이라고 합니다., 동질적인 인구는 다양한 특성에 따라 구조를 특징 짓는 그룹으로 나뉩니다. 이 그룹화를 작성하려면 간격 계열 매개변수를 사용하십시오.
  3. 연구 중인 현상과 그 특성 사이의 관계를 나타내는 그룹을 그룹화라고 합니다. 분석 그룹(시리즈의 분석적 그룹화 참조)

예 1. 표 2의 데이터를 바탕으로 러시아 연방의 40개 상업은행에 대한 유통 시리즈를 구성합니다. 결과 분포 계열을 사용하여 상업 은행별 평균 이익, 상업 은행별 평균 신용 투자, 수익의 모달 및 중앙값을 결정합니다. 사분위수, 십분위수, 변동 범위, 평균 선형 편차, 표준 편차, 변동 계수.

해결책:
장에서 "통계 계열의 종류"이산 계열을 선택합니다. Excel에서 삽입을 클릭합니다. 그룹 수: Sturgess 공식에 따름

통계적 그룹화 구성 원칙

오름차순으로 정렬된 일련의 관측치를 변형 계열이라고 합니다.. 그룹화 기능인구가 별도의 그룹으로 나뉘는 특성입니다. 그룹의 기본이라고합니다. 그룹화는 양적 특성과 질적 특성을 모두 기반으로 할 수 있습니다.
그룹화의 기초를 결정한 후 연구 대상 인구를 몇 개의 그룹으로 나누어야 하는지에 대한 문제가 결정되어야 합니다.

사용 개인용 컴퓨터통계 데이터를 처리하기 위해 개체 단위의 그룹화는 표준 절차를 사용하여 수행됩니다.
이러한 절차 중 하나는 최적의 그룹 수를 결정하기 위해 Sturgess 공식을 사용하는 것입니다.

k = 1+3.322*log(N)

여기서 k는 그룹 수이고, N은 인구 단위 수입니다.

부분 구간의 길이는 h=(x max -x min)/k로 계산됩니다.

그런 다음 이러한 간격에 해당하는 관측값의 수가 계산되고 빈도 ni 로 간주됩니다. 값이 5보다 작은 주파수는 거의 없습니다.< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
x i =(c i-1 +ci)/2 구간의 중간 값이 새 값으로 사용됩니다.

예 번호 3. 5% 무작위 표본을 추출한 결과, 수분함량별 제품 분포는 다음과 같았다. 계산: 1) 습도의 평균 백분율; 2) 습도 변화를 특성화하는 지표.
계산기를 사용하여 해를 구했습니다. 예 1

변형 시리즈를 구성합니다. 찾은 계열을 바탕으로 분포 다각형, 히스토그램, 누적을 구성합니다. 모드와 중앙값을 결정합니다.
솔루션 다운로드

. 샘플 관찰 결과에 따르면(샘플 A, 부록):
a) 변형 시리즈를 만든다.
b) 상대도수와 누적 상대도수를 계산합니다.
c) 다각형을 구축합니다.
d) 경험적 분포 함수를 생성합니다.
e) 경험적 분포 함수를 도표화합니다.
f) 수치적 특성을 계산합니다: 산술 평균, 분산, 표준 편차. 해결책

표 4(부록 1)에 제공된 데이터와 귀하의 옵션에 따라 다음을 수행하십시오.

  1. 구조적 그룹화를 기반으로 등폐구간을 사용하여 그룹 수를 6으로 하여 변동 빈도 및 누적 분포 계열을 구성합니다. 결과를 표 형식으로 제시하고 그래픽으로 표시합니다.
  2. 다음을 계산하여 분포의 변동 계열을 분석합니다.
    • 특성의 산술 평균값;
    • 최빈값, 중앙값, 1분위수, 1분위수 및 9번째 십분위수;
    • 표준 편차;
    • 변동 계수.
  3. 결론을 짓다.

필수: 계열 순위 지정, 간격 분포 계열 구성, 평균값, 평균값의 변동성, 순위 및 간격 계열에 대한 모드 및 중앙값을 계산합니다.

초기 데이터를 기반으로 개별 변형 시리즈를 구성합니다. 이를 통계표와 통계 그래프의 형태로 제시합니다. 2). 초기 데이터를 기반으로 동일한 간격으로 간격 변동 계열을 구성합니다. 간격 수를 직접 선택하고 이 선택에 대해 설명하십시오. 결과적인 변화 계열을 통계표와 통계 그래프의 형태로 제시합니다. 사용된 테이블과 그래프의 유형을 나타냅니다.

평균 고객 서비스 기간을 결정하기 위해 연금 기금, 고객 수가 매우 많은 100명의 고객을 대상으로 무작위 비반복 샘플링 방식을 사용하여 설문 조사를 수행했습니다. 설문 조사 결과가 표에 나와 있습니다. 찾다:
a) 확률 0.9946으로 연금 기금의 모든 고객에 대한 평균 서비스 시간이 포함되는 경계
b) 서비스 기간이 6분 미만인 모든 펀드 고객의 비중이 표본 내 해당 고객의 비중과 10% 이내(절대값)만큼 다를 확률;
c) 반복 샘플링의 양. 0.9907의 확률로 서비스 기간이 6분 미만인 모든 펀드 고객의 비율이 샘플에서 해당 고객의 비율과 10 이하로 다르다고 말할 수 있습니다. %(절대값).
2. 작업 1의 데이터에 따라 Pearson의 X 2 기준을 사용하여 유의 수준 α = 0.05에서 확률 변수 X(고객 서비스 시간)가 정규 법칙에 따라 분포된다는 가설을 검정합니다. 하나의 도면에서 경험적 분포와 이에 상응하는 정규 곡선의 히스토그램을 구성합니다.
솔루션 다운로드

100개 요소의 샘플이 제공됩니다. 필요한:

  1. 순위가 매겨진 변형 시리즈를 구성합니다.
  2. 계열의 최대 및 최소 항을 찾습니다.
  3. 구간 계열을 구성하기 위한 변동 범위와 최적 구간 수를 찾습니다. 간격 계열의 간격 길이를 찾으십시오.
  4. 간격 계열을 구성합니다. 구성된 구간에 속하는 샘플 요소의 빈도를 찾습니다. 각 간격의 중간점을 찾으세요.
  5. 히스토그램과 빈도 다각형을 구성합니다. 정규 분포와 비교합니다(분석적으로나 그래픽적으로).
  6. 경험적 분포 함수를 도표화합니다.
  7. 샘플 수치 특성 계산: 샘플 평균 및 중앙 샘플 모멘트;
  8. 표준편차, 왜곡도, 첨도의 대략적인 값을 계산합니다(MS Excel 분석 패키지 사용). 대략적으로 계산된 값을 정확한 값과 비교합니다(MS Excel 공식을 사용하여 계산됨).
  9. 선택한 그래픽 특성을 해당 이론적 특성과 비교합니다.
솔루션 다운로드

제품 생산량 및 수익 금액(백만 루블)에 대해 다음 샘플 데이터를 사용할 수 있습니다(10% 샘플, 기계). 원본 데이터에 따르면:
과제 13.1.
13.1.1. 이익 금액에 따른 기업 분포의 통계적 계열을 구성하여 동일한 간격으로 5개 그룹을 구성합니다. 분포 계열 그래프를 구성합니다.
13.1.2. 산술 평균, 표준 편차, 분산, 변동 계수 V 등 이익 금액을 기준으로 기업 분포 계열의 수치 특성을 계산합니다. 결론을 도출합니다.
과제 13.2.
13.2.1. 확률 0.997로 일반 인구 중 한 기업의 이익 금액이 속하는 경계를 결정하십시오.
13.2.2. Pearson의 x2 테스트를 사용하여 유의 수준 α에서 확률 변수 X(이익 금액)가 정규 법칙에 따라 분포된다는 가설을 테스트합니다.
과제 13.3.
13.3.1. 표본 회귀 방정식의 계수를 결정합니다.
13.3.2. 제조된 제품의 비용(X)과 기업당 이익 금액(Y) 사이의 상관관계의 존재와 성격을 확립합니다. 산점도와 회귀선을 구성합니다.
13.3.3. 선형 상관 계수를 계산합니다. 스튜던트 t-테스트를 ​​사용하여 상관 계수의 유의성을 테스트합니다. Chaddock 척도를 사용하여 요인 X와 Y 사이의 밀접한 관계에 대한 결론을 도출합니다.
지침 . 작업 13.3은 이 서비스를 사용하여 수행됩니다.
솔루션 다운로드

. 다음 데이터는 고객이 계약을 체결하는 데 소요한 시간을 나타냅니다. 제시된 데이터의 간격 변동 계열인 히스토그램을 구성하고, 수학적 기대에 대한 편향되지 않은 추정치, 분산에 대한 편향되고 편향되지 않은 추정치를 찾습니다.

예. 표 2에 따르면:
1) 러시아 연방의 40개 상업 은행을 위한 유통 시리즈 구축:
A) 이익 측면에서;
B) 신용 투자 금액.
2) 얻은 분포 계열을 사용하여 다음을 결정합니다.
A) 상업은행당 평균 이익
B) 상업은행별 평균 신용투자;
C) 이익의 모달 및 중간 가치; 사분위수, 십분위수;
D) 신용 투자의 모달 및 중간 가치.
3) 1단계에서 얻은 분포 행을 사용하여 다음을 계산합니다.
a) 변동 범위
b) 평균 선형 편차;
c) 표준편차;
d) 변동계수.
필요한 계산을 표 형식으로 완료합니다. 결과를 분석하십시오. 결론을 짓다.
결과 분포 계열의 그래프를 그립니다. 모드와 중앙값을 그래픽으로 결정합니다.

해결책:
동일한 간격으로 그룹화를 구축하기 위해 통계 데이터 그룹화 서비스를 사용합니다.

그림 1 - 매개변수 입력

매개변수 설명
라인 수: 입력 데이터 개수. 행 크기가 작은 경우 수량을 표시하십시오. 선택 항목이 충분히 크면 Excel에서 삽입 버튼을 클릭합니다.
그룹 수: 0 - 그룹 수는 Sturgess 공식에 따라 결정됩니다.
특정 그룹 수를 지정한 경우 이를 지정합니다(예: 5).
시리즈 유형: 이산 시리즈.
유의수준: 예를 들어 0.954 . 이 매개변수는 평균의 신뢰구간을 결정하기 위해 설정됩니다.
견본: 예를 들어 10% 기계적 샘플링을 실시한 경우입니다. 우리는 숫자 10을 나타냅니다. 우리 데이터의 경우 100을 나타냅니다.

확률 분포 다각형


마찬가지로 위의 모든 처리 및 구성 기술은 공급량, 배송 간격, 일일 공급량 및 일일 공급량과 같은 다른 지표로 확장될 수 있습니다. 이러한 분포 다각형은 보고 연도 동안 기업에서 공급량, 배송 간격, 일일 공급량 등이 어떻게 변경되었는지 설명합니다.

모든 다각형은 특정 특성의 변동 간격(범위)의 평균값 세트와 이 평균값의 발생 빈도로 설명됩니다. 각 분포 다각형은 분석적으로 표현될 수 있습니다. 예를 들어 공급량 분포 계열(Q, W)의 경우 공식은 다음과 같습니다.

마찬가지로 납품량(T, Y)과 일일 공급량(R, SO) 사이의 간격 분포에 대한 다각형을 분석적으로 표현하는 것이 가능합니다.

분포 다각형은 그래프에 그려진 점선으로, 반복 테스트 중에 사건의 다양한 결과가 발생할 확률의 변화를 나타냅니다.

다음 작업은 계획 연도의 배송 간격 동안 발생할 수 있는 표준 형성 요소 값의 가능한 조합을 평가하는 것입니다. 결과를 얻을 가능성은 그림 1에 표시된 데이터 분석을 통해 알 수 있습니다. 5.8과 5.9. 이 12개의 그래프 각각에는 표준 형성 요인 값의 변동 분포에 대한 두 개의 다각형이 전체적으로 3년 동안 그리고 같은 기간의 1년 동안 구성됩니다. 이는 채굴 및 가공, 목재 가공 공장, 2개의 기계 제작 공장 등 4개 기업에 걸쳐 건설되었습니다. 그래프에서 가로축은 각 기업의 표준형성요소 값의 변동 범위를 나타내고, 세로축은 해당 기간에 특성값이 나타나는 빈도를 나타낸다. 그래프에 그려진 다각형의 점선은 보고 연도(1)에 대한 실제 데이터 처리 결과를 기반으로 하고, 실선은 3년 전체 기간(Z)에 대한 처리 결과를 기반으로 구성됩니다.

위에서 언급한 것처럼 분포 다각형에서 히스토그램을 쉽게 얻을 수 있고 그 반대의 경우도 마찬가지입니다. 이 방법원본 그래프가 히스토그램이라는 가정하에 생각해 봅시다. 분포 다각형만 알려진 경우 이를 주의 깊게 측정하고 이 다각형의 기준점(간격의 중간점)을 결정하여 히스토그램을 재구성한 다음 설명된 방법을 히스토그램에 직접 적용할 수 있습니다. 구축 방법에 관해서는 다음과 같은 가정을 받아들입니다.

테이블에 6.3.1은 경험적 분포 함수, 히스토그램 및 분포 다각형을 계산하는 데 필요한 모든 초기 데이터를 보여줍니다.

아래 그림에서. 6.3.10과 6.3.11은 상대도수 분포의 히스토그램과 다각형을 보여준다.

II. 다이어그램 1. 인종 다이어그램-a) DG 분포를 하나씩 분포 다각형 히스토그램

변화 계열은 분포 다각형과 히스토그램 형태로 그래픽으로 표시할 수 있습니다.

분포 다각형은 이산형 변이 계열을 묘사하는 데 가장 자주 사용됩니다.

분포 다각형과 히스토그램은 제한된 수의 관측치(N)로 표본 모집단의 분포를 구현한 것이며 N - > °°에 대한 한계 곡선은 일반 모집단의 분포입니다. 인구 분포는 이론적 분포입니다. 개별 분포가 연구되었으며 정확한 분석 설명이 가능합니다.

간격을 줄이고 동시에 유한 그룹 크기로 관측치 수를 늘리면 분포 다각형과 히스토그램이 접근하기 시작합니다.

변형 시리즈를 묘사하기 위해 직사각형 좌표계로 구성된 선형 및 평면 다이어그램이 사용됩니다. 특성의 이산적 변동의 경우 변동 계열의 그래프는 분포 다각형입니다. 다음 데이터를 사용하여 구성의 예를 고려해 보겠습니다.

분포 다각형은 닫힌 다각형이며 정점의 가로 좌표는 다양한 특성의 값이고 세로 좌표는 해당 주파수입니다 (그림 3.8).

분포 계열은 그래픽 표현을 사용하여 시각적으로 표현할 수 있으며 이를 통해 분포의 모양을 판단할 수 있습니다. 이 목적에 가장 일반적으로 사용되는 것은 다각형과 히스토그램입니다.

그래프(그림 4.1)는 위 분포의 다각형(파선)과 히스토그램(직사각형 집합)을 보여줍니다.

연구 지표에 대한 선택된 요인의 영향 정도에 대한 다각형 - 연구 지표에 대한 요인의 영향 순위 합계 분포. 그 시작과 끝을 직선으로 연결하면 결과 순위가 설문조사에 참여한 전문가들의 의견이 완전히 일치하는 순위와 얼마나 떨어져 있는지 알 수 있다. 이 경우 세 가지 순위 사례가 가능합니다.

다각형은 직교 좌표계의 이산 변화 계열을 그래픽으로 표현한 것으로, 특성 X의 값은 가로축에 표시되고 해당 주파수 W는 세로축에 표시됩니다. 이 점들은 직선 세그먼트로 연결되며 결과 그림은 속성 X에 따른 인구 분포를 나타냅니다.

산업 매장량의 특정 표준을 계산하려면 각 다각형의 분석 기록에서 확률적 특성(공급량 변화의 분포 밀도(또는 그에 따른 배송 간격, 일일 공급량 등))으로 이동해야 합니다. 다각형 위에 구성된 이 속성의 변동 분포 밀도 - P(X X)는 계획된 연도에 속성 X의 변동이 어떻게 변할 것인지를 보여줍니다. 이러한 분포 밀도는 안정성의 특성을 갖는다는 점을 아래에서 더 자세히 설명합니다. 계획된 연도에 대해 지정된 생산 예비 기준을 계산할 수 있으며, 불균일성(요소 변동 범위)이 클수록 결정된 생산 재고 기준의 값이 더 높게 설정되어야 함을 알 수 있습니다. 기타 동일하거나 거의 동일한 조건(예: 연간 수령량, 배송 빈도 및 연간 유량 등).

특성 변동의 다각형(예: 공급량 - Q, W)의 분석적 표현에서 동일한 특성의 변동 분포 밀도 - Q, P(Q)로 이동하는 방법을 살펴보겠습니다. 여기서는 위의 두 경우에 대해 공급량 변동의 크기에 대한 다른 표기법과 공급량의 빈도 및 확률 변화에 대한 다른 표기법이 사용됩니다. 첫 번째 경우에는 데이터는 있지만 보고는 없습니다.

그래픽적으로 변화 계열은 분포 곡선 또는 빈도 다각형 형태로 표시됩니다. 예를 들어 보겠습니다.

행의 디지털 및 그래픽 표현을 통해 두 번째 해에는 기계적 속도 수준에 따른 치즐링 분포가 크게 개선되었음을 알 수 있습니다. 따라서 두 번째 해에는 첫 번째 간격이 완전히 채워지지 않은 것으로 밝혀졌으며 행이 짧아지고 다각형의 상단이 오른쪽으로 이동하여 더 빠른 속도로 이동했습니다.

쌀. 13. 아날로그 샘플의 히스토그램, 다각형 및 확률 밀도 분포 측정기 /info/5256">그림 13에 표시된 카운트 p(x)의 확률 밀도 분포, b.

데이터의 변화는 분포 다각형, 누적(곡선보다 작음) 및 ogive(곡선보다 큼)를 사용하여 분석됩니다. 이러한 모든 유형의 그래프는 5장에서 논의됩니다. 선 그래프는 데이터 분류 문제를 해결하는 데 사용됩니다(6장 참조). 동적 분석에서 선 그래프의 사용은 9장에서 설명하고 관계 분석에 대한 사용은 8장에서 설명합니다. 같은 장에서는 산포도의 사용에 대해 설명합니다(예를 들어 8장의 상관 필드 참조).

분포 다각형은 다음과 같이 직사각형의 세로좌표 격자 위에 구성된 다각형입니다. 가로축의 선택된 눈금에 눈금이 그려집니다. 실제 값세로축의 랜덤 변수 X

1998년 1월 1일 현재 러시아의 연령별(백만 명) 농촌 인구 분포에 대한 다음 데이터를 기반으로 다각형, 히스토그램, 누적 및 목표(그림 4.1)를 작성해 보겠습니다.

우선, 비교된 운송 방식의 지표 비교 조건을 준수하려면 보고 데이터뿐만 아니라 자본 투자, 운영 비용 및 비용 절감에 대한 계산된 지표도 사용해야 합니다. 이 요구 사항은 파이프라인과 철도 운송에 대한 실제 보고 데이터 간의 일부 비호환성으로 인해 설명됩니다. 특히, 파이프라인을 통해 현장에서 공장까지 오일을 펌핑하는 경우 이러한 유형의 운송 비용에는 주 펌프장의 수용 탱크에서 운송 프로세스 간격에 대한 모든 비용이 반영됩니다. 송유관을 공장의 송유관 최종 지점 전달 탱크까지 연결합니다. 동일한 석유가 철도로 배송되는 경우 부서별 보고에는 석유 선적 및 하역 비용이 반영되지 않습니다. 당연히 이와 관련하여 철도의 실제 보고 데이터를 조정하고 주요 파이프라인 지표와 비교할 수 있는 형태로 가져와야 합니다. 고려 중인 운송 모드 간에 석유 화물 운송을 분산시키는 문제를 해결할 때 네트워크 평균 지표를 사용하여 철도 옵션을 평가할 수도 없습니다. 후자의 지표는 매우 구체적이어야 합니다. 즉, 석유 또는 석유 제품의 추가 흐름이 추가로 적재될 때 고려 중인 방향의 실제 비용을 정확하게 반영해야 합니다. 철도 옵션을 보다 정확하게 평가하기 위해 해당 철도뿐만 아니라 석유 화물의 추가 흐름의 영향이 느껴지는 네트워크 영역에 대한 비용도 계산할 수 있습니다. 그러한 영향력이 없다면 우리는 고려된 대상에 대해서만 비용을 결정하는 것으로 제한할 수 있습니다. 철도.  

특성의 변화 패턴을 명확하게 결정하기 위해 분포 계열을 다각형 형태로 나타내는 것이 좋습니다(이 연구에서 연구된 모든 특성은 이산 값으로 특성화되므로). 분포 계열을 그래픽으로 표현하려면 원본 데이터의 그룹화 간격 크기를 결정해야 합니다.

분포 계열을 그래픽으로 표시하려면 히스토그램, 다각형 외에 누적 곡선, ogive1을 사용할 수도 있습니다.

그림 1에 표시된 표준 형성 요소 값의 변동 다각형의 물리적 의미. 5.8 및 5.9는 다음과 같습니다. 보고 기간 동안 기업의 완제품 생산 및 배송 조건이 어떻게 변경되었는지 보여줍니다. 그림에 표시된 그래프에서 5.8d에 따르면 LDK-4 목재 가공 공장의 일일 목재 생산량은 100~900m3 범위로 다양합니다. m(즉, 변동 범위는 Rmia = 100에서 -Rmax = 900 입방미터/일입니다). 목재 생산량은 430입방미터입니다. m/day는 44%(P(U - 0.44), 580 입방 m/일 - 28%, 690 입방 m/일 - 4% 등의 주요 점유율을 차지했습니다. 그림 5.8d 및 5.8f에서 분포는 보고 기간에 발생한 일일 목재 선적량의 변화와 선적 간 간격이 구성되었습니다... 일일 선적량은 하루 50~780m3 범위에서 다양했습니다(그림 5.8d). 주로 200-500 입방미터 m/일 - 45% (O = 200-580 입방미터/일에서 P(O) = 0.45), 580 입방미터/일 - 13%, 640 입방미터/일 - 4 % 등 d.

공유하다