Construiți un poligon de distribuție în serie. Grafică poligonală

Secțiuni: Matematica

Ţintă:

  • Îmbunătățirea abilităților și abilităților de a găsi caracteristicile statistice ale unei variabile aleatorii, lucrând cu calcule în Excel;
  • aplicarea tehnologiilor comutative informaționale pentru analiza datelor; lucrați cu diferiți purtători de informații.

În timpul orelor

  1. Astăzi, în lecție, vom învăța cum să calculăm caracteristicile statistice pentru eșantioane mari folosind capacitățile tehnologiilor moderne de calculatoare.
  2. Mai întâi, să ne amintim:

- ce se numește o variabilă aleatorie? (O variabilă aleatorie este o variabilă care, în funcție de rezultatul testului, ia o valoare dintr-un set de valori posibile.)

- Ce fel de variabile aleatoare știm? (Discret, continuu.)

- Dați exemple de variabile aleatoare continue (creșterea copacilor), variabile aleatoare discrete (numărul de elevi din clasă).

- Ce caracteristici statistice ale variabilelor aleatorii cunoaștem (mod, mediană, medie eșantion, interval).

- Ce tehnici sunt utilizate pentru a vizualiza caracteristicile statistice ale unei variabile aleatorii (poligon de frecvență, diagrame cu bare și bare, histograme).

  1. Să luăm în considerare utilizarea instrumentelor Excel pentru rezolvarea problemelor statistice cu un exemplu specific.

Exemplu. Înregistrat în 100 de companii. Valorile numărului de angajați din companie (persoane) sunt date:

Progres.

1. Introduceți date în EXCEL, fiecare număr într-o celulă separată.

23 25 24 25 30 24 30 26 28 26
32 33 31 31 25 33 25 29 30 28
23 30 29 24 33 30 30 28 26 25
26 29 27 29 26 28 27 26 29 28
29 30 27 30 28 32 28 26 30 26
31 27 30 27 33 28 26 30 31 29
27 30 30 29 27 26 28 31 29 28
33 27 30 33 26 31 34 28 32 22
29 30 27 29 34 29 32 29 29 30
29 29 36 29 29 34 23 28 24 28

2. Pentru a calcula caracteristicile numerice, utilizați opțiunea Insert - Function. Și în fereastra care apare, în linie, selectați categoria - statistică, în lista: MODĂ

Apăsați tasta OK. Primit M o = 29 (persoane) - Firme cu cel mai mare personal de 29 de persoane.

Folosind aceeași cale, calculați mediana.

Insert - Funcție - Statistică - Mediană.

În câmpul Numărul 1, puneți cursorul și selectați tabelul nostru cu mouse-ul:

Apăsați tasta OK. Primit M e = 29 (persoane) - valoarea medie a angajaților din companie.

Gama numerelor este diferența dintre cea mai mică și cea mai mare valoare posibilă a unei variabile aleatorii. Pentru a calcula intervalul seriei, trebuie să găsiți cele mai mari și mai mici valori ale eșantionului nostru și să calculați diferența lor.

Insert - Funcție - Statistică - MAX.

În câmpul Numărul 1, puneți cursorul și selectați tabelul nostru cu mouse-ul:

Apăsați tasta OK. A primit cea mai mare valoare = 36.

Insert - Funcție - Statistică - MIN.

În câmpul Numărul 1, puneți cursorul și selectați tabelul nostru cu mouse-ul:

Apăsați tasta OK. A primit cea mai mică valoare = 22.

36 - 22 = 14 (persoane) - diferența dintre compania cu cel mai mare personal și compania cu cel mai mic personal.

Pentru a trasa o diagramă și un poligon de frecvență, este necesar să se stabilească legea distribuției, adică compilați un tabel de valori ale unei variabile aleatorii și frecvențele corespunzătoare. Știm că cel mai mic număr de angajați din companie = 22 și cel mai mare = 36. Să creăm un tabel în care valorile x i variabilele aleatoare se schimbă de la 22 la 36 inclusiv la pasul 1.

x i 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
n i

Insert - Funcție - Statistică - COUNTIF.

În fereastra Range, puneți cursorul și selectați selecția noastră, iar în fereastra Criterion, puneți numărul 22

Apăsați tasta OK, obținem valoarea 1, adică numărul 22 din eșantionul nostru apare de 1 dată și frecvența acestuia = 1. Completăm întregul tabel în același mod.

x i 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
n i 1 3 4 5 11 9 13 18 16 6 4 6 3 0 1

Pentru a verifica, calculăm dimensiunea eșantionului, suma frecvențelor (Insert - Function - Matematic - SUM). Ar trebui să obțineți 100 (numărul tuturor firmelor).

Pentru a construi un poligon de frecvență, selectați tabelul - Insert - Chart - Standard - Scatter (o diagramă scatter pe care valorile sunt conectate prin segmente)

Primim:

Pentru a construi diagrame cu bare și diagrame, folosim aceeași cale (alegând tipul de diagramă de care avem nevoie).

Grafic - Standard - Plăcintă.

Grafic - Standard - Histogramă.

4. Astăzi, în lecție, am învățat să folosim tehnologiile computerizate pentru analiza și prelucrarea informațiilor statistice.

Parcurgeți următorii pași pentru a finaliza această sarcină.

  1. Accesați o nouă foaie de lucru. Introduceți datele prezentate în exemplu în celulele A1: A36.

2. Mai întâi obțineți distribuția eșantionului în termeni de frecvențe și frecvențe relative (părți) sub forma:

w i w 1 w 2 w k

Pentru a face acest lucru, în celula C1, introduceți „ x i", În celula C2 intrăm" n i„Introduceți în celula С3 w i.

  1. Apoi, trebuie să completați celulele D1: W1 cu valorile seriei de date de la minim 0 la maxim 19. Pentru aceasta, puteți utiliza markerul de umplere.

4. Apoi folosind funcția COUNTIF numărați de câte ori se observă această valoare. Pentru a face acest lucru, plasați cursorul în celula D2. Apelați funcția COUNTIFîn linie Gamă introduceți o referință absolută la intervalul de celule $ A $ 1: $ A $ 36 (referința la intervalul de celule trebuie să fie absolută!). În linie Criteriu introduceți adresa celulei D1, care conține prima opțiune, 0 și faceți clic pe OK. Ca urmare, numărul 1 va apărea în celulă.

  1. Acum, folosind mânerul de umplere, copiați funcția găsită în celula D2 în celulele E2: W2. Ca rezultat, obținem distribuția eșantionului pe frecvențe:
x i
n i

6. Apoi, calculați frecvențele relative. Pentru a finaliza această sarcină, trebuie mai întâi să calculați dimensiunea eșantionului. Pentru a face acest lucru, puneți cursorul în celula X2, faceți clic pe pictograma autosum și apoi pe Introduce. Ca rezultat, suma tuturor frecvențelor 36 va apărea în această celulă (suma numerelor din intervalul D2: W2).

7. Calculați frecvențele relative. Pentru aceasta, plasați cursorul în celula D3 și tastați formula în ea: = D2 / $ X $ 2 (referința la dimensiunea eșantionului trebuie să fie absolută!). Selectați această celulă și copiați formula tastată cu Marker de umplereîn celule D3: W3.



8. Acum desenați un poligon de frecvență. Poate fi construit rapid folosind cele obișnuite Vrăjitori grafic... Pentru a face acest lucru, selectați gama de celule D1: W2 și apelați Expertul de diagrame.

9. În caseta de dialog apărută Vrăjitorii de diagrame (pasul 1 din 4): tipul diagramei alege Diagrama XYși apoi opțiune Linii și puncte... Faceți clic pe buton Mai departe.

10. În fereastra următoare Vrăjitori grafic(pasul 2 din 4): intervalul de date marcă Rânduri în Rânduri, și apăsați Mai departe.

11. În fereastra următoare Vrăjitori grafic(pasul 3 din 4): serie de date nu trebuie să schimbați nimic, faceți clic imediat Mai departe

12. În ultima fereastră Vrăjitori grafic(pasul 4 din 4): elemente grafice

· În câmp Titlu tip: " Poligon de frecvență»;

· În câmp Axa X.(categorii): Numele axei X: " Variante»;

· În câmp Axa Y.(valori): Numele axei Y: " Frecvențe»;

13. În zonă Afișați grila debifați caseta de selectare Axa Y.(valori).

14. În panoul din dreapta, debifați caseta Arată legendași faceți clic pe buton Gata.

16. Ca rezultat, ar trebui să aveți următorul poligon de frecvență.

17. Acum desenați un poligon cu frecvențe relative. Pentru a face acest lucru, selectați gama de celule cu opțiunile D1: W1, apoi țineți apăsat butonul Ctrl selectați intervalul de celule cu frecvențe relative D3: W3 cu mouse-ul.

18. Sunați Expertul de diagrameși faceți toți aceiași pași ca atunci când construiți un poligon de frecvență, cu excepția semnăturilor. La fereastră Expertul de diagrame(pasul 4 din 4): elemente graficeîn câmp Titlu tip: " Poligon de frecvență relativă". Aici trebuie să tastați un nume diferit pentru axa Y: " Frecvențe relative», Numele axei X rămâne același ca în poligonul de frecvență.

20. După toate acțiunile efectuate pentru formatarea acestei diagrame, rețineți că numerele de pe axa Y au un număr diferit de zecimale. Pentru ca numărul de zecimale din etichetele axelor să fie același, ar trebui:

  • faceți dublu clic pe această axă;
  • în caseta de dialog care apare Axa Y. selectați fila Număr;
  • într-un grup Categorie Selectați Numericși instalați Numărul de caractere fracționate: 2.
  • a împinge Bine.

Poligonul terminat al frecvențelor relative ar trebui să arate ca:

Întrebări de control.

1. Pentru ce este funcția MEDIE?

2. Ce caracteristici sunt utilizate pentru a evalua răspândirea datelor statistice? Care sunt funcțiile excela sunt calculate? Care este diferența dintre funcția de estimare a dispersiei de date pentru populația generală și eșantion?

3. Care este diferența dintre funcțiile COUNT și COUNT?

4. Ce este un mod și ce funcție îl calculează?

5. Ce este mediana și ce funcție o calculează?

6. Cum se calculează intervalul de variație?

7. Cu ajutorul a ce caracteristici se estimează abaterea distribuției aleatorii de la normal? Care este semnificația acestor caracteristici și în ce funcționează excela sunt calculate?

8. Ce este Instrumente de analiză? Cum se descarcă Pachet de analiză în Excel?

9. Descrie secvența acțiunilor care trebuie întreprinse pentru a genera numere aleatorii distribuite normal.

10. Cum se construiește o histogramă?

11. Pentru ce este instrumentul Statisticile descriptive?

12. Ce se numește poligon de frecvență și poligon de frecvență relativă?

Graficele sunt o formă vizuală de afișare a seriilor de distribuție. Pentru a afișa seria, se utilizează grafice liniare și diagrame plane, construite într-un sistem de coordonate dreptunghiulare.

Sunt utilizate diferite diagrame pentru a reprezenta grafic seria de distribuție atributivă: bară, liniară, plăcintă, figurată, sector etc.

Pentru seriile de variații discrete, graficul este poligonul de distribuție.

Poligon de distribuție se numește o linie întreruptă care leagă puncte cu coordonate sau unde - valoarea discretă a caracteristicii, - frecvență, - frecvență.

Graficul este desenat pe scara acceptată. Poligonul de distribuție este prezentat în Fig. 5.1.

Pentru a descrie seriile de variații de interval, utilizați histograme, reprezentând forme în trepte formate din dreptunghiuri ale căror baze sunt egale cu lățimea intervalului , iar înălțimea - la frecvență (frecvent ) a unei serii cu un interval egal sau a unei densități de distribuție a unui interval inegal Construirea unui grafic este similară cu construirea unui grafic cu bare. Vederea generală a histogramei este prezentată în Fig. 5.2.

Pentru o reprezentare grafică a seriei de variații, se poate folosi și cumulează- o linie întreruptă trasată din frecvențele acumulate (părți). Frecvențele acumulate sunt reprezentate grafic ca ordonate; conectând vârfurile ordonatelor individuale cu segmente de linie dreaptă, obținem o polilinie nedescrescătoare. Coordonatele punctelor de pe grafic pentru o serie discretă sunt pentru o serie de intervale - Punctul de plecare al graficului are coordonatele celui mai înalt punct - Vizualizarea generală a cumulatelor este prezentată în Figura 5.3. Utilizarea cumulatelor este deosebit de convenabilă atunci când se fac comparații între seriile de variații.

La trasarea seriilor de distribuție raportul scalelor de pe axele absciselor și ale ordonatelor are o mare importanță... In aceea caz și este necesar să se ghideze după „regula secțiunii de aur”, în potrivit căreia înălțimea graficului ar trebui să fie de aproximativ jumătate din dimensiunea bazei sale.

Atunci când se efectuează un studiu empiric al mai multor distribuții, sunt calculate și analizate următoarele grupuri de indicatori:

Indicatori de poziție în centrul de distribuție;

Indicatori ai gradului de omogenitate a acestuia;

Indicatori ai formei de distribuție.

Indicatori ai poziției centrului de distribuție. Acestea includ puterea medie ca medie aritmetică și structurală mediile sunt modă și mediană.

Arfmetica medie pentru o serie discretă de distribuție se calculează prin formula:

Spre deosebire de media aritmetică, calculată pe baza tuturor variantelor, modul și mediana caracterizează valoarea unei caracteristici dintr-o unitate statistică care ocupă o anumită poziție în seria de variații.

Median ( Pe mine ) - valoarea unei caracteristici dintr-o unitate statistică situată în mijlocul unei serii clasate și împărțind populația în două părți egale ca număr.

Modă (Mo) - semnificația cea mai comună a unei caracteristici din agregat. Moda este folosită pe scară largă în practica statistică pentru studierea cererii consumatorilor, înregistrarea prețurilor etc.

Pentru serii de variații discrete Moși Pe mine sunt selectate în conformitate cu definițiile: mod - ca valoare a caracteristicii cu cea mai mare frecvență : poziția medianei pentru o dimensiune imparțială a populației este determinată de numărul acesteia, unde N este volumul populației statistice. Cu un volum uniform al rândului, mediana este egală cu media celor două opțiuni din mijlocul rândului.

Mediana este utilizată ca cel mai fiabil indicator tipic valorile unei populații eterogene, deoarece este insensibilă la valori extreme ale caracteristicii, care pot diferi semnificativ de matricea principală a valorilor sale. În plus, mediana găsește aplicație practică datorită unei proprietăți matematice speciale: Luați în considerare definiția modului și medianei în următorul exemplu: există un număr de distribuție a lucrătorilor după nivelul calificărilor.

Datele sunt prezentate în Tabelul 5.2.

Modul este selectat în funcție de valoarea maximă a frecvenței: la n max = 14 Mo= 4, adică cea mai frecventă este clasa a IV-a. Pentru a găsi mediana Pe mine sunt determinate unitățile centrale. Acestea sunt unitățile 25 și 26. Frecvențele acumulate determină grupul în care se încadrează aceste unități. Acesta este al patrulea grup, în care valoarea atributului este 4. Astfel, Pe mine= 4, aceasta înseamnă că jumătate dintre lucrători au o categorie sub a 4-a, iar pentru cealaltă - peste a patra. În seria de intervale, valorile Moși Pe mine sunt calculate într-un mod mai complex.

Moda este definită după cum urmează:

Valoarea frecvenței maxime este utilizată pentru a determina intervalul în care se află valoarea modului. Se numește modal.

În intervalul modal, valoarea modului este calculată prin formula:

Următoarea abordare este utilizată pentru a calcula mediana în serii de intervale:

Frecvențele acumulate sunt utilizate pentru a găsi intervalul mediu. Mediana este intervalul care conține unitatea centrală.

În intervalul median, valoarea Pe mine determinat de formula:

În serii de intervale inegale, atunci când se calculează Mo se folosește un răspuns de frecvență diferit - densitate absolută distribuție:

Să luăm în considerare calculul modului și medianei pentru seria de distribuție a intervalului folosind exemplul seriei de distribuție a lucrătorilor după vechime, prezentat în Tabelul 5.3.

Calcul Mo:

Frecvența maximă n max = 13, corespunde celui de-al patrulea grup, prin urmare, intervalul cu limitele de 12-16 ani este modal.

Vom calcula moda după formula:

Cel mai adesea, există lucrători cu aproximativ 13 ani de experiență în muncă. Modul nu se află în mijlocul intervalului modal, este deplasat la marginea inferioară, acest lucru se datorează structurii această serie distribuție (frecvența intervalului premodal este semnificativ mai mare decât frecvența intervalului postmodal).

Calculul medianei:

Conform graficului frecvențelor acumulate, se determină intervalul mediu. Conține 25 și 26 de unități statistice, care sunt în grupuri diferite - în a 3-a și a 4-a. A găsi Pe mine poți folosi oricare dintre ele. Vom efectua calculul pentru grupa a 3-a:

Acelasi inteles Pe mine poate fi obținut atunci când se calculează pentru al 4-lea grup:

Cu un centru dublu Pe mine este întotdeauna la joncțiunea intervalelor care conțin unități centrale. Valoare calculată Pe mine arată că primii 25 de lucrători au mai puțin de 12 ani de experiență în muncă, iar restul de 25, prin urmare, au mai mult de 12 ani.

Modul poate fi determinat grafic de poligonul de distribuție în serii discrete, de histograma de distribuție - în serii de intervale și mediana - de cumulativ.

Pentru a găsi modul în rândul de intervale, vârful drept al dreptunghiului modal trebuie conectat la colțul din dreapta sus al dreptunghiului anterior, iar vârful stâng - la colțul din stânga sus al dreptunghiului următor. Abscisa punctului de intersecție a acestor drepte va fi modul de distribuție.

Pentru a determina mediana, înălțimea celei mai mari ordonate a cumulatelor corespunzătoare populației totale a populației este redusă la jumătate. O linie dreaptă este trasată prin punctul obținut, paralel cu axa abscisei, până când se intersectează cu cumulul. Abscisa punctului de intersecție este mediana.

cu exceptia Moși Pe mineîn seriile variante, pot fi definite și alte caracteristici structurale - cuantile. Cuantilele sunt destinate unui studiu mai profund al structurii unei serii de distribuție. Quantile- Aceasta este valoarea unei caracteristici care ocupă un anumit loc în populație ordonată de această caracteristică. Există următoarele tipuri de cuantile:

quartile- valorile caracteristicilor împărțind populația ordonată în 4 părți egale;

decile- atribuie valori împărțind populația în 10 părți egale;

percentile- valorile caracteristice care împart populația în 100 de părți egale.

Dacă datele sunt grupate, atunci valoarea quartilei este determinată de frecvențele acumulate: numărul grupului care conține a i-a cuantilă. Este definit ca numărul primului grup de la începutul seriei, în care suma frecvențelor acumulate este egală cu sau depășește i · N, unde I este indicele cuantil. Dacă seria este interval, atunci valoarea cuantilă este determinată de formula:

Să calculăm quartile pentru un număr de distribuție a lucrătorilor într-o secțiune în funcție de vechimea în serviciu:

În consecință, un sfert dintre lucrători au mai puțin de 7 ani de experiență și un sfert mai mult de 16 ani. Astfel, pentru a caracteriza poziția centrului seriei de distribuție, pot fi folosiți 3 indicatori: Rău semn, modă, mediană.

Atunci când alegeți tipul și forma unui indicator specific al centrului de distribuție, este necesar să urmați următoarele recomandări:

Pentru procesele socio-economice durabile, media aritmetică este utilizată ca indicator al centrului. Astfel de procese sunt caracterizate prin distribuții simetrice în care

Pentru procesele instabile, poziția centrului de distribuție este caracterizată de Mo sau Pe mine... Pentru procesele asimetrice, mediana este caracteristica preferată a centrului de distribuție, deoarece ocupă o poziție între media aritmetică și modul.

A doua sarcină cea mai importantă în determinarea naturii generale a unei distribuții este evaluarea gradului de omogenitate a acesteia. Omogenitatea populațiilor statistice se caracterizează prin cantitatea de variație (dispersie) a trăsăturii, adică discrepanța dintre valorile sale pentru diferite unități statistice. Pentru a măsura variația statisticilor, se utilizează indicatori absoluti și relativi. Elucidarea naturii generale a distribuției presupune nu numai o evaluare a gradului de omogenitate a acesteia, ci și studiul formei distribuției, adică evaluarea simetriei și curtozei.

Din statisticile matematice se știe că, odată cu creșterea volumului populației statistice și o scădere simultană a intervalului de grupare, poligonul sau histograma de distribuție se apropie tot mai mult de o anumită curbă netedă, care este limita pentru graficele indicate. Această curbă se numește curba de distribuție empiricăși reprezintă reprezentare grafică sub forma unei linii continue de schimbare frecvențe, funcțional legate de variația variantei.

În statistici, se disting următoarele curbe de distribuție:

curbe cu un singur vârf; curbe multi-vertex.

Populațiile omogene sunt descrise prin distribuții unimodale. Distribuția multi-vertex indică eterogenitatea populației studiate sau performanța slabă a grupării.

Curbele de distribuție cu un singur vârf sunt împărțite în simetric, moderat asimetric și extrem de asimetric.

O distribuție se numește simetrică dacă frecvențele oricărei 2 variante echidistante de ambele părți ale centrului de distribuție sunt egale una cu cealaltă. În astfel de distribuții

Pentru a caracteriza asimetria, se utilizează coeficienți de asimetrie.

Cele mai frecvent utilizate sunt următoarele:

Coeficientul de asimetrie Pearson

În distribuțiile unimodale, valoarea acestui indicator variază de la -1 la +1. în distribuții simetrice Ca = 0. La As> 0, se observă asimetria pe partea dreaptă (Figura 5.4). În distribuții cu asimetrie dreaptă MoPe mine

Orez. 5.4 Asimetrie dreaptă Fig. 5.5. Asimetrie pe partea stângă

Cu cât este mai aproape de modul La fel de la 1, cu atât este mai semnificativă asimetria:

Coeficientul de asimetrie Pearson caracterizează asimetria doar în partea centrală a distribuției; prin urmare, este mai frecvent și mai precis. coeficientul de asimetrie calculat pe baza momentului central de ordinul 3:

Punct centralîn statistici, se numește abaterea medie a valorilor individuale ale unei caracteristici față de media sa aritmetică.

Momentul central al ordinului k-al se calculează astfel:

În consecință, formulele pentru determinarea momentului central de ordinul trei sunt următoarele:

Pentru a evalua semnificația coeficientului de asimetrie calculat prin a doua metodă, se determină eroarea sa rădăcină-medie-pătrat:

Pentru distribuțiile unimodale, se calculează încă un indicator pentru evaluarea formei sale - exces... Exceseste un indicator distribuție maximă... Se calculează pentru distribuții simetrice pe baza momentului central de ordinul 4

LA cu vârful plat.

Gruparea- Aceasta este o împărțire a populației în grupuri care sunt omogene într-un fel.

Scopul serviciului... Folosind calculatorul online, puteți:

  • construiți o serie de variații, construiți o histogramă și un poligon;
  • găsiți indicatori de variație (medie, mod (inclusiv și grafic), mediană, intervalul de variație, quartile, decile, coeficientul de diferențiere quartile, coeficientul de variație și alți indicatori);

Instrucțiuni. Pentru a grupa o serie, trebuie să selectați tipul de serie de variații rezultată (discret sau interval) și să indicați cantitatea de date (numărul de linii). Soluția rezultată este salvată în Fișier Word(vezi exemplu de statistici de grupare).

Dacă gruparea a fost deja efectuată și dată serie de variații discrete sau serie de intervale, atunci trebuie să utilizați calculatorul online Indicatori de variație. Testarea ipotezei despre tipul de distribuție se efectuează folosind serviciul Studiu al formei de distribuție.

Tipuri de grupări statistice

Serii variaționale... În cazul observațiilor unei variabile aleatorii discrete, aceeași valoare poate fi întâlnită de mai multe ori. Astfel de valori x i ale unei variabile aleatorii sunt înregistrate indicând n i de câte ori apare în n observații, aceasta este frecvența acestei valori.
În cazul unei variabile aleatoare continue, gruparea este utilizată în practică.
  1. Gruparea tipologică- Aceasta este împărțirea populației eterogene calitativ studiate în clase, tipuri socio-economice, grupuri omogene de unități. Pentru a construi această grupare, utilizați parametrul serie de variații discrete.
  2. O grupare structurală se numește, în care o populație omogenă este împărțită în grupuri care îi caracterizează structura în funcție de unele caracteristici variabile. Pentru a construi această grupare, utilizați parametrul Interval series.
  3. Se numește o grupare care identifică relația dintre fenomenele studiate și trăsăturile lor grup analitic(vezi gruparea analitică a unei serii).

Exemplul nr. 1. Conform tabelului 2, construiți serii de distribuție pentru 40 de bănci comerciale ale Federației Ruse. Conform seriei de distribuție obținute, determinați: profitul mediu pe bancă comercială, investițiile în împrumuturi în medie pe bancă comercială, valoarea modală și mediană a profitului; quartile, decile, intervalul de variație, deviația liniară medie, deviația standard, coeficientul de variație.

Soluţie:
În capitol „Vizualizarea seriei statistice” alege o serie discretă. Faceți clic pe Inserați din Excel. Numărul de grupuri: formula Sturgess

Principiile construirii grupărilor statistice

O serie de observații, ordonate în ordine crescătoare, se numește serie de variații. Semn de grupare se numește atributul prin care populația este împărțită în grupuri separate. Se numește baza grupului. Gruparea se poate baza atât pe caracteristici cantitative cât și calitative.
După determinarea bazei grupării, este necesar să se decidă problema numărului de grupuri în care ar trebui împărțită populația studiată.

Folosind calculatoare personale pentru prelucrarea datelor statistice, gruparea unităților obiect se realizează utilizând proceduri standard.
Una dintre aceste proceduri se bazează pe utilizarea formulei Sturgess pentru a determina numărul optim de grupuri:

k = 1 + 3.322 * log (N)

Unde k este numărul de grupuri, N este numărul de unități din populație.

Lungimea intervalelor parțiale este calculată ca h = (x max -x min) / k

Apoi, numărați numărul de accesări ale observațiilor în aceste intervale, care sunt luate ca frecvențe n i. Frecvențe mici, ale căror valori sunt mai mici de 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Punctele medii ale intervalelor x i = (c i-1 + c i) / 2 sunt luate ca valori noi pentru variantă.

Exemplul nr. 3. Ca rezultat al prelevării aleatorii corespunzătoare de 5%, s-a obținut următoarea distribuție a produselor în funcție de conținutul de umiditate. Calculați: 1) procentul mediu de umiditate; 2) indicatori care caracterizează variația umidității.
Soluția a fost obținută folosind un calculator: Exemplul # 1

Construiți o serie de variații. Construiți un poligon de distribuție, histogramă, cumulativ pe baza seriei găsite. Determinați moda și mediana.
Descărcați soluția

Exemplu... Pe baza rezultatelor observării selective (eșantion A, anexă):
a) compune o serie de variante;
b) calculați frecvențele relative și frecvențele relative acumulate;
c) construiți un poligon;
d) compune o funcție de distribuție empirică;
e) trasează funcția de distribuție empirică;
f) calculați caracteristicile numerice: media aritmetică, varianța, abaterea standard. Soluţie

Pe baza datelor furnizate în Tabelul 4 (Anexa 1) și corespunzătoare opțiunii dvs., efectuați:

  1. Pe baza grupării structurale, construiți frecvența variațională și seria de distribuție cumulativă utilizând intervale închise egale, luând numărul de grupuri egal cu 6. Rezultatele sunt prezentate sub forma unui tabel și afișate grafic.
  2. Analizați seria de variații a distribuției calculând:
    • media aritmetică a caracteristicii;
    • moda, mediană, prima quartilă, prima și a 9-a decilă;
    • deviație standard;
    • coeficientul de variație.
  3. A trage concluzii.

Necesar: pentru a clasa o serie, a construi o serie de intervale de distribuție, a calcula media, fluctuațiile mediei, a modului și a medianei pentru seria clasificată și intervalul.

Pe baza datelor inițiale, construiți o serie de variații discrete; prezentați-l sub forma unui tabel statistic și a unor grafice statistice. 2). Pe baza datelor inițiale, construiți o serie de variații de interval cu intervale egale. Alegeți singur numărul de intervale și explicați această alegere. Prezentați seria de variații obținute sub forma unui tabel statistic și a unor grafice statistice. Indicați tipurile de tabele și grafice utilizate.

Pentru a determina durata medie a serviciului pentru clienți în fond de pensie, al cărui număr de clienți este foarte mare, a fost efectuat un sondaj la 100 de clienți conform schemei de eșantionare aleatorie adecvată. Rezultatele sondajului sunt prezentate în tabel. Găsi:
a) limitele în care, cu o probabilitate de 0,9946, se află timpul mediu de serviciu al tuturor clienților fondului de pensii;
b) probabilitatea ca ponderea tuturor clienților fondului cu o durată de serviciu mai mică de 6 minute să difere de ponderea acestor clienți în eșantion cu cel mult 10% (în valoare absolută);
c) volumul eșantionului repetat, în care se poate argumenta cu o probabilitate de 0,9907 că ponderea tuturor clienților fondului cu o durată de serviciu mai mică de 6 minute diferă de ponderea acestor clienți în eșantion cu mai mult de 10% (în valoare absolută).
2. Conform datelor problemei 1, utilizând criteriul Pearson X 2, la nivelul de semnificație α = 0,05, testați ipoteza că variabila aleatoare X - timpul de service pentru clienți - este distribuită conform legii normale. Construiți o histogramă a distribuției empirice și a curbei normale corespunzătoare într-un desen.
Descărcați soluția

Este dat un eșantion de 100 de elemente. Necesar:

  1. Construiți o serie de variații clasificate;
  2. Găsiți termenii maximi și minimi ai seriei;
  3. Găsiți intervalul de variație și numărul de intervale optime pentru construirea unei serii de intervale. Găsiți lungimea intervalului seriei de intervale;
  4. Construiți o serie de intervale. Găsiți frecvențele elementelor de eșantionare în intervalele de compunere. Găsiți punctele medii ale fiecărui interval;
  5. Construiți histograma și poligonul de frecvență. Comparați cu distribuția normală (analitic și grafic);
  6. Traseți funcția de distribuție empirică;
  7. Calculați caracteristicile numerice ale eșantionului: media eșantionului și momentul central al eșantionului;
  8. Calculați valorile aproximative ale deviației standard, asimetrie și kurtosis (folosind pachetul de analiză MS Excel). Comparați valorile calculate aproximative cu cele exacte (calculate utilizând formulele MS Excel);
  9. Comparați caracteristicile grafice selectate cu cele teoretice corespunzătoare.
Descărcați soluția

Există următoarele eșantioane de date (eșantion de 10%, mecanic) privind producția și valoarea profitului, milioane de ruble. Conform datelor inițiale:
Sarcina 13.1.
13.1.1. Construiți o serie statistică de distribuție a întreprinderilor după valoarea profitului, formând cinci grupe la intervale egale. Complotați seria de distribuție.
13.1.2. Calculați caracteristicile numerice ale distribuției întreprinderilor după valoarea profitului: media aritmetică, deviația standard, varianța, coeficientul de variație V. Trageți concluzii.
Sarcina 13.2.
13.2.1. Determinați limitele în care suma profitului unei întreprinderi din populația generală se află cu o probabilitate de 0,997.
13.2.2. Folosind testul Pearson x2, la nivelul de semnificație α, testați ipoteza că variabila aleatoare X - valoarea profitului - este distribuită conform legii normale.
Sarcina 13.3.
13.3.1. Determinați coeficienții ecuației de regresie a eșantionului.
13.3.2. Stabiliți prezența și natura corelației dintre costul bunurilor produse (X) și valoarea profitului pe întreprindere (Y). Trasați un diagramă de dispersie și o linie de regresie.
13.3.3. Calculați coeficientul de corelație liniară. Folosind testul t Student, verificați semnificația coeficientului de corelație. Trageți o concluzie cu privire la etanșeitatea relației dintre factorii X și Y, folosind scala Chaddock.
Instrucțiuni ... Sarcina 13.3 se realizează folosind acest serviciu.
Descărcați soluția

Sarcină... Următoarele date reprezintă timpul petrecut de clienți în încheierea contractelor. Construiți o serie de variații de interval a datelor prezentate, o histogramă, găsiți o estimare imparțială a așteptării matematice, o estimare părtinitoare și imparțială a varianței.

Un exemplu. Conform tabelului 2:
1) Complotați seria de distribuție pentru 40 de bănci comerciale din Federația Rusă:
A) după valoarea profitului;
B) prin valoarea investițiilor de credit.
2) Conform seriei de distribuție obținute, determinați:
A) profit în medie pentru o bancă comercială;
B) investiții de credit în medie pentru o bancă comercială;
C) valorile modale și medii ale profitului; quartile, decile;
D) valoarea modală și mediană a investițiilor de credit.
3) Conform seriei de distribuție obținute la punctul 1, calculați:
a) intervalul de variație;
b) deviația liniară medie;
c) abaterea standard;
d) coeficientul de variație.
Completați calculele necesare în formă tabelară. Analizează rezultatele. A trage concluzii.
Trageți seria de distribuție obținută. Definiți grafic moda și mediana.

Soluţie:
Pentru a construi o grupare la intervale egale, vom utiliza serviciul de date statistice de grupare.

Figura 1 - Introducerea parametrilor

Descrierea parametrilor
Numărul de linii: cantitatea de date brute. Dacă dimensiunea seriei este mică, indicați numărul acesteia. Dacă selecția este suficient de mare, faceți clic pe butonul Inserare din Excel.
Numărul de grupuri: 0 - numărul grupurilor va fi determinat de formula Sturgess.
Dacă există un anumit număr de grupuri, specificați-l (de exemplu, 5).
Vizualizare pe rând: Serii discrete.
Nivelul de semnificație: de exemplu 0,954. Acest parametru este setat pentru a defini intervalul de încredere pentru medie.
Probă: De exemplu, a fost efectuată o eșantionare mecanică de 10%. Vă indicăm numărul 10. Pentru datele noastre, indicăm 100.

Poligon de distribuție a probabilităților


În mod similar, toate aceste tehnici de procesare și construcție pot fi extinse la alți indicatori, de exemplu, volumele de aprovizionare, intervalele dintre livrări, volumele de vacanțe zilnice și volumele de aprovizionare zilnice. Aceste poligoane de distribuție descriu modul în care, în cursul anului de raportare, întreprinderea a modificat volumele de aprovizionare, intervalele de aprovizionare și volumele de vacanțe zilnice etc.

Orice poligon este descris de un set de valori medii de intervale (intervale) de variații ale oricărei caracteristici și de frecvența de apariție a acestei valori medii. Fiecare dintre poligoanele de distribuție poate fi exprimat analitic, de exemplu, pentru o serie de distribuții ale volumelor de aprovizionare (Q, W), formula va arăta astfel

În mod similar, analitic, este posibil să se exprime poligoanele de distribuție ale intervalelor dintre livrări (T, Y) și volumele de vacanțe zilnice (R, CO

Poligon de distribuție - o linie întreruptă trasată pe grafic și care caracterizează schimbarea probabilităților diferitelor rezultate ale evenimentelor în timpul testelor repetate.

Următoarea sarcină este de a evalua combinațiile posibile ale valorilor factorilor de formare a normelor care pot apărea în intervalele de livrare în anul de planificare. Posibilitatea obținerii rezultatului rezultă din analiza datelor prezentate în Fig. 5.8 și 5.9. Pe fiecare dintre aceste 12 grafice, sunt reprezentate două poligoane ale distribuțiilor variațiilor valorilor factorilor de formare a normelor, în general, timp de trei ani și timp de un an din aceeași perioadă. Au fost construite la patru întreprinderi - o instalație de exploatare și prelucrare a lemnului și două fabrici de construcții de mașini. Pe grafice, axele absciselor arată intervalele de variații ale valorilor factorilor de formare a normelor la fiecare dintre aceste întreprinderi, iar axele ordonate arată frecvența de apariție a valorilor caracteristicilor în perioadele corespunzătoare. Liniile punctate ale poligoanelor desenate pe grafice se bazează pe rezultatele procesării datelor efective pentru un an de raportare (1), linii solide - pentru o perioadă de trei ani în ansamblu (Z).

Deoarece, așa cum am menționat mai sus, este ușor să obțineți o histogramă din poligonul de distribuție și invers, folosind aceasta metoda Să considerăm sub ipoteza că graficul original este o histogramă. Dacă se cunoaște doar poligonul de distribuție, putem reconstrui histograma din acesta măsurându-l cu atenție și determinând punctele de control (punctele medii ale intervalelor) ale acestui poligon și apoi aplicăm metoda descrisă direct la histogramă. Să facem următoarele ipoteze cu privire la metoda construcției sale.

Masa 1 arată toate datele inițiale necesare pentru a calcula funcția de distribuție empirică, histograma și poligonul de distribuție.

Mai jos în Fig. 6.3.10 și 6.3.11 arată histograma și poligonul distribuției frecvențelor relative.

II. Diagramele 1. Diagramele de cursă - a) Distribuția DG printr-o histogramă de distribuție a poligonului

Seria de variații poate fi reprezentată grafic sub forma unui poligon de distribuție și a unei histograme.

Poligoanele de distribuție sunt cele mai des utilizate pentru a afișa serii de variații discrete.

Poligonul de distribuție și histograma reprezintă realizarea distribuției populației eșantionului cu un număr limitat de observații (N), iar curba limitativă la N -> °° este distribuția populației generale. Distribuția populației este o distribuție teoretică. Distribuțiile individuale au fost studiate și pot fi supuse unei descrieri analitice exacte.

Dacă micșorați intervalele și în același timp creșteți numărul de observații cu o dimensiune finită a grupului, atunci poligonul de distribuție și histograma se vor apropia

Diagramele liniare și plane, construite într-un sistem de coordonate dreptunghiulare, sunt utilizate pentru a afișa seriile de variații. Cu variația discretă a unei caracteristici, poligonul de distribuție servește ca grafic al seriei de variații. Să luăm în considerare un exemplu de construcție a acestuia pe baza următoarelor date.

Poligonul de distribuție este un poligon închis, ale cărui abscise ale vârfurilor sunt valorile caracteristicii variabile, iar ordonatele sunt frecvențele corespunzătoare acestora (Fig. 3.8).

Seriile de distribuție pot fi reprezentate clar folosind reprezentarea lor grafică, ceea ce face posibilă evaluarea formei distribuției. Cel mai adesea, un poligon și o histogramă sunt utilizate în acest scop.

Graficul (Fig. 4.1) prezintă un poligon (linie întreruptă) și o histogramă (set de dreptunghiuri) cu distribuția de mai sus.

Poligonul gradului de influență al factorilor selectați asupra indicatorului studiat este distribuția sumei rândurilor de influență a factorilor asupra indicatorului studiat. Dacă îi conectăm începutul și sfârșitul cu o linie dreaptă, atunci putem vedea cât de departe este clasamentul obținut de clasamentul corespunzător coerenței complete a opiniilor experților intervievați. În acest caz, există trei cazuri posibile de clasare

Un poligon este o reprezentare grafică a unei serii de variații discrete într-un sistem de coordonate dreptunghiular, în care valorile caracteristicii X sunt reprezentate grafic pe axa abscisei, iar frecvențele W corespunzătoare sunt reprezentate grafic pe axa ordonatelor. Aceste puncte sunt conectate prin segmente de linie dreaptă, cifra rezultată reprezintă distribuția populației în termeni de X.

Pentru a calcula normele specificate ale stocurilor de producție, este necesar să se treacă de la o înregistrare analitică a fiecărui depozit de deșeuri la caracteristici probabilistice - densitățile de distribuție ale variațiilor volumelor de aprovizionare (sau, respectiv, intervalele de aprovizionare, volumele de concediu zilnic etc.). Densitatea distribuției variațiilor acestei caracteristici, construită peste poligon - P (X X arată cum se vor modifica variațiile caracteristicii X în anul planificat. Mai mult, se va arăta că cu cât este mai mare denivelarea (intervalul de variație al factorului), cu cât valoarea ratei stocului de producție determinată este mai mare, cu alte condiții fiind aceleași sau aproximativ aceleași (de exemplu, cu același volum anual de încasări, aceleași frecvențe de livrare și debit, etc. .).

Să analizăm cum să trecem de la expresia analitică a poligonului variațiilor unei caracteristici (de exemplu, pentru volumele de aprovizionare - Q, W) la densitatea distribuției variațiilor aceleiași caracteristici - Q, P (Q). Aici, pentru cele două cazuri indicate mai sus, sunt utilizate denumiri diferite pentru magnitudinea variațiilor volumelor de aprovizionare și desemnări diferite pentru modificări în frecvența volumelor de aprovizionare și probabilitățile acestora. În primul caz, datele, dar raportarea

Seriile variaționale sunt reprezentate grafic sub forma unei curbe de distribuție sau a unui poligon de frecvență. Să dăm un exemplu.

Din imaginile digitale și grafice ale rândurilor, se poate observa că în al doilea an s-a înregistrat o îmbunătățire semnificativă a distribuției daltelor în funcție de nivelurile vitezelor mecanice. Deci, în al doilea an, primul interval sa dovedit a fi complet gol, rândul a devenit mai scurt și partea de sus a poligonului sa deplasat spre dreapta spre viteze mai mari.

Orez. 13. Histograma, poligonul și densitatea distribuției probabilității probei analogice instrument de masurare / info / 5256 "> densitatea distribuției probabilității numărului p (x), prezentată în Fig. 13, b.

Variația datelor este analizată folosind poligonul de distribuție, cumulează (curba mai mică decât) și ogive (curba mai mare decât). Toate aceste tipuri de grafice sunt discutate în capitolul 5. Graficele liniare sunt utilizate pentru rezolvarea problemelor de clasificare a datelor (vezi capitolul 6). Utilizarea graficelor liniare în analiza dinamicii este discutată în capitolul 9, iar utilizarea lor pentru analiza relației este discutată în capitolul 8. Aceste capitole acoperă și utilizarea graficelor de dispersie (a se vedea, de exemplu, câmpul de corelație din capitolul 8).

Poligonul de distribuție este un poligon care este construit pe o rețea dreptunghiulară) oo-coordonată, după cum urmează. În scalele selectate pe axa absciselor, se trasează o scală pentru valorile reale ale variabilei aleatoare X, pe axa ordonată -

Să construim un poligon, histogramă, cumulativ și ogiv (Fig. 4.1) pe baza următoarelor date privind distribuția populației rurale din Rusia la 1 ianuarie 1998 pe grupe de vârstă (milioane de oameni).

În primul rând, pentru a respecta condițiile de comparabilitate a indicatorilor modurilor de transport comparate, ar trebui utilizate nu numai datele de raportare, ci și indicatorii calculați ai investițiilor de capital, costurilor de exploatare și costurilor reduse. Această cerință este explicată de o anumită incompatibilitate a datelor reale de raportare pentru transportul pe conducte și feroviar. În special, dacă luăm pomparea petrolului printr-o conductă de la câmp la centrală, atunci costurile pentru acest tip de transport vor reflecta toate costurile pentru intervalul procesului de transport din rezervorul de recepție al stației de pompare a capului conductă către rezervorul de livrare al punctului final al conductei la uzină. Dacă același petrol este livrat pe calea ferată, raportarea departamentală nu va reflecta costurile de încărcare și descărcare a petrolului. În mod firesc, în această privință, datele de raportare reale ale căii ferate ar trebui corectate și aduse într-o formă comparabilă cu indicatorii conductei principale. De asemenea, este imposibil să se utilizeze indicatori de rețea medii pentru a evalua opțiunea feroviară atunci când se rezolvă problema distribuției transportului de petrol și mărfuri între modurile de transport avute în vedere. Indicatorii acestora din urmă ar trebui să fie destul de specifici, adică să reflecte costurile reale în direcția luată în considerare atunci când se încarcă cu un flux suplimentar de petrol sau produse petroliere. Pentru o evaluare mai exactă a opțiunii de cale ferată, costurile pot fi calculate1 nu numai pentru calea ferată în cauză, ci și pentru poligonul rețelei, în cadrul căruia influența unui flux suplimentar de mărfuri petroliere afectează. În absența unei astfel de influențe, ne putem limita la determinarea costurilor numai pentru cei considerați cale ferată.  

Pentru claritate în determinarea modelelor de schimbare într-o caracteristică, este recomandabil să se reprezinte o serie de distribuții sub formă de poligoane (deoarece toate caracteristicile studiate în această lucrare sunt caracterizate de valori discrete). Pentru a afișa grafic o serie de distribuții, este necesar să se determine dimensiunea intervalului de grupare a datelor inițiale.

În plus față de histogramă și poligon, curba cumulativă și ogiva1 pot fi utilizate și pentru a afișa grafic seria de distribuție.

Semnificația fizică a poligoanelor de variații ale valorilor factorilor de formare a normelor prezentate în Fig. 5.8 și 5.9, după cum urmează, arată cum s-au schimbat condițiile de producție și expediere a produselor finite la întreprinderi în perioadele de raportare. Din graficul prezentat în Fig. 5.8g, rezultă că producția zilnică de cherestea la fabrica de prelucrare a lemnului LDK-4 a variat între 100 și 900 de metri cubi. m (adică gama variațiilor lor va fi de la Rmia = 100 până la -Rmax = 900 metri cubi / zi). Volumul producției de cherestea de 430 metri cubi m / zi a reprezentat ponderea principală de 44% (P (S - 0,44), 580 m3 / zi - 28%, 690 m3 / zi - 4% etc. În figurile 5.8e și 5.8e distribuțiile variațiilor în s-au construit volumele zilnice de transporturi de cherestea și intervalele dintre transporturi, care au fost în perioada de raportare. ) = 0,45 la O = 200-580 metri cubi / zi), 580 metri cubi / zi - 13%, 640 metri cubi / zi - 4% etc. etc.

Imparte asta