Konstruera engon. Polygonal grafik

Avsnitt: Matte

Mål:

  • Förbättra färdigheter och förmågor att hitta de statistiska egenskaperna hos en slumpmässig variabel, arbeta med beräkningar i Excel;
  • tillämpning av informationskommutativ teknik för dataanalys; arbeta med olika informationsbärare.

Under lektionerna

  1. Idag i lektionen lär vi oss att beräkna statistiska egenskaper för stora prover med hjälp av modern datorteknik.
  2. Låt oss först komma ihåg:

- vad kallas en slumpmässig variabel? (En slumpmässig variabel är en variabel som, beroende på testets resultat, tar ett värde från en uppsättning möjliga värden.)

- Vilka typer av slumpmässiga variabler känner vi till? (Diskret, kontinuerlig.)

- Ge exempel på kontinuerliga slumpmässiga variabler (trädtillväxt), diskreta slumpmässiga variabler (antal elever i klassen).

- Vilka statistiska egenskaper hos slumpmässiga variabler vet vi (läge, median, provmedelvärde, intervall).

- Vilka tekniker används för att visualisera de statistiska egenskaperna hos en slumpmässig variabel (frekvenspolygon, cirkel- och stapeldiagram, histogram).

  1. Låt oss överväga användningen av Excel -verktyg för att lösa statistiska problem med ett specifikt exempel.

Exempel. Kontrollerat i 100 företag. Värdena för antalet anställda i företaget (personer) ges:

Framsteg.

1. Ange data i EXCEL, varje nummer i en separat cell.

23 25 24 25 30 24 30 26 28 26
32 33 31 31 25 33 25 29 30 28
23 30 29 24 33 30 30 28 26 25
26 29 27 29 26 28 27 26 29 28
29 30 27 30 28 32 28 26 30 26
31 27 30 27 33 28 26 30 31 29
27 30 30 29 27 26 28 31 29 28
33 27 30 33 26 31 34 28 32 22
29 30 27 29 34 29 32 29 29 30
29 29 36 29 29 34 23 28 24 28

2. För att beräkna de numeriska egenskaperna, använd alternativet Infoga - funktion. Och i fönstret som visas, i raden, välj kategorin - statistisk, i listan: MODE

Tryck på OK. Mottagna M = 29 (personer) - Företag med flest anställda på 29 personer.

Beräkna medianen med samma sökväg.

Infoga - Funktion - Statistisk - Median.

I fältet Nummer 1 sätter du markören och väljer vårt bord med musen:

Tryck på OK. Mottagna M e = 29 (personer) - medelvärdet för anställda i företaget.

Nummerintervallet är skillnaden mellan det minsta och största möjliga värdet av en slumpmässig variabel. För att beräkna serieintervallet måste du hitta de största och minsta värdena i vårt urval och beräkna deras skillnad.

Infoga - Funktion - Statistisk - MAX.

I fältet Nummer 1 sätter du markören och väljer vårt bord med musen:

Tryck på OK. Fick det högsta värdet = 36.

Infoga - Funktion - Statistisk - MIN.

I fältet Nummer 1 sätter du markören och väljer vårt bord med musen:

Tryck på OK -knappen. Fått det minsta värdet = 22.

36 - 22 = 14 (personer) - skillnaden mellan företaget med störst personal och företaget med minsta personal.

För att plotta ett diagram och en frekvenspolygon är det nödvändigt att ställa in distributionslagen, d.v.s. sammanställa en tabell med värden för en slumpmässig variabel och motsvarande frekvenser. Vi vet att det minsta antalet anställda i företaget = 22, och det största = 36. Låt oss skapa en tabell där värdena x i slumpmässiga variabler ändras från 22 till 36 inklusive i steg 1.

x i 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
n i

Infoga - Funktion - Statistisk - RÄTTA.

I markeringsfönstret sätter du markören och väljer vårt urval, och i kriteriefönstret anger du siffran 22

Tryck på OK -knappen, vi får värdet 1, d.v.s. siffran 22 i vårt urval förekommer 1 gång och dess frekvens = 1. Vi fyller i hela tabellen på samma sätt.

x i 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
n i 1 3 4 5 11 9 13 18 16 6 4 6 3 0 1

För att kontrollera beräknar vi provstorleken, summan av frekvenser (Infoga - Funktion - Matematisk - SUMMA). Du bör få 100 (antalet företag).

För att bygga en frekvenspolygon, välj tabellen - Infoga - Diagram - Standard - Spridning (ett spridningsdiagram där värdena är kopplade till segment)

Vi får:

För att bygga stapeldiagram och cirkeldiagram använder vi samma sökväg (väljer vilken typ av diagram vi behöver).

Diagram - Standard - Paj.

Diagram - Standard - Histogram.

4. I dag på lektionen har vi lärt oss att använda datorteknik för analys och bearbetning av statistisk information.

Utför följande steg för att slutföra denna uppgift.

  1. Gå till ett nytt kalkylblad. Ange data som presenteras i exemplet i cellerna A1: A36.

2. Få först fördelningen av urvalet i termer av frekvenser och relativa frekvenser (delar) i formen:

w i w 1 w 2 w k

För att göra detta, i cell C1, ange " x i", I cell C2 går vi in" n i"Ange i cell С3 w i.

  1. Därefter måste du fylla cellerna D1: W1 med värdena för dataserien från minimum 0 till max 19. För detta kan du använda fyllmarkören.

4. Använd sedan funktionen RÄKTA räkna hur många gånger detta eller det värdet observeras. För att göra detta, placera markören i cell D2. Ring funktionen RÄKTA i kö Räckvidd ange en absolut referens till cellintervallet $ A $ 1: $ A $ 36 (referensen till cellintervallet måste vara absolut!). I kö Kriterium ange adressen till cell D1, som innehåller det första alternativet, 0, och klicka på OK. Som ett resultat visas siffran 1 i cellen.

  1. Nu, med hjälp av fyllhandtaget, kopiera funktionen som finns i cell D2 till celler E2: W2. Som ett resultat får vi fördelningen av provet med frekvenser:
x i
n i

6. Beräkna därefter de relativa frekvenserna. För att slutföra denna uppgift måste du först beräkna provstorleken. För att göra detta, placera markören i cell X2, klicka på autosum -ikonen och sedan på Stiga på. Som ett resultat kommer summan av alla frekvenser 36 att visas i denna cell (summan av talen i D2: W2 -området).

7. Beräkna de relativa frekvenserna. För att göra detta, placera markören i cell D3 och skriv in formeln i den: = D2 / $ X $ 2 (referensen till provstorleken måste vara absolut!). Markera den här cellen och kopiera den skrivna formeln med Fyll markör i cellerna D3: W3.



8. Rita nu en frekvenspolygon. Det kan snabbt byggas med det vanliga Chart Wizards... För att göra detta, välj cellintervallet D1: W2 och ring Diagram trollkarl.

9. I dialogrutan som visas Kartguider (steg 1 av 4): Diagramtyp välja XY -diagram och sedan alternativ Linjer och poäng... Klicka på knappen Ytterligare.

10. I nästa fönster Chart Wizards(steg 2 av 4): dataområde märke Rader i rader och tryck på Ytterligare.

11. I nästa fönster Chart Wizards(steg 3 av 4): dataserier du behöver inte ändra någonting, tryck direkt Ytterligare

12. I det sista fönstret Chart Wizards(steg 4 av 4): diagramelement

· I fält Rubrik typ: " Frekvenspolygon»;

· I fält X-axel(kategorier): X-axelnamn: " Varianter»;

· I fält Y-axel(värden): Y-axelnamn: " Frekvenser»;

13. I området Visa rutnät avmarkera kryssrutan Y-axel(värden).

14. Avmarkera kryssrutan i den högra rutan Visa legend och klicka på knappen Redo.

16. Som ett resultat bör du ha nästa frekvenspolygon.

17. Rita nu en polygon med relativa frekvenser. För att göra detta, välj cellintervallet med alternativ D1: W1 och håll sedan ned tangenten Ctrl välj cellintervallet med relativa frekvenser D3: W3 med musen.

18. Ring Diagram trollkarl och gör alla samma steg som när du bygger en frekvenspolygon, förutom signaturerna. I fönstret Diagram trollkarl(steg 4 av 4): diagramelement i fält Rubrik typ: " Relativ frekvenspolygon". Här måste du skriva ett annat namn för Y -axeln: " Relativa frekvenser», X-axelns namn förblir detsamma som i frekvenspolygonen.

20. Efter alla åtgärder som utförts för att formatera detta diagram, notera att siffrorna på Y -axeln har ett annat antal decimaler. För att antalet decimaler i axetiketterna ska vara samma bör du:

  • dubbelklicka på denna axel;
  • i dialogrutan som visas Y-axel välj flik siffra;
  • i en grupp Kategori Välj Numerisk och installera Antal fraktionerade tecken: 2.
  • att trycka OK.

Den färdiga polygonen med relativa frekvenser ska se ut så här:

Kontrollfrågor.

1. Vad är AVERAGE -funktionen till för?

2. Vilka egenskaper används för att uppskatta spridningen av statistiska data? Vad är funktionerna i Excelär de beräknade? Vad är skillnaden mellan funktionen att uppskatta spridningen av data för allmänheten och urvalspopulationen?

3. Vad är skillnaden mellan funktionerna COUNT och COUNT?

4. Vad är en mod och vilken funktion beräknar den?

5. Vad är medianen och vilken funktion beräknar den?

6. Hur beräknar man variationens intervall?

7. Med hjälp av vilka egenskaper uppskattas avvikelsen för slumpmässig fördelning från det normala? Vad är innebörden av dessa egenskaper och vad fungerar i Excelär de beräknade?

8. Vad är Analysverktyg? Hur man laddar ner Analyspaket i Excel?

9. Beskriv sekvensen av åtgärder som måste vidtas för att generera slumpmässiga nummer distribueras normalt.

10. Hur bygger man ett histogram?

11. Vad är verktyget för Beskrivande statistik?

12. Vad kallas en polygon av frekvenser och en polygon av relativa frekvenser?

Grafer är en visuell form för att visa distributionsserier. För att visa serien används linjediagram och plandiagram, inbyggda i ett rektangulärt koordinatsystem.

Olika diagram används för att grafiskt representera de attributiva fördelningsserierna: stapel, linjär, cirkel, figur, sektor, etc.

För diskreta variationer är grafen distributionspolygonen.

Distributionspolygonär en streckad linje som förbinder punkter med koordinater eller var - funktionens diskreta värde, - frekvens, - frekvens.

Diagrammet ritas på den accepterade skalan. Distributionspolygonen visas i fig. 5.1.

För att skildra intervallvariationer, använd histogram, representerar stegade former som består av rektanglar vars baser är lika med intervallets bredd och höjden - till frekvensen (frekvent ) av en lika intervallserie eller distributionstäthet för ett ojämnt intervall Att bygga ett diagram liknar att bygga ett stapeldiagram. Den allmänna vyn av histogrammet visas i fig. 5.2.

För en grafisk framställning av variationsserierna kan man också använda ackumuleras- en streckad linje från de ackumulerade frekvenserna (delar). De ackumulerade frekvenserna är ritade som ordinater; genom att ansluta hörnen på enskilda ordinat med raka linjesegment, får vi en icke-minskande polylinje. Koordinaterna för punkterna på grafen för en diskret serie är för en intervallserie - Grafets utgångspunkt har koordinaterna för den högsta punkten - Den allmänna vyn av kumulaten visas i figur 5.3. Användningen av kumulat är särskilt bekväm vid jämförelser av variationer.

Vid plottning av distributionsserier stor betydelse har ett förhållande av skalor längs abscissa och ordinaxlar... I det fallet och det är nödvändigt att vägledas av "regeln om den gyllene sektionen", i enligt vilken grafens höjd bör vara ungefär hälften av dess bas.

När man utför en empirisk studie av ett antal distributioner beräknas och analyseras följande grupper av indikatorer:

Distributionscentralens positionsindikatorer;

Indikatorer på graden av dess homogenitet;

Indikatorer på distributionsformen.

Indikatorer för distributionens centrum. Dessa inkluderar kraftmedelvärde som aritmetiskt medelvärde och strukturellt genomsnittet är mode och median.

Medium arfmetisk för en diskret distributionsserie beräknas med formeln:

I motsats till det aritmetiska medelvärdet, beräknat på grundval av alla varianter, karaktäriserar läget och medianen värdet på en funktion i en statistisk enhet som intar en viss position i variationsserierna.

Median ( Mig ) - värdet av en funktion i en statistisk enhet som står mitt i en rankad serie och delar befolkningen i två delar lika stora.

Mode (Mo) - den vanligaste betydelsen av en funktion i aggregatet. Mode används ofta i statistisk praxis för studera konsumenternas efterfrågan, registrera priser etc.

För diskreta variationer Mo och Mig väljs i enlighet med definitionerna: mode - som värdet på funktionen med den högsta frekvensen : medianens position för en udda befolkningsstorlek bestäms av dess antal, där N är volymen av den statistiska populationen. Med en jämn volym på raden är medianen lika med genomsnittet av de två alternativen i mitten av raden.

Median används som den mest tillförlitliga indikatorn typisk värden för en heterogen befolkning, eftersom den är okänslig för extrema värden på egenskapen, som kan skilja sig avsevärt från huvudmatrisen av dess värden. Dessutom hittar medianen praktisk tillämpning på grund av en speciell matematisk egenskap: Tänk på definitionen av läge och median i följande exempel: det finns ett antal fördelningar av arbetstagare efter kvalifikationsnivå.

Data visas i tabell 5.2.

Läget väljs enligt maxfrekvensvärdet: kl n max = 14 Mo= 4, dvs. det vanligaste är 4: e klass. För att hitta medianen Mig de centrala enheterna bestäms. Dessa är 25: e och 26: e enheterna. De ackumulerade frekvenserna bestämmer gruppen som dessa enheter faller i. Detta är den fjärde gruppen, där attributvärdet är 4. Således, Mig= 4 betyder det att hälften av arbetarna har en kategori under den fjärde, och för den andra - över den fjärde. I intervallserien, värdena Mo och Mig beräknas på ett mer komplext sätt.

Mode definieras enligt följande:

Maxfrekvensvärdet används för att bestämma intervallet i vilket lägesvärdet ligger. Det kallas modalt.

Inom modalintervallet beräknas lägesvärdet med formeln:

Följande tillvägagångssätt används för att beräkna medianen i intervallserier:

De ackumulerade frekvenserna används för att hitta medianintervallet. Medianen är intervallet som innehåller den centrala enheten.

Inom medianintervallet, värdet Mig bestäms av formeln:

I ojämnt intervallserier, vid beräkning Mo ett annat frekvenssvar används - absolut densitet distribution:

Låt oss överväga beräkningen av läget och medianen för intervallfördelningsserierna med hjälp av exemplet på fördelningsserien för arbetare efter anciennitet, som visas i tabell 5.3.

Mo -beräkning:

Maximal frekvens n max = 13, det motsvarar den fjärde gruppen, därför är intervallet med gränserna för 12-16 år modalt.

Vi kommer att beräkna mode med formeln:

Oftast finns det arbetare med cirka 13 års arbetslivserfarenhet. Läget är inte mitt i modalintervallet, det flyttas till dess nedre kant, detta beror på strukturen denna serie distribution (frekvensen för det premodala intervallet är signifikant större än frekvensen för det postmodala intervallet).

Beräkning av medianen:

Medianintervallet bestäms utifrån diagrammet över ackumulerade frekvenser. Den innehåller 25 och 26 statistiska enheter, som är i olika grupper - i den tredje och fjärde. Att hitta Mig du kan använda vilken som helst av dem. Vi kommer att utföra beräkningen för den tredje gruppen:

Samma betydelse Mig kan erhållas vid beräkning av den för den fjärde gruppen:

Med dubbel mitt Migär alltid i korsningen av intervall som innehåller centrala enheter. Beräknat värde Mig visar att de första 25 arbetarna har mindre än 12 års arbetslivserfarenhet, och de återstående 25 har därför mer än 12 år.

Läget kan bestämmas grafiskt av fördelningspolygonen i diskreta serier, av fördelningshistogrammet - i intervallserier och medianen - av det kumulativa.

För att hitta läget i intervallraden måste det högra hörnet av den modala rektangeln vara anslutet till det övre högra hörnet av den föregående rektangeln och det vänstra hörnet - till det övre vänstra hörnet av den efterföljande rektangeln. Abscissan för skärningspunkten för dessa raka linjer kommer att vara distributionsläget.

För att bestämma medianen halveras höjden på den högsta ordinaten av kumulaten som motsvarar befolkningens totala befolkning. En rak linje dras genom den erhållna punkten, parallellt med abscissaxeln, tills den skär med kumulatet. Skärningspunktens abscissa är medianen.

bortsett från Mo och Mig i variantserier kan även andra strukturella egenskaper - kvantiler - definieras. Kvantiler är avsedda för en djupare studie av distributionsseriens struktur. Kvantil- Detta är värdet på en funktion som intar en viss plats i befolkningen som ordnas av denna funktion. Det finns följande typer av kvantiler:

kvartiler- funktionsvärden som delar den ordnade befolkningen i 4 lika delar;

deciler- attributvärden som delar befolkningen i 10 lika delar;

procentiler- funktionsvärden som delar befolkningen i 100 lika stora delar.

Om datan är grupperad bestäms kvartilvärdet av de ackumulerade frekvenserna: antalet i gruppen som innehåller den i: e kvanten. Det definieras som numret på den första gruppen från början av serien, där summan av de ackumulerade frekvenserna är lika med eller överstiger i · N, där I är det kvantila indexet. Om serien är intervall bestäms kvantilvärdet av formeln:

Låt oss beräkna kvartilerna för ett antal fördelningar av arbetare i ett avsnitt efter tjänstgöringstid:

Följaktligen har en fjärdedel av arbetarna mindre än 7 års erfarenhet och en fjärdedel mer än 16 år. För att karakterisera positionen för mitten av distributionsserien kan 3 indikatorer användas: betyda skylt, mode, median.

När du väljer typ och form för en specifik indikator för distributionscentrum är det nödvändigt att utgå från följande rekommendationer:

För hållbara socioekonomiska processer används det aritmetiska medelvärdet som en indikator på centrum. Sådana processer kännetecknas av symmetriska fördelningar där

För instabila processer kännetecknas distributionscentralens position av Mo eller Mig... För asymmetriska processer är medianen den föredragna egenskapen hos distributionscentret, eftersom den intar en position mellan det aritmetiska medelvärdet och läget.

Den näst viktigaste uppgiften för att bestämma den allmänna karaktären av en distribution är att bedöma graden av dess homogenitet. Homogeniteten hos statistiska populationer kännetecknas av värdet på variationens (dispersion) av egenskapen, d.v.s. skillnaden mellan dess värden för olika statistiska enheter. För att mäta variation i statistik används absoluta och relativa indikatorer. Förklaring av fördelningens allmänna natur förutsätter inte bara en bedömning av graden av dess homogenitet, utan också studiet av fördelningens form, d.v.s. bedömning av symmetri och kurtos.

Det är känt från matematisk statistik att med en ökning i volymen av den statistiska populationen och en samtidig minskning av grupperingsintervallet närmar sig polygonen eller fördelningshistogrammet mer och mer en viss jämn kurva, vilket är gränsen för de angivna graferna. Denna kurva kallas empirisk fördelningskurva och representerar grafisk representation i form av en kontinuerlig förändringslinje frekvenser, funktionellt relaterade till variationen av varianten.

I statistiken utmärks följande distributionskurvor:

kurvor med en vertex; kurvor med flera vertex.

Homogena populationer beskrivs av unimodala fördelningar. Multi-vertex-fördelningen indikerar heterogeniteten hos den studerade populationen eller gruppens dåliga prestanda.

Enkelt-vertex fördelningskurvor är indelade i symmetriska, måttligt asymmetriska och extremt asymmetriska.

En fördelning kallas symmetrisk om frekvenserna för alla 2 varianter som är lika långt från båda sidor av distributionscentret är lika med varandra. I sådana utdelningar

För att karakterisera asymmetri används asymmetri -koefficienter.

De vanligaste är följande:

Pearson asymmetri koefficient

I unimodala fördelningar varierar värdet på denna indikator från -1 till +1. i symmetriska fördelningar As = 0. Vid As> 0 observeras högersidig asymmetri (Figur 5.4). I fördelningar med högersidig snedhet MoMig

Ris. 5.4 Högersidig asymmetri Fig. 5.5. Vänstersidig asymmetri

Ju närmare modulen Som till 1, desto viktigare asymmetri:

Pearson -skevhetskoefficienten kännetecknar skevheten endast i den centrala delen av fördelningen; därför är den mer vanlig och mer exakt. asymmetri koefficient beräknat baserat på tredje ordningens centrala moment:

Central punkt i statistik kallas den genomsnittliga avvikelsen för enskilda värden för en funktion från dess aritmetiska medelvärde.

K-th orderns centrala moment beräknas som:

Följaktligen är formlerna för att bestämma det tredje ordningens centrala moment följande:

För att bedöma betydelsen av asymmetri-koefficienten beräknad med den andra metoden bestäms dess rot-medelkvadratfel:

För unimodala fördelningar beräknas ytterligare en indikator för att bedöma dess form - överskott... Överskottär en indikator toppad distribution... Det beräknas för symmetriska fördelningar baserat på 4: e ordningens centrala moment

TILL platt toppad.

Gruppering- Det här är indelningen av befolkningen i grupper som är homogena på något sätt.

Service syfte... Med online -räknaren kan du:

  • bygga en variationsserie, bygga ett histogram och en polygon;
  • hitta indikatorer på variation (medelvärde, läge (inklusive och grafiskt), median, variation av variationer, kvartiler, deciler, kvartil differentieringskoefficient, variationskoefficient och andra indikatorer);

Instruktion. För att gruppera en serie måste du välja typen av de resulterande variationserierna (diskret eller intervall) och ange mängden data (antal rader). Den resulterande lösningen sparas i Word -fil(se exempel på gruppstatistik).

Om grupperingen redan har genomförts och getts diskreta variationer eller intervallserier, då måste du använda online -kalkylatorn Variationsindikatorer. Testar hypotesen om typ av distribution utförs med hjälp av tjänsten Studie av distributionsformen.

Typer av statistiska grupper

Variationsserier... Vid observationer av en diskret slumpmässig variabel kan samma värde påträffas flera gånger. Sådana värden xi för en slumpmässig variabel registreras som indikerar n i hur många gånger det visas i n observationer, detta är frekvensen av detta värde.
När det gäller en kontinuerlig slumpmässig variabel används gruppering i praktiken.
  1. Typologisk gruppering- Detta är uppdelningen av den studerade kvalitativt heterogena befolkningen i klasser, socioekonomiska typer, homogena grupper av enheter. För att bygga denna gruppering, använd parametern Discrete variation series.
  2. En strukturell gruppering kallas, där en homogen befolkning är indelad i grupper som kännetecknar dess struktur enligt något varierande inslag. Använd parametern Interval series för att bygga denna gruppering.
  3. En gruppering som identifierar sambandet mellan de fenomen som studeras och deras egenskaper kallas analytisk grupp(se analytisk gruppering av en serie).

Exempel # 1. Enligt tabell 2, konstruera distributionsserier för 40 affärsbanker i Ryska federationen. Med hjälp av den erhållna distributionsserien bestämmer du: genomsnittlig vinst per affärsbank, låninvesteringar i genomsnitt per affärsbank, vinst- och medianvärde; kvartiler, deciler, variationens intervall, linjär avvikelse, standardavvikelse, variationskoefficient.

Lösning:
I kapitel "Visa statistikserien" välj en diskret serie. Klicka på Infoga från Excel. Antal grupper: Sturgess -formel

Principer för att bygga statistiska grupper

En serie observationer, ordnade i stigande ordning, kallas en variationsserie. Grupperingstecken kallas det attribut som befolkningen delas in i separata grupper. Det kallas gruppens bas. Grupperingen kan baseras på både kvantitativa och kvalitativa egenskaper.
Efter att ha bestämt grunden för grupperingen är det nödvändigt att avgöra frågan om antalet grupper som den studerade befolkningen ska delas in i.

Använder sig av personliga datorer för bearbetning av statistiska data utförs grupperingen av objektenheter med standardprocedurer.
En av dessa procedurer är baserad på användningen av Sturgess -formeln för att bestämma det optimala antalet grupper:

k = 1 + 3,322 * log (N)

Där k är antalet grupper, N är antalet enheter i befolkningen.

Delintervallens längd beräknas som h = (x max -x min) / k

Räkna sedan antalet träffar av observationer i dessa intervall, som tas som frekvenser n i. Små frekvenser, vars värden är mindre än 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Mittpunkterna för intervallerna x i = (c i-1 + c i) / 2 tas som nya värden för varianten.

Exempel nr 3. Som ett resultat av 5% korrekt slumpmässig provtagning erhölls följande fördelning av produkterna efter fukthalt. Beräkna: 1) den genomsnittliga andelen fukt; 2) indikatorer som kännetecknar variationen i luftfuktighet.
Lösningen erhölls med hjälp av en räknare: Exempel # 1

Konstruera en variationsserie. Konstruera en fördelningspolygon, histogram, kumulativ baserat på den hittade serien. Bestäm mode och median.
Ladda ner lösning

Exempel... Baserat på resultaten av selektiv observation (prov A, bilaga):
a) skapa en variationsserie;
b) beräkna de relativa frekvenserna och de ackumulerade relativa frekvenserna;
c) bygga en polygon;
d) komponera en empirisk fördelningsfunktion;
e) plotta den empiriska fördelningsfunktionen;
f) beräkna de numeriska egenskaperna: aritmetiskt medelvärde, varians, standardavvikelse. Lösning

Baserat på uppgifterna i tabell 4 (bilaga 1) och motsvarande ditt alternativ, utför:

  1. På grundval av den strukturella grupperingen, konstruera variationen frekvens och kumulativa fördelningsserier med lika slutna intervall, ta antalet grupper lika med 6. Resultaten presenteras i form av en tabell och visas grafiskt.
  2. Analysera variationens serie av fördelningen genom att beräkna:
    • det aritmetiska medelvärdet av funktionen;
    • mode, median, 1: a kvartil, 1: a och 9: e decilen;
    • standardavvikelse;
    • variationskoefficienten.
  3. Dra slutsatser.

Krävs: för att rangordna en serie, bygga en intervallserie med fördelning, beräkna medelvärdet, variabiliteten av medelvärdet, läge och median för rankade och intervallserier.

Utifrån de initiala data, konstruera en diskret variation serie; presentera den i form av en statistisk tabell och statistiska diagram. 2). Baserat på de initiala uppgifterna, konstruera en intervallvariation med samma intervall. Välj antal intervaller själv och förklara detta val. Presentera de erhållna variationsserierna i form av en statistisk tabell och statistiska diagram. Ange vilka typer av tabeller och grafer som används.

För att bestämma den genomsnittliga varaktigheten av kundservice i pensionsfond, vars antal klienter är mycket stort, genomfördes en undersökning av 100 klienter enligt schemat för korrekt stickprov. Undersökningsresultaten presenteras i tabellen. Hitta:
a) de gränser inom vilka, med en sannolikhet på 0,9946, ligger den genomsnittliga servicetiden för alla klienter i pensionsfonden;
b) sannolikheten för att andelen av alla klienter i fonden med en tjänstetid på mindre än 6 minuter skiljer sig från andelen av dessa klienter i urvalet med högst 10% (i absolut värde);
c) volymen på det upprepade urvalet, där det med sannolikhet på 0,9907 kan hävdas att andelen av alla klienter i fonden med en tjänstetid på mindre än 6 minuter skiljer sig från andelen av dessa klienter i urvalet med nej mer än 10% (i absolut värde).
2. Enligt uppgifterna i problem 1, med hjälp av X 2 Pearson -kriteriet, vid signifikansnivån α = 0,05, testa hypotesen att den slumpmässiga variabeln X - kundtjänsttid - fördelas enligt normal lag. Konstruera ett histogram över den empiriska fördelningen och motsvarande normalkurva på en ritning.
Ladda ner lösning

Ett prov på 100 element ges. Nödvändig:

  1. Skapa en rankad variationsserie;
  2. Hitta de högsta och lägsta villkoren för serien;
  3. Hitta variationen och antalet optimala intervall för att konstruera en intervallserie. Hitta längden på intervallet i intervallserien;
  4. Konstruera en intervallserie. Hitta frekvenserna för samplingselementen i komponeringsintervallen. Hitta mittpunkterna för varje intervall;
  5. Konstruera histogram och frekvenspolygon. Jämför med normalfördelning (analytiskt och grafiskt);
  6. Plotta den empiriska fördelningsfunktionen;
  7. Beräkna provets numeriska egenskaper: samplingsmedelvärde och centralt urvalsmoment;
  8. Beräkna de ungefärliga värdena för standardavvikelsen, skevheten och kurtosen (med hjälp av analyspaketet MS Excel). Jämför de ungefärliga beräknade värdena med de exakta (beräknade med MS Excel -formler);
  9. Jämför de utvalda grafiska egenskaperna med motsvarande teoretiska.
Ladda ner lösning

Det finns följande provdata (10% prov, mekaniskt) om produktionen och vinstmängden, miljoner rubel. Enligt de första uppgifterna:
Uppgift 13.1.
13.1.1. Konstruera en statistisk serie med fördelning av företag efter vinstmängden och bilda fem grupper med lika stora intervall. Rita upp distributionsserien.
13.1.2. Beräkna de numeriska egenskaperna för företagens fördelning med vinstmängden: det aritmetiska medelvärdet, standardavvikelsen, variansen, variationskoefficienten V. Dra slutsatser.
Uppgift 13.2.
13.2.1. Bestäm vilka gränser som summan av vinsten för ett företag i den allmänna befolkningen ligger med en sannolikhet på 0,997.
13.2.2. Med hjälp av Pearsons x2 -test, på signifikansnivån α, testa hypotesen att den slumpmässiga variabeln X - vinstmängden - fördelas enligt normal lag.
Uppgift 13.3.
13.3.1. Bestäm koefficienterna för provregressionsekvationen.
13.3.2. Bestäm närvaron och arten av sambandet mellan kostnaden för producerade varor (X) och vinsten per företag (Y). Plotta en scatterplot och en regressionslinje.
13.3.3. Beräkna den linjära korrelationskoefficienten. Kontrollera betydelsen av korrelationskoefficienten med Students t-test. Dra en slutsats om hur tätt förhållandet mellan faktorer X och Y är med hjälp av Chaddock -skalan.
Riktlinjer ... Uppgift 13.3 utförs med denna tjänst.
Ladda ner lösning

Uppgift... Följande data representerar den tid som kunderna ägnar åt att ingå avtal. Konstruera en intervallvariationsserie av presenterade data, ett histogram, hitta en opartisk uppskattning av den matematiska förväntningen, en partisk och opartisk uppskattning av variansen.

Ett exempel. Enligt tabell 2:
1) Rita upp distributionsserien för 40 affärsbanker i Ryska federationen:
A) med vinstmängden;
B) med mängden kreditinvesteringar.
2) Enligt den erhållna distributionsserien, bestäm:
A) vinst i genomsnitt för en affärsbank;
B) kreditinvesteringar i genomsnitt för en affärsbank;
C) modal och median vinstvärden; kvartiler, deciler;
D) kredit- och medianvärde för kreditinvesteringar.
3) Beräkna enligt fördelningsserien som erhållits i punkt 1:
a) variationen;
b) genomsnittlig linjär avvikelse;
c) standardavvikelse;
d) variationskoefficient.
Fyll i nödvändiga beräkningar i tabellform. Analysera resultaten. Dra slutsatser.
Plotta den erhållna distributionsserien. Grafiskt definiera mode och median.

Lösning:
För att bygga en gruppering med lika stora intervall använder vi tjänsten Gruppering av statistiska data.

Figur 1 - Ange parametrar

Parameter Beskrivning
Antal rader: mängden rådata. Om serien är liten, ange dess antal. Om urvalet är tillräckligt stort klickar du på knappen Infoga från Excel.
Antal grupper: 0 - antalet grupper bestäms av Sturgess -formeln.
Om det finns ett visst antal grupper anger du det (till exempel 5).
Radvy: Diskreta serier.
Signifikansnivå: till exempel 0,954. Denna parameter är inställd för att definiera konfidensintervallet för medelvärdet.
Prov: Till exempel utfördes en 10% mekanisk provtagning. Vi anger siffran 10. För våra uppgifter anger vi 100.

Sannolikhetsfördelningspolygon


På samma sätt kan alla dessa bearbetnings- och konstruktionstekniker utvidgas till andra indikatorer, till exempel leveransvolymer, intervall mellan leveranser, dagliga semestrar och dagliga leveransvolymer. Dessa distributionspolygoner beskriver hur företaget under rapportåret har ändrat leveransvolymer, leveransintervaller och volymer dagliga semestrar etc.

Varje polygon beskrivs av en uppsättning medelvärden för intervall (intervall) för variationer av någon funktion och frekvensen för förekomst av detta medelvärde. Var och en av fördelningspolygonerna kan uttryckas analytiskt, till exempel för en serie fördelningar av leveransvolymer (Q, W) kommer formeln att se ut så här

På liknande sätt är det analytiskt möjligt att uttrycka fördelningspolygonerna för intervall mellan leveranser (T, Y) och volymer av dagliga semestrar (R, CO

Distributionspolygon - en streckad linje ritad på grafen och karakteriserar förändringen i sannolikheten för olika utfall av händelser under upprepade tester.

Nästa uppgift är att bedöma de möjliga kombinationerna av värdena för de normbildande faktorerna som kan uppstå i leveransintervallen under planeringsåret. Möjligheten att erhålla resultatet följer av analysen av data som visas i fig. 5.8 och 5.9. På var och en av dessa 12 grafer plottas två polygoner av fördelningarna av variationer i värdena för normbildande faktorer i allmänhet i tre år och under ett år från samma period. De byggdes på fyra företag - en gruv- och bearbetnings- och träbearbetningsanläggning och två maskinbyggande anläggningar. På graferna visar abscissaxlarna variationerna i värdena för de normbildande faktorerna vid vart och ett av dessa företag, och ordinarie axlarna visar frekvensen för funktionsvärdenas förekomst i motsvarande perioder. De streckade linjerna för polygonerna som ritas på graferna är baserade på resultaten av bearbetning av faktiska data för ett rapporteringsår (1), heldragna linjer - under en treårsperiod som helhet (Z).

Eftersom, som nämnts ovan, är det lätt att få ett histogram från distributionspolygonen och vice versa, med den här metoden Låt oss överväga under antagandet att den ursprungliga grafen är ett histogram. Om bara fördelningspolygonen är känd kan vi rekonstruera histogrammet från det genom att noggrant mäta det och bestämma kontrollpunkterna (mellanpunkterna för intervallerna) för denna polygon och sedan tillämpa den beskrivna metoden direkt på histogrammet. Låt oss göra följande antaganden om konstruktionsmetoden.

Tabell 1 visar alla nödvändiga initiala data för att beräkna den empiriska fördelningsfunktionen, histogrammet och distributionspolygonen.

Nedan i fig. 6.3.10 och 6.3.11 visar histogrammet och polygonen för fördelningen av relativa frekvenser.

II. Diagram 1. Loppdiagram - a) GD -fördelning med ett polygonfördelningshistogram

Variationsserien kan ritas grafiskt i form av en fördelningspolygon och ett histogram.

Distributionspolygoner används oftast för att visa diskreta variationer.

Distributionspolygonen och histogrammet är förverkligandet av provpopulationens fördelning med ett begränsat antal observationer (N), och begränsningskurvan vid N -> °° är fördelningen av den allmänna befolkningen. Befolkningsfördelningen är en teoretisk fördelning. Individuella fördelningar har studerats och mottagits för korrekt analytisk beskrivning.

Om vi ​​minskar intervallerna och samtidigt ökar antalet observationer med en ändlig storlek på gruppen, kommer fördelningspolygonen och histogrammet att närma sig

Linjära och plana diagram, inbyggda i ett rektangulärt koordinatsystem, används för att visa variationer. Med diskret variation av en funktion fungerar distributionspolygonen som ett diagram över variationsserierna. Låt oss överväga ett exempel på dess konstruktion baserat på följande data.

Distributionspolygonen är en sluten polygon, vars abscesser i hörnena är värdena för den varierande funktionen, och ordinaten är motsvarande frekvenser (fig. 3.8).

Distributionsserierna kan tydligt representeras med hjälp av deras grafiska representation, vilket gör det möjligt att bedöma fördelningens form. Det vanligaste för detta ändamål är en polygon och ett histogram.

Diagrammet (fig. 4.1) visar en polygon (streckad linje) och ett histogram (uppsättning rektanglar) för ovanstående fördelning.

Polygonen för graden av inflytande av de valda faktorerna på den studerade indikatorn är fördelningen av summan av faktorerna för påverkan av faktorer på den studerade indikatorn. Om vi ​​ansluter dess början och slut med en rak linje, kan vi se hur långt den erhållna rankningen är från rankningen som motsvarar den fullständiga konsistensen av de intervjuade experternas åsikter. I det här fallet är tre rankningsfall möjliga

En polygon är en grafisk framställning av en diskret variationsserie i ett rektangulärt koordinatsystem, där värdena för X -funktionen ritas på abscissaxeln och motsvarande W -frekvenser ritas på ordinataxeln. Dessa punkter är anslutna med raka linjesegment, den resulterande siffran representerar befolkningens fördelning i form av X.

För att beräkna de specificerade normerna för produktionslager krävs det att man går från en analyspost för varje deponi till probabilistiska egenskaper - fördelningstätheten för variationer i leveransvolymer (eller leveransintervaller, dagliga ledighetsvolymer etc.). Tätheten för distribution av variationer av denna funktion, byggd över polygonen - P (X X visar hur variationerna av funktion X kommer att förändras under det planerade året. Dessutom kommer det att visas att ju större ojämnheterna (variationens intervall för faktor), desto högre bör värdet av den fastställda normen för produktionslagret ställas in, med andra villkor som är desamma eller ungefär samma (till exempel med samma årliga kvitton, identiska leveransfrekvenser och årligt flöde osv. .).

Låt oss analysera hur man går från det analytiska uttrycket för polygonen för variationerna i en funktion (till exempel för volymerna av förbrukningsmaterial - Q, W) till densiteten för distribution av variationer av samma funktion - Q, P (Q ). Här, för de två fall som anges ovan, används olika beteckningar för storleken på variationer i utbudsmängder och olika beteckningar för förändringar i frekvensen av leveransvolymer och deras sannolikheter. I det första fallet, data men rapporteringen

Variationsserier ritas grafiskt i form av en distributionskurva eller frekvenspolygon. Låt oss ge ett exempel.

Av de digitala och grafiska bilderna på raderna kan man se att det andra året skedde en betydande förbättring av fördelningen av mejslarna efter nivåerna av mekaniska hastigheter. Så under det andra året visade sig det första intervallet vara helt tomt, raden blev kortare och toppen av polygonen flyttade åt höger mot högre hastigheter.

Ris. 13. Histogram, polygon och sannolikhetsfördelningstäthet för det analoga provet mätinstrument / info / 5256 "> sannolikhetsfördelningstätheten för räkningen p (x), som visas i fig. 13, b.

Datavariation analyseras med hjälp av distributionspolygonen, kumulater (kurva mindre än) och ogiver (kurva större än). Alla dessa typer av grafer diskuteras i kapitel 5. Linjediagram används för att lösa dataklassificeringsproblem (se kapitel 6). Användningen av linjediagram i dynamisk analys diskuteras i kapitel 9, och deras användning för relationsanalys diskuteras i kapitel 8. Dessa kapitel täcker också användningen av spridningsdiagram (se till exempel korrelationsfältet i kapitel 8).

Distributionspolygonen är en polygon som är byggd på ett rektangulärt) oo-koordinatnät enligt följande. I de valda skalorna på abscissaxeln, en skala för verkliga värden slumpmässig variabel X, på y-axeln

Låt oss konstruera en polygon, histogram, kumulativ och ogiv (Fig. 4.1) baserat på följande data om fördelningen av landsbygdsbefolkningen i Ryssland från och med den 1 januari 1998 efter åldersgrupper (miljoner människor).

Först och främst, för att uppfylla villkoren för jämförbarhet mellan indikatorerna för de jämförda transportsätten, bör inte bara rapporteringsdata användas, utan de beräknade indikatorerna för kapitalinvesteringar, driftskostnader och minskade kostnader. Detta krav beror på viss inkompatibilitet av faktiska rapporteringsdata för rörledning och järnvägstransport. I synnerhet, om vi tar pumpning av olja genom en rörledning från fältet till anläggningen, kommer kostnaderna för denna typ av transport att återspegla alla kostnader för transportprocessens intervall från mottagningstanken på huvudpumpstationens huvudstation rörledning till leveransbehållaren för slutpunkten på rörledningen vid anläggningen. Om samma olja levereras på järnväg, kommer avdelningsrapporteringen inte att återspegla kostnaderna för lastning och lossning av olja. Naturligtvis bör järnvägens faktiska rapporteringsdata i detta avseende korrigeras och läggas i en jämförbar form med indikatorerna för huvudledningen. Det är också omöjligt att använda genomsnittliga nätverksindikatorer för att bedöma järnvägsalternativet när man löser problemet med att distribuera olje- och godstransporter mellan de transportsätt som övervägs. Indikatorerna för den senare bör vara ganska specifika, det vill säga återspegla de verkliga kostnaderna i den riktning som övervägs när de laddas med ett extra flöde av olja eller oljeprodukter. För en mer exakt bedömning av järnvägsalternativet kan kostnader beräknas1 inte bara för den aktuella järnvägen, utan också för nätpolygonen, inom vilken påverkan av ett ytterligare flöde av oljelast påverkar. I avsaknad av ett sådant inflytande kan man begränsa sig till att bestämma kostnaderna endast för den övervägda järnväg.  

För klarhet vid bestämning av förändringsmönster i en funktion är det lämpligt att representera ett antal fördelningar i form av polygoner (eftersom alla funktioner som studeras i detta arbete kännetecknas av diskreta värden). För att visa en distributionsserie grafiskt är det nödvändigt att bestämma storleken på intervallet för grupperingar av de initiala data.

Förutom histogrammet och polygonen kan den kumulativa kurvan och ogive1 också användas för att grafiskt visa fördelningsserierna.

Den fysiska betydelsen av polygonerna av variationer i värdena för de normbildande faktorerna som visas i fig. 5.8 och 5.9, är följande, de visar hur villkoren för produktion och leverans av färdiga produkter hos företag har förändrats under rapporteringsperioderna. Från grafen som visas i fig. 5,8 g, det följer att den dagliga produktionen av sågat virke vid LDK-4 träförädlingsanläggningen varierade i intervallet från 100 till 900 kubikmeter. m (dvs. intervallet för deras variationer kommer att vara från Rmia = 100 till -Rmax = 900 kubikmeter / dag). Virkesvolymer 430 kubikmeter m / dag stod för huvuddelen av 44%(P (S - 0.44), 580 m3 / dag - 28%, 690 m3 / dag - 4%, etc. I figur 5.8e och 5.8f fördelningarna av variationer i dagliga volymer sågade trätransporter och intervall mellan försändelser, som var under rapporteringsperioden, konstruerades. m / dag - 45% (P (O) = 0,45 vid O = 200-580 kubikmeter / dag), 580 kubik meter / dag - 13%, 640 kubikmeter / dag - 4%, etc. etc.

Dela detta