Hartley mängd information. Grundläggande kompendium för Hartley-Shannon-formeln

60. Informationsmätning - probabilistiska och alfabetiska metoder. Hartley, Shannon-formler. Exempel iMSexmedel.

Med tanke på information, som en borttagen osäkerhet, beror mängden information i ett meddelande om en händelse av sannolikheten för denna händelse.

En vetenskaplig strategi för utvärdering av kommunikationer föreslogs redan 1928 av R. Hartley. uppskattas hartley-formel för utrustningsbara evenemang   har formen:

jag = log 2 N   eller 2   jag = N,

där N är numret lika sannolikt   händelser (antalet möjliga val), jag är mängden information.

Om N \u003d 2 (ett val av två möjligheter), är jag \u003d 1 bit.

Exempel 1   Använda Hartley-formeln för att beräkna mängden information. Hur många bitar information kommer meddelandet att

anländer tåget på ett av åtta sätt?

Hartley Formula: jag = log 2 N,

där N är antalet lika sannolika resultat av händelsen som avses i meddelandet,

Jag är mängden information i meddelandet.

I \u003d log 2 8 \u003d 3 (bitar) Svar: 3 bitar.

Hartleys modifierade formel för händelser som inte är troliga.   Sedan början av varje N har möjliga händelser samma sannolikhet

p = 1 / Nsedan N = 1 / p   och formeln har formen

I \u003d log 2 N \u003d log 2 (1 / p) \u003d - log 2 p

Det kvantitativa förhållandet mellan sannolikheten för en händelse (p) och mängden information i ett meddelande om den (I) uttrycks med formeln:

jag = log 2 (1/ p)

Sannolikheten för en händelse beräknas med formeln p= K/ N, K är ett värde som visar hur många gånger en händelse av intresse för oss har inträffat; N är det totala antalet möjliga utfall, händelser. Om sannolikheten minskar ökar mängden information.

Exempel 2   Det finns 30 personer i klassen. För kontrollarbete i matematik fick 6 femmor, 15 fyra, 8 tripplar och 1 dyk. Hur många bitar information är meddelandet om att Ivanov fick en fyra?

Svar: 1 bit.

Använda Shannons formel.Det allmänna fallet att beräkna mängden information i ett meddelande om en av N, men redan ojämna händelser. Denna strategi föreslogs av C. Shannon 1948.

Grundläggande informationsenheter:

jag   jfr= -

värde jag   jfr p i= 1 / N.

Exempel 3 Hur många informationsbitar som bärs av ett slumpmässigt genererat "strålkastarmeddelande", om bokstaven "a" i genomsnitt för varje tusen bokstäver förekommer 200 gånger, bokstaven "f" - 2 gånger, bokstaven "p" - 40 gånger.

Vi antar att sannolikheten för att en symbol visas i ett meddelande sammanfaller med frekvensen av dess förekomst i texter. Därför finns bokstaven "a" med en genomsnittlig frekvens av 200/1000 \u003d 0,2; Sannolikheten för utseendet på bokstaven "a" i texten (p a) kan anses vara ungefär lika med 0,2;

bokstaven "f" inträffar med en frekvens av 2/1000 \u003d 0,002; bokstaven "p" - med en frekvens av 40/1000 \u003d 0,04;

På liknande sätt pp \u003d 0,04, pf \u003d 0,002. Sedan fortsätter vi enligt C. Shannon. Vi tar den binära logaritmen på 0,2 och kallar det som visade sig vara mängden information som har en enda bokstav "a" i texten i fråga. Vi utför exakt samma operation för varje bokstav. Då är mängden personlig information som har en bokstav log 2 1/ p i = - log 2 p i, Det är bekvämare att använda medelvärdet för mängden information per bokstavstecken som ett mått på mängden information.

jag   jfr= -

värde jag   jfr   når ett maximalt med lika sannolika händelser, det vill säga med jämlikheten för alla p i

p i= 1 / N.

I detta fall förvandlas Shannon-formeln till Hartley-formeln.

I \u003d M * I avg \u003d 4 * (- (0,002 * log 2 0,002 + 0,2 * log 2 0,2 \u200b\u200b+ 0,04 * log 2 0,04 + 0,2 * log 2 0,2)) \u003d 4 * (- (0,002 * (- 8,967) +0,2 * (- 2,322) +0,04 * (- 4,644) +0,2 * (- 2,322))) \u003d 4 * (- (- 0,018-0 46-0,19-0,46)) \u003d 4 * 1,1325 \u003d 4,53

Svar: 4,53 bitar

Alfabetisk metod för att mäta information

Den alfabetiska metoden används i tekniken, i detta fall beror inte mängden information på innehållet, utan beror på kraften i alfabetet och antalet tecken i texten.

För ASCII-kodning - alfabetskraft \u003d 256

I \u003d log 2 256 \u003d 8 (bitar); Vid kodning av teckeninformation i koder kodas varje tecken, inklusive mellanslag och skiljetecken, med 1 byte (8 bitar).

Enheter med information inom datorteknik

1 bit (teknisk strategi)

lägsta informationsenhet

mängden information mäts endast med ett heltal antal bitar

1 kB (kilobyte)

2 10 byte \u003d 1024 byte

~ 1 000 byte

1 MB (megabyte)

2 10 KB \u003d 2 20 byte

~ 1 miljon byte

1 GB (gigabyte)

2 10 MB \u003d 2 30 byte

~ 1 miljard byte

  • 3. Dataöverföringsteknik. Ethernet, Token Ring, ISDN, X.25, Frame Relay.
  • 4. Gateway-enheter: repeatrar, broar, routrar, gateways. Växlings- och dirigeringsmetoder. Sätt att förbättra nätverksprestanda
  • 5. Peer-to-peer- och servernätverk: en jämförande egenskap. De viktigaste typerna av specialiserade servrar.
  • 6. Den tekniska grunden för Internet. Adresseringssystem (IP-adresser, domännamn, DNS). De viktigaste kommunikationsprotokollen i nätverket.
  • 7. Grundläggande användartekniker för att arbeta på Internet. WWW, FTP, TELNET, E-POST. Sök efter information på Internet.
  • 9. Databaser: data, datamodell, databas, databashanteringssystem, informationssystem. Datamodeller. Relationsdatamodell.
  • 12. Designa informationssystem. Strukturen och modellerna i livscykeln.
  • 13. Modellering och presentation av företagets struktur. IDEF0-diagram.
  • 14. Modellering och presentation av dataströmmar. DFD-diagram.
  • 16. Expertsystem (ES): koncept, syfte, arkitektur, särdrag. Klassificering av ES. Steg i ES-utvecklingen.
  • 17. Kunskapsbasen för expertsystem. Metoder för kunskapsrepresentation: logiska modeller, produktionsregler, ramar, semantiska nätverk.
  • 18 Kunskap. Typer kunskap. Metoder för att extrahera kunskap: kommunikativ, textuell.
  • 19 Programmeringsspråk, deras egenskaper (Prolog, Delphi, C ++).
  • 20. Programmeringsspråk, deras egenskaper (PHP, Perl, JavaScript).
  • 21. Mål, mål, principer och huvudinstruktioner för att säkerställa Rysslands informationssäkerhet. Juridiskt, organisatoriskt, tekniskt och tekniskt skydd av information.
  • 22. Elektroniska publikationer: koncept, komposition. Klassificering av EI. Registrering EI.
  • 23. Informationsresurser: koncept, sammansättning. Statliga informationsresurser.
  • 24. Operativsystemet för en persondator som ett medel för resurshantering (till exempel det studerade operativsystemet). Strukturen och komponenterna i operativsystemet.
  • 25. Skadlig programvara: klassificeringar, metoder för upptäckt och borttagning.
  • 26 Strukturen för webbapplikationer. HTTP-protokoll Cookie. Webbapplikationsfunktioner. CGI-protokoll
  • 27 Se till att IP är tillförlitlig. Transaktioner. OLTP-system.
  • 28. Ergonomiska mål och kvalitetsindikatorer för en programvaruprodukt.
  • 31. Informationshantering: koncept och huvudfunktioner.
  • 33 Softwarestandardisering. Dokumentationsstandarder för programvara.
  • 34. Bedömning av informationssystemens kvalitativa och kvantitativa egenskaper. Modeller för bedömning av tillförlitlighetsegenskaperna för programvara och informationsstöd. Grundläggande koncept, indikatorer och metoder för att säkerställa informationssystemens tillförlitlighet.
  • 36. Funktioner för genomförande av innovativa program inom informatiseringsområdet (karakterisering av informationspolitiken inom informatiseringsområdet, principer för projektdesign och implementering av IP, hantering av informatiseringsprojekt).

När man studerade olika fenomen och föremål i omvärlden försökte människor ansluta ett nummer till dessa objekt och införa ett kvantitativt mått. Människor har lärt sig att mäta avstånd, väga olika föremål, beräkna areans figurer och kroppens volym. Efter att ha lärt oss att mäta tid, dess varaktighet försöker vi fortfarande förstå dess natur. En termometer uppfanns många år innan forskarna insåg vad den mäter: det tog ungefär tre århundraden från den första termometern till skapandet av termodynamik. En kvantitativ studie av ett visst fenomen, ett objekt kan vara före sin kvalitativa studie, processen för bildandet av motsvarande koncept kan följa en kvantitativ studie.

En liknande situation har utvecklats när det gäller information. R. Hartley 1928, och sedan C. Shannon 1948, föreslog formler för att beräkna mängden information, men de besvarade inte frågan om vilken information som är. I kommunikationsteori visas information i form av olika meddelanden: till exempel bokstäver eller siffror, som i telegrafi, eller som en kontinuerlig funktion av tiden, som i telefoni eller sändning. I något av dessa exempel är det slutliga målet att förmedla det semantiska innehållet i mänskligt tal. I sin tur kan mänskligt tal presenteras i ljudvibrationer eller i skriftlig form.

Detta är en annan av egenskaperna hos denna typ av information: förmågan att representera samma semantiska innehåll i en annan fysisk form. För första gången uppmärksammade W. Ashby detta. Representation av information i en annan fysisk form kallas kodning. För att kommunicera med andra människor måste en person ständigt engagera sig i kodning, kodning och avkodning. Det är uppenbart att information via kommunikationskanaler kan överföras i en mängd olika kodningssystem.

R. Hartley var den första som introducerade metoden för att "mäta mängden information" i teorin om informationsöverföring. Samtidigt trodde R. Hartley att den information som han skulle mäta var "... en grupp fysiska symboler - ord, prickar, streck, etc., som enligt allmän överenskommelse har en viss betydelse för motsvarande parter." Därför gav Hartley sig uppgiften att införa en åtgärd för att mäta kodad information.

Låt den överföras en sekvens av n tecken a 1 a 2 a 3 a n, som var och en tillhör alfabetet A m som innehåller m tecken. Vad är antalet K för olika varianter av sådana sekvenser? Om n \u003d 1 (ett tecken överförs), är K \u003d m; om n \u003d 2 (en sekvens av 2 tecken överförs), är K \u003d m * m \u003d m 2; i allmänhet får vi för en sekvens av n tecken


Hartley föreslog att man beräknar mängden information som finns i en sådan sekvens som logaritmen för antalet K på basis av 2:

I \u003d Log 2 K, (2,1)

där K \u003d m n.

Det vill säga mängden information som finns i en sekvens av n tecken från alfabetet A m, i enlighet med Hartley-formeln är lika med

I \u003d Log 2 (m n) \u003d n Log 2 m. (2,2)

Anmärkning 1. Hartley antog att alla tecken i alfabetet A m kan med lika sannolikhet (frekvens) förekomma var som helst i meddelandet. Detta villkor bryts mot alfabet med naturligt språk: till exempel finns inte alla bokstäver i det ryska alfabetet i texten med samma frekvens.

Anmärkning 2. Alla meddelanden med längd n i alfabetet A m kommer att innehålla samma mängd information. I alfabetet (0; 1) innehåller till exempel meddelanden 00111, 11001 och 10101 samma mängd information. Detta innebär att när vi beräknar mängden information som finns i meddelandet blir vi distraherade från dess semantiska innehåll. Ett "meningsfullt" meddelande och ett meddelande som mottas från det genom godtycklig permutation av tecken kommer att innehålla samma mängd information.

Ett exempel. I ett telegrafmeddelande används två tecken - en period (.) Och en streck (-), d.v.s. alfabetet består av m \u003d 2 tecken. Sedan, vid överföring av ett tecken (n \u003d 1), mängden information I \u003d Log 2 2 \u003d 1. Denna mängd togs som en måttenhet av mängden information och kallas 1 bit (från engelska binär enhet = bit). Om telegrafmeddelandet i alfabetet (.; -) innehåller n tecken, är mängden information I \u003d n Log 2 2 \u003d n (bitar).

Med hjälp av tecknen 0 och 1 kodas information i en dator och under överföring i datornätverk, d.v.s. alfabetet består av två tecken (0; 1); ett tecken och i detta fall innehåller I \u003d Log 2 2 \u003d 1 bit information, därför kommer ett meddelande om längd n tecken i alfabetet (0; 1) i enlighet med Hartley-formeln (2.2) att innehålla n bitar med information.

Om vi \u200b\u200böverväger överföring av meddelanden i det ryska språket alfabetet, som består av 33 bokstäver, är mängden information som finns i meddelandet om n tecken, beräknat med Hartley-formeln, I \u003d n * Log 2 33 ”n * 5.0444 bitar. Det engelska alfabetet innehåller 26 bokstäver, ett tecken innehåller Log 2 26 "4,7 bitar, så ett meddelande om n tecken beräknat med Hartley-formeln innehåller n * Log 2 26" 4,7 * n bitar med information. Detta resultat är dock inte korrekt, eftersom inte alla bokstäver visas i texten med samma frekvens. Dessutom måste separatortecken läggas till bokstäverna i alfabetet: mellanslag, punkt, komma, etc.

Formel (2.1) liknar Boltzmann-formeln för att beräkna entropin för ett system med N utrustbara mikrostater:

S \u003d - k * Ln (W), (2,3)

där k är Boltzmann-konstanten \u003d 1,38 * 10-23, och W är sannolikheten för spontan acceptans av en av mikrostaterna i systemet per tidsenhet t \u003d 10-13 sek., W \u003d 1 / N, d.v.s.

S \u003d -k * Ln (1 / N) \u003d k * Ln (N), (2,4)

vilket är helt förenligt med formel (2.1) med undantag för faktorn k och logaritmens bas. På grund av denna yttre likhet kallas värdet av Log 2 K i informationsteori också entropi och betecknas av H. Informationsentropi är ett mått på osäkerheten i ett tillstånd för en slumpmässig variabel (fysiskt system) med ett begränsat eller räknat antal tillstånd. Slumpmässig variabel(rv) är en mängd som, som ett resultat av ett experiment eller observation, tar ett numeriskt värde, som inte är känt i förväg.

Så låt X vara en slumpmässig variabel som kan ta N olika värden x 1, x 2, ... x N; om alla rv-värden X är lika troliga, då är entropin (mått på osäkerhet) för X lika med:

H (X) \u003d Log 2 N. (2,5)

Anm. Om en slumpmässig variabel (system) bara kan vara i ett tillstånd (N \u003d 1), är dess entropi 0. Faktum är att det inte längre är en slumpmässig variabel. Osäkerheten i systemet är desto högre, desto större är antalet möjliga utrustningsbara tillstånd.

Entropin och mängden information mäts i samma enheter - i bitar.

Definition. 1 bit är entropin för ett system med två lika troliga tillstånd.

Låt systemet X vara i två tillstånd x1 och x2 med lika sannolikhet, dvs. N \u003d 2; då är dess entropi H (X) \u003d Log 2 2 \u003d 1 bit. Ett exempel på ett sådant system ges till oss av ett mynt när vi kastar som antingen en örn (x1) eller ett svans (x2) faller ut. Om myntet är "korrekt", är sannolikheten för att en örn eller svans faller samma och lika med 1/2.

Vi ger ytterligare en definition av en informationsenhet.

Definition. Svaret på en fråga av vilken art som helst (av vilken art som helst) innehåller 1 bit information om det med lika sannolikhet kan vara "ja" eller "nej".

Ett exempel. Spelet är "tomt tjockt." Du döljer ett litet föremål i ena handen och erbjuder din partner att gissa i vilken hand du gömde det. Han frågar dig "i din vänstra hand?" (eller bara plockar en hand: vänster eller höger). Du svarar "ja" om han gissade det, eller "nej" på annat sätt. Med vilket som helst svar får partneren 1 bit information, och osäkerheten i situationen är helt borttagen.

Hartley-formeln kan användas för att lösa problem med att bestämma det valda elementet i en given uppsättning. Detta resultat kan formuleras enligt följande regel.

Om i en given uppsättning M, bestående av N-element, väljs något element x, vilket inte är något mer känt, för att bestämma detta element är det nödvändigt att erhålla Log 2 N-bitar med information.

Vi överväger flera problem för att tillämpa Hartley-formeln.

Problem 1. Någon skapade ett naturligt antal i intervallet 1 till 32. Vilket är det minsta antalet frågor som ska ställas så att garanterade   gissa det tänkta (markerade) numret. Svaren kan bara vara ja eller nej.

Kommentar.   Du kan försöka gissa det tänkta numret genom en enkel uttömmande sökning. Om du har tur måste du bara ställa en fråga, och med det mest misslyckade sökalternativet måste du ställa 31 frågor. I det föreslagna problemet måste du bestämma det minsta antalet frågor som du garanterat bestämmer antalet uppfattningar.

Beslut.   Med hjälp av Hartley-formeln kan man beräkna mängden information som måste erhållas för att bestämma det valda elementet x från uppsättningen heltal (1,2,3 32). För detta är det nödvändigt att erhålla H \u003d Log 2 32 \u003d 5 bitar information. Frågor måste ställas så att svar på dem är lika troliga. Då kommer svaret på varje sådan fråga med en bit information. Du kan till exempel dela upp siffrorna i två lika grupper från 1 till 16 och från 17 till 32 och fråga vilken grupp det avsedda numret är i. Därtill bör samma göras med den valda gruppen, som redan innehåller endast 16 nummer, etc. Låt till exempel numret 7 tänkas.

Fråga nr 1: Tillhör det avsedda numret till uppsättningen (17; 32)? Svaret "nej" ger dig en bit information. Vi vet nu att numret tillhör uppsättningen (1; 16).

Fråga nr 2: Tillhör det avsedda numret till uppsättningen (1; 8)? Svaret "ja" ger dig ytterligare 1 information. Vi vet nu att numret tillhör uppsättningen (1; 8).

Fråga nr 3: Hör det avsedda numret till uppsättningen (1; 4)? Svaret "nej" ger dig ytterligare 1 information. Vi vet nu att numret tillhör uppsättningen (5; 8).

Fråga nr 4: Hör det avsedda numret till uppsättningen (7; 8)? Svaret "ja" ger dig ytterligare 1 information. Vi vet nu att numret tillhör uppsättningen (7; 8).

Fråga nr 5: Det avsedda numret är 8? Svaret "nej" ger dig ytterligare 1 information. Vi vet nu att det tänkta numret är 7. Problemet är löst. Fem frågor ställdes, som svar mottogs 5 bitar information och det avsedda antalet bestämdes. .

Problem 2. (Problemet med falskt mynt).   Det finns 27 mynt, varav 26 är riktiga och ett är falskt. Vilket är det minsta antalet vägningar på en spakskala för vilken det garanteras att bestämma ett falskt mynt av 27 med det faktum att ett falskt mynt är lättare än det verkliga.

Spakskalorna har två koppar och med deras hjälp kan du bara fastställa om kopparnas innehåll har samma vikt, och om inte, innehållet i vilken koppen är tyngre.

Beslut.Detta är uppgiften att bestämma ett valt element från 27. Med Hartley-formeln kan vi omedelbart bestämma mängden information som måste erhållas för att bestämma ett falskt mynt: det är I \u003d Log 2 27 \u003d Log 2 (3 3) \u003d 3 Log 2 3 bitar. Observera att utan att känna till vägningsstrategin kan vi säga hur mycket information vi behöver för att lösa problemet.

Om du lägger ett lika antal mynt på skalorna, är tre lika sannolika resultat möjliga:

1. Den vänstra koppen är tyngre än höger (L\u003e P);

2. Den vänstra koppen är lättare än höger (L< П);

3. Den vänstra koppen är i jämvikt med höger (L \u003d P);

"Spakbalans" -systemet kan vara i tre lika troliga tillstånd, därför ger en vägning Log 2 3 bitar information. Totalt, för att lösa problemet, måste jag få I \u003d 3 Log 2 3 bitar information, så du måste göra tre vägningar för att bestämma ett falskt mynt. Vi vet redan om minsta antal vägningar, men vet fortfarande inte hur vi ska utföra dem. Strategin bör vara sådan att varje vägning ger maximal information. Dela upp alla mynten i tre lika högar av A, B och C, 9 stycken vardera. Ett förfalskat mynt, betecknat med bokstaven f, kan med lika sannolikhet vara i någon av de tre högarna. Välj två av dem, till exempel A och B, och väg dem.

  Tre resultat är möjliga:

1) A är tyngre än B (A\u003e B); betyder f Î B;

2) A är lättare än B (A< B); значит f Î A;

3) A är i jämvikt med B (A \u003d B); betyder f Î C.

För alla resultat kommer vi att bestämma i vilken hög det falska myntet f finns, men i denna hög kommer det redan att finnas bara 9 mynt. Dela upp den i tre lika högar med A1, B1, C1, 3 mynt vardera. Välj valfri två och väg dem. Liksom i föregående steg kommer vi att bestämma den hög med mynt som det förfalskade myntet ligger i, men nu består högen av endast tre mynt. Välj två mynt och väga dem. Detta kommer att vara den sista, tredje vägningen, varefter vi hittar ett falskt mynt.

Uppgift 3. Utan att använda en kalkylator, utvärdera systemets entropi, som med lika sannolikhet kan vara i 50 tillstånd, med en noggrannhet på en bit.

Beslut.   Enligt Hartley-formeln H \u003d Log 2 50. Låt oss utvärdera detta uttryck.

Uppenbarligen 32< 50 < 64; логарифмируем это неравенство à Log 2 32 < Log 2 50 < Log 2 64 à 5 < Log 2 50 < 6. Энтропия системы с точностью до 1 бита 5 < H < 6 . ‚

Uppgift 4.   Det är känt att entropin för ett system är 7 bitar. Bestäm antalet tillstånd i detta system, om det är känt att de alla är lika troliga.

Beslut.Ange med N antalet stater i systemet. Eftersom alla tillstånd är lika troliga är H \u003d Log 2 N à N \u003d 2 H, d.v.s. N \u003d 2 7 \u003d 128.

Denna formel, liksom Hartley-formeln, används i datavetenskap för att beräkna den totala mängden information med olika sannolikheter.

Ett exempel på olika ojämlika sannolikheter är utträde från människor från kasernerna i den militära enheten. Både en soldat och en officer och till och med en general kan lämna kasernerna. Men fördelningen av soldater, officerare och generaler i kasernerna är annorlunda, vilket är uppenbart, eftersom det kommer att finnas de flesta soldaterna, då går antalet officerare och den sällsynta typen blir generaler. Eftersom sannolikheterna inte är lika för alla tre typer av militär, för att beräkna hur mycket information en sådan händelse kommer att ta och används shannons formel.

För andra lika troliga händelser, till exempel en myntflik (sannolikheten för att en örn faller ut eller svansarna är desamma - 50%), används Hartley-formeln.

Låt oss nu titta på tillämpningen av denna formel med ett specifikt exempel:

Vilka meddelanden innehåller minst information (räkna i bitar):

  1. Vasily åt 6 godisar, varav 2 barberry.
  2. Det finns 10 mappar i datorn, den önskade filen hittades i 9 mappar.
  3. Baba Luda gjorde 4 pajer med kött och 4 pajer med kål. Gregory åt två pajer.
  4. I Afrika häller 200 dagar med torrt väder och 165 dagar monsuner. Afrikanska jagade 40 dagar om året.

Låt oss i detta problem uppmärksamma att alternativen 1,2 och 3, dessa alternativ är lätta att överväga, eftersom händelserna är lika troliga. Och för detta kommer vi att använda Hartley-formeln   I \u003d log 2 N(Fig. 1) Men med punkt 4 där man kan se att dagfördelningen inte är enhetlig (fördelen är i riktning mot torrt väder), vad ska vi göra i det här fallet? För sådana händelser används formeln Shannon eller informativ entropi: I \u003d - (p 1 log 2 p 1 + p 2 log 2 p 2 + .. + P N log 2 p N),(fig. 3)

FORMULA MED ANTAL INFORMATION (HARTLEY FORMULA, FIGUR 1)

Där:

  • Jag är mängden information
  • p - sannolikheten för att dessa händelser kommer att hända

Händelserna av intresse för oss i vår uppgift är

  1. Det fanns två av sex barbarisker (2/6)
  2. Det fanns en mapp där den önskade filen hittades i förhållande till det totala antalet (1/10)
  3. Totalt fanns det åtta pajer, varav två äts av Gregory (2/8)
  4. och de senaste fyrtio dagarna av jakt i förhållande till tvåhundra torra dagar och fyrtio dagars jakt till hundra sextiofem regniga dagar. (40/200) + (40/165)

så vi får det:

  PROBABILITETSFORMULÄR FÖR EVENT.

Där K är händelsen av intresse för oss, och N är det totala antalet av dessa händelser, för att testa dig själv kan sannolikheten för en händelse inte vara större än en. (eftersom det alltid finns färre troliga händelser)

  SHENNON FORMULA FÖR RÄKNINGSINFORMATION (FIG. 3)

Låt oss gå tillbaka till vår uppgift och beräkna hur mycket information som finns.

Förresten, när man beräknar logaritmen är det bekvämt att använda webbplatsen - https://planetcalc.ru/419/#

  • För det första fallet - 2/6 \u003d 0,33 \u003d och sedan Log 2 0,33 \u003d 1,599 bitar
  • För det andra fallet - 1/10 \u003d 0,10 Log 2 0,10 \u003d 3,322 bitar
  • För det tredje - 2/8 \u003d 0,25 \u003d Log 2 0,25 \u003d 2 bitar
  • För den fjärde - 40/200 + 40/165 \u003d 0,2 respektive 0,24 beräknar vi sedan enligt formeln - (0,2 * log 2 0,2) + - (o.24 * log 2 0,24) \u003d 0,95856 bitar

Således är svaret för vårt problem 4.

1928 ansåg den amerikanska ingenjören R. Hartley processen för att få information som valet av ett meddelande från den slutliga uppsättningen av N lika sannolika meddelanden, och mängden information som jag innehöll i det valda meddelandet bestämdes som den binära logaritmen för N.

Hartley Formula: I \u003d log 2 N

Anta att du vill gissa ett nummer från en uppsättning siffror från ett till hundra. Med Hartley-formeln kan man beräkna hur mycket information som krävs för detta: I \u003d log 2 100  6.644. Således innehåller meddelandet om det korrekta gissade numret en mängd information som är ungefär lika med 6,644 informationsenheter.

Vi ger andra exempel på utrustningsbara meddelanden:

när du kastar ett mynt: "svansar föll ut", "örn föll ut";

på boksidan: "antalet bokstäver är jämnt", "antalet bokstäver är udda".

Vi definierar nu är meddelanden lika troliga "Den första kvinnan som lämnar byggnadens dörr"   och "den första mannen som lämnar byggnadens dörr". Det är omöjligt att entydigt besvara denna fråga.. Det beror på vilken byggnad det handlar om. Om detta till exempel är en tunnelbanestation, är sannolikheten för att lämna dörren först densamma för en man och en kvinna, och om det är en militär kaserner, för en man är denna sannolikhet mycket högre än för en kvinna.

För sådana uppgifter, en amerikansk forskare Claude Shannon   föreslog 1948 en annan formel för att bestämma mängden information som tar hänsyn till eventuell ojämlik sannolikhet för meddelanden i uppsättningen.

Shannons formel: I \u003d - (p 1 log 2 p 1 + p 2 log 2 p 2 + .. + P N log 2 p N),
  där s   jag   - sannolikheten för att jagDet meddelandet markeras i en uppsättning av N-meddelanden.

Det är lätt att se det om sannolikheter p 1, ..., p N   lika, då var och en av dem lika 1 / Noch Shannons formel förvandlas till en Hartley-formel.

Förutom de två metoder som beaktas för att bestämma mängden information finns det andra. Det är viktigt att komma ihåg att alla teoretiska resultat endast gäller för ett visst antal fall som beskrivs med de första antagandena.

Som en informationsenhet föreslog Claude Shannon antagandet av en lite (engelska. bit - bi nary digi t   är en binär siffra).



bit i informationsteori   - mängden information som behövs för att skilja mellan två lika troliga meddelanden (till exempel "örn" - "svansar", "jämnt" - "udda" osv.).

I datorer   lite är den minsta "delen" av datorminne som behövs för att lagra en av de två tecknen "0" och "1" som används för presentation av data och kommandon i maskinen.

Lite är en för liten enhet. I praktiken används ofta en större enhet - bitgrupp lika med åtta bitar.   Det är åtta bitar som krävs för att koda något av de 256 tecknen i datortangentbordets alfabet (256 \u003d 2 8).

Ofta används också större härledda informationsenheter:

1 kilobyte (Kbytes) \u003d 1024 byte \u003d 2 10 byte,

1 megabyte (MB) \u003d 1024 kB \u003d 2 20 byte,

1 Gigabyte (GB) \u003d 1024 MB \u003d 2 30 byte.

Nyligen, i samband med en ökning i volymen av behandlad information, används sådana härledda enheter som:

1 Terabyte (TB) \u003d 1024 GB \u003d 2 40 byte,

1 Petabyte (PB) \u003d 1024 TB \u003d 2 50 byte.

För en informationsenhet kan man välja mängden information som behövs för att skilja mellan tio lika sannolika meddelanden. Det kommer inte att vara binärt (bit), utan decimal ( dit) informationsenhet.

Vad kan man göra med informationen?

Information finns tillgänglig:

Alla dessa processer förknippade med vissa informationsoperationer kallas informationsprocesser.

Information Egenskaper.

Information Egenskaper:

tillförlitlighet;

värde;

aktualitet; klarhet;

tillgänglighet;

korthets skull;

Information är tillförlitlig om den återspeglar det verkliga läget. Felaktig information kan leda till missförstånd eller felaktiga beslut.

Tillförlitlig information kan bli felaktig med tiden, eftersom det har fastigheten bli föråldradedet är slutar återspegla det verkliga läget.

Informationen är fullständig om den är tillräcklig för att förstå och fatta beslut. Både ofullständig och redundant information begränsar beslutsfattande eller kan orsaka fel.

Informationsnoggrannhet   bestäms av graden av dess närhet till objektets verkliga tillstånd, process, fenomen, etc.

Värdet på information beror på hur viktigt det är för att lösa problemet.såväl som från hur mycket senare kommer den att hitta tillämpning i någon form av mänsklig aktivitet.

bara snabb information kan ge de förväntade fördelarna. Lika oönskat som för tidig inlämning av information   (när det fortfarande inte kan assimileras), så det fördröjning.

Om värdefull och aktuell information uttrycks på ett obegripligt sätthon kan bli värdelös.

Information blir tydligom det uttrycks på det språk som talas av dem som denna information är avsedd för.

Information bör presenteras på ett tillgängligt sätt.   (perception level) form. Därför anges samma frågor på olika sätt i skolböcker och vetenskapliga publikationer.

Information om samma fråga kan sammanfattas   (kortfattad, utan betydande detaljer) eller voluminöst   (verbose, verbose). Kortfattad information är nödvändig i referensböcker, uppslagsverk, läroböcker och alla slags instruktioner.

Information bearbetning.

Information bearbetning   - hämta vissa informationsobjekt från andra informationsobjekt genom att utföra några algoritmer.

Bearbetning är en av de viktigaste operationerna som utförs på information, och det huvudsakliga sättet att öka volymen och mängden information.

Informationsbehandlingsverktyg är alla typer av enheter och system som skapas av mänskligheten, och först och främst är en dator en universell maskin för bearbetning av information.

Hartley, Shannon-formler.

1928 föreslog en amerikansk ingenjör R. Hartley en vetenskaplig strategi för att utvärdera meddelanden. Formeln som han föreslog var följande:

I \u003d logg 2   K

där K är antalet lika troliga händelser; Jag är antalet bitar i meddelandet, så att någon av K-händelserna har inträffat. sedanK \u003d 2 jag .

Ibland skrivs Hartley-formeln så här:

I \u003d logg 2   K \u003d logg 2 (1 / r) \u003d - logg 2 r

eftersom var och en av K-händelserna har ett lika sannolikt utfall p \u003d 1 / K, då är K \u003d 1 / p.

Uppgift.

Bollen är i en av tre valurnor: A, B eller C. Bestäm hur många informationsbitar meddelandet indikerar att det finns i valurnan B.

Beslut.

Ett sådant meddelande innehåller I \u003d logg 2   3 \u003d 1,585 bitar med information.

Men inte alla situationer har samma sannolikhet för implementering. Det finns många situationer där sannolikheterna för implementering skiljer sig åt. Om du till exempel kastar ett asymmetriskt mynt eller en "sandwichregel".

"En gång i barndomen tappade jag en smörgås. När jag såg mig skyldig och torkade oljefläcken kvar på golvet lugnade min äldre bror:

- Oroa dig inte, det fungerade enligt lagen om smörgåsen.

- Vilken typ av lag är det här? Frågade jag.

- Lagen som säger: "En smörgås faller alltid smör ner." Detta är dock ett skämt, - fortsatte broren. - Det finns ingen lag. Det är bara så att smörgåsen verkligen uppträder ganska konstigt: för det mesta är oljan i botten.

"Låt oss släppa smörgåsen ett par gånger till, kolla in den," föreslog jag. "Hur som helst, du måste kasta bort det."

Vi kontrollerade. Av tio gånger föll åtta smörgåsar smör ner.

Och då tänkte jag: är det möjligt att i förväg veta hur en smörgås nu kommer att falla smör upp eller ner?

Våra experiment avbröts av mamma ... "

(Utdrag ur boken "De stora ledarnas hemlighet", V.Abchuk).

1948 föreslog en amerikansk ingenjör och matematiker C. Shannon en formel för att beräkna mängden information för händelser med olika sannolikheter.

Om jag är mängden information,

K är antalet möjliga händelser,

r jag   - sannolikheter för enskilda händelser,

sedan kan mängden information för händelser med olika sannolikhet bestämmas med formeln:

I \u003d - Summar jag   log 2 r jag ,

där jag tar värden från 1 till K.

Hartley-formeln kan nu betraktas som ett speciellt fall med Shannon-formeln:

I \u003d - Summa 1 /K   log 2 (1 / K) \u003d I \u003d logg 2 K.

Med lika troliga händelser är den mottagna informationen högst.

Fysiologer och psykologer har lärt sig att bestämma mängden information som en person kan förstå med hjälp av sinnena, hålla i minnet och processen. Information kan presenteras i olika former: ljud, symbolik etc. Ovanstående metod för att bestämma mängden information som mottas i meddelanden som minskar osäkerheten i vår kunskap, tar hänsyn till information ur perspektivet av dess innehåll, nyhet och förståelse för människor. Från denna synvinkel, i experimentet med att kasta en kub, finns samma mängd information i meddelandena "två", "en linje har fallit uppåt där det finns två punkter" och i den visuella bilden av kuben som har fallit.

Vid överföring och lagring av information med olika tekniska apparater bör information betraktas som en sekvens av tecken (siffror, bokstäver, färgkoder på bildpunkter), utan att beakta dess innehåll.

Med tanke på att alfabetet (en uppsättning tecken i ett teckensystem) är en händelse kan utseendet på ett av tecknen i meddelandet betraktas som ett av händelsestatusen. Om utseendet på tecken är lika troligt kan du beräkna hur många bitar information varje tecken bär. Teckenens informationskapacitet bestäms av deras antal i alfabetet. Ju fler tecken ett alfabet består av, desto mer information har ett tecken. Det totala antalet tecken i alfabetet kallas alfabetets kraft.

DNA-molekyler (deoxiribonukleinsyra) består av fyra olika beståndsdelar (nukleotider) som bildar det genetiska alfabetet. Informationskapaciteten för tecknet på detta alfabet är:

4 = 2 jag , d.v.s. I \u003d 2 bitar.

Varje bokstav i det ryska alfabetet (om vi antar att e \u003d e) innehåller information om 5 bitar (32 \u003d 2) jag ).

Med detta tillvägagångssätt, som ett resultat av meddelandet om resultatet av matrullen, får vi en annan mängd information. För att beräkna den måste du multiplicera antalet tecken med mängden information som innehåller ett tecken.

Mängden information som ett meddelande kodat med ett teckensystem innehåller är lika med mängden information som har ett tecken gånger antalet tecken i meddelandet.

Exempel 1   Använda Hartley-formeln för att beräkna mängden information. Hur många bitar information kommer meddelandet att

anländer tåget på ett av åtta sätt?

Hartley Formula:   I \u003d logg 2 N ,

där N är antalet lika sannolika resultat av händelsen som avses i meddelandet,

Jag är mängden information i meddelandet.

I \u003d logg 2 8 \u003d 3 (bitar) Svar: 3 bitar.

Hartleys modifierade formel för händelser som inte är troliga.   Sedan början av varje N har möjliga händelser samma sannolikhet

p \u003d 1 / N sedanN \u003d 1 / p   och formeln har formen

I \u003d logg 2 N \u003d logg 2 (1 / p) \u003d - logg 2 p

Det kvantitativa förhållandet mellan sannolikheten för en händelse (p) och mängden information i ett meddelande om den (I) uttrycks med formeln:

I \u003d logg 2 (1 / p)

Sannolikheten för en händelse beräknas med formelnp \u003d K / N , K är ett värde som visar hur många gånger en händelse av intresse för oss har inträffat; N är det totala antalet möjliga utfall, händelser. Om sannolikheten minskar ökar mängden information.

Exempel 2   Det finns 30 personer i klassen. För kontrollarbete i matematik fick 6 femmor, 15 fyra, 8 tripplar och 1 dyk. Hur många bitar information är meddelandet om att Ivanov fick en fyra?

Kvantitativt samband mellan sannolikheten för en händelse (p) och mängden information om den (I)

I \u003d logg 2 (1 / p) \u003d - logg 2 p

sannolikheten för evenemanget 15/30

mängd information i meddelandet \u003d logg 2 (30/15) \u003d logg 2 2=1.

Svar: 1 bit.

Använda Shannons formel. Det allmänna fallet att beräkna mängden information i ett meddelande om en av N, men redan ojämna händelser. Denna strategi föreslogs av C. Shannon 1948.

Grundläggande informationsenheter:

Iav - antalet informationsbitar per brev i genomsnitt;

M - antalet tecken i meddelandet

I - meddelandets informationsvolym

p jag   - sannolikheten för att karaktären visas i meddelandet; i är symbolnumret;

jag jfr = -

värdejag jfr jag p jag \u003d 1 / N.

Exempel 3   Hur många informationsbitar som bärs av ett slumpmässigt genererat "strålkastarmeddelande", om bokstaven "a" i genomsnitt för varje tusen bokstäver förekommer 200 gånger, bokstaven "f" - 2 gånger, bokstaven "p" - 40 gånger.

Vi antar att sannolikheten för att en symbol visas i ett meddelande sammanfaller med frekvensen av dess förekomst i texter. Därför finns bokstaven "a" med en genomsnittlig frekvens av 200/1000 \u003d 0,2; Sannolikheten för utseendet på bokstaven "a" i texten (sid en kan betraktas ungefär lika med 0,2;

bokstaven "f" inträffar med en frekvens av 2/1000 \u003d 0,002; bokstaven "p" - med en frekvens av 40/1000 \u003d 0,04;

På liknande sätt, sid r \u003d 0,04, sid f   \u003d 0,002. Sedan fortsätter vi enligt C. Shannon. Vi tar den binära logaritmen på 0,2 och kallar det som visade sig vara mängden information som har en enda bokstav "a" i texten i fråga. Vi utför exakt samma operation för varje bokstav. Då är mängden personlig information som har en bokstavlog 2 1 / p jag   \u003d - logg 2   p jag , Det är bekvämare att använda medelvärdet för mängden information per alfabetet som ett tecken på mängden information.

jag jfr = -

värdejag jfr   når ett maximalt med lika troliga händelser, det vill säga med jämlikheten för alla p jag

p jag \u003d 1 / N.

I detta fall förvandlas Shannon-formeln till Hartley-formeln.

I \u003d M * I jfr \u003d 4 * (- (0,002 * logg) 2 0,002 + 0,2 * logg 2 0,2 + 0,04 * logg 2 0,04 + 0,2 * logg 2 0,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53

Svar: 4,53 bitar

När vi sammanställer tabellen måste vi beakta:

    Datainmatning (som anges i villkoret).

    Räkna det totala antalet möjliga resultat (formel N \u003d K 1 + K 2 + ... + K jag).

    Räknar sannolikheten för varje händelse (formel p jag\u003d K jag/ N).

    Räknar mängden information om varje händelse (formel I jag\u003d logg 2 (1 / p jag)).

    Räknar mängden information för händelser med olika sannolikheter (Shannons formel).

framsteg:

1 . Skapa en tabellmodell för att beräkna mängden information.

2 . Använd tabellmodellen, gör beräkningarna för problem nr 2 (fig. 3), lägg resultatet av beräkningen i en anteckningsbok.

Problem nummer 3

I rutan finns kuber: 10 röda, 8 gröna, 5 gula, 12 blå. Beräkna sannolikheten för att få en kub av varje färg och mängden information som kommer att erhållas.

Problem nummer 4

En ogenomskinlig påse har 10 vita, 20 röda, 30 blå och 40 gröna bollar. Hur mycket information kommer ett visuellt meddelande om färgen på den uttagna bollen innehålla?

Dela detta