Cum este desemnat volumul de informații în informatică? Determinarea volumului de informații al unui mesaj

Scopul lecției:

  1. Aveți o idee despre abordarea alfabetică pentru determinarea cantității de informații;
  2. Cunoașteți formula de determinare a numărului de mesaje informative, a cantității de informații din mesaje;
  3. Să fie capabil să rezolve probleme pentru a determina numărul de mesaje informative și cantitatea de informații pe care o poartă mesajul primit.

În timpul orelor

1. Actualizarea cunoștințelor:

Băieți, să vedem ce vedem în afara ferestrei. Ce poți spune despre natură? (A venit iarna.)
- Dar de ce ai decis că a venit iarna? (E frig, ninge.)
- Dar nicăieri nu este scris că acestea sunt semne de iarnă. (Dar știm ce înseamnă totul: iarna a venit.)

Prin urmare, se dovedește că cunoștințele pe care le extragem din realitatea înconjurătoare este informație. (slide 1)

Încălzire.

Completați tabelul și folosiți săgețile pentru a afișa potrivirile.

Este posibil să măsurați cantitatea de informații și cum să o faceți? (Da)

Se pare că informația poate fi măsurată și cantitatea acesteia.

Există două abordări pentru măsurarea informațiilor. Ne vom întâlni cu unul dintre ei astăzi. (Uită-te la aplicație slide 2)

2. Studierea materialelor noi.

Cum poți găsi cantitatea de informații?

Să ne uităm la un exemplu.

Avem un scurt text scris în limba rusă. Este format din litere ale alfabetului rus, numere și semne de punctuație. Pentru simplitate, vom presupune că caracterele sunt prezente în text cu probabilitate egală.

Setul de caractere folosit în text este numit alfabet.

În informatică, alfabetul înseamnă nu numai litere, ci și numere, semne de punctuație și alte caractere speciale.

Alfabetul are o dimensiune (numar intreg de caractere) Care e numit puterea alfabetului. Cu abordarea alfabetică, se crede că fiecare caracter al textului are o anumită „greutate informațională”. Pe măsură ce puterea alfabetului crește, ponderea informațională a simbolurilor acestui alfabet crește.

Să notăm puterea alfabetului cu N.

Să aflăm relația dintre ponderea informațională a simbolului (i) și puterea alfabetului (N). Cel mai mic alfabet conține 2 caractere, care sunt desemnate „0” și „1”. Greutatea informațională a unui simbol al alfabetului binar este luată ca unitate de informație și se numește 1 bit. (Vezi atașamentul slide 3)

N 2 4 8 16 32 64 128 256
i 1 bit 2 biți 3 biți 4 biți 5 biți 6 biți 7 biți 8 biți

De asemenea, computerul folosește propriul alfabet, care poate fi numit computer. Numărul de caractere pe care îl include este de 256 de caractere. Aceasta este puterea alfabetului computerului.

De asemenea, am constatat că 256 de caractere diferite pot fi codificate folosind 8 biți.

8 biți este o valoare atât de caracteristică încât i s-a dat propriul nume - octet.

1 octet = 8 biți

Folosind acest fapt: puteți calcula rapid cantitatea de informații conținute în textul computerului, adică în textul tastat folosind un computer, având în vedere că majoritatea articolelor, cărților, publicațiilor etc. scris folosind editori de text, apoi în acest fel puteți găsi volumul de informații al oricărui mesaj creat într-un mod similar.

Să vedem regula de măsurare a informațiilor din punctul de vedere al abordării alfabetice pe slide. (Vezi atașamentul slide 4)

Exemplu:

Găsiți volumul de informații al unei pagini de text pe computer.

Soluţie:

Să folosim regula.

1. Aflați puterea: N=256
2. Găsiți volumul de informații al unui personaj: N= 2 i i = 8 biți = 1 octet.
3. Găsiți numărul de caractere de pe pagină. Aproximativ.

(Aflați numărul de caractere dintr-o linie și înmulțiți-l cu numărul de linii)

Explicaţie:

Lăsați copiii să aleagă un șir aleatoriu și să numere numărul de caractere din acesta, ținând cont de toate semnele de punctuație și spațiile.

40 de caractere * 50 de linii = 2000 de caractere.

4. Găsiți volumul de informații al întregii pagini: 2000 * 1 = 2000 octeți

De acord că un octet este o unitate mică de informație. Pentru a măsura cantități mari de informații, se folosesc următoarele unități (Vezi atașamentul slide5)

3. Consolidarea materialului studiat.

Pe birou:

Completați spațiile libere cu numere și verificați exactitatea.

1 KB = ___ octet = ______bit,
2 KB = _____ octet =______ biți,
24576 biți =_____octeți =_____Kocteți,
512 KB = ___ biți = ____biți.

Studenților li se oferă sarcini:

1) Mesajul este scris folosind un alfabet care conține 8 caractere. Câte informații conține o literă din acest alfabet?

Soluţie: N=8, apoi i= 3 biți

2) Un mesaj scris cu litere din alfabetul de 128 de caractere conține 30 de caractere. Câte informații transportă?

1. N= 128, K=30
2. N= 2 i i= 7 biți (volum de un caracter)
3. I = 30*7 = 210bit (volumul întregului mesaj)

4. Munca creativă.

Tastați text pe computer al cărui volum de informații este de 240 de octeți.

5. Rezumatul lecției.

Ce nou am învățat în clasă astăzi?
- Cum se determină cantitatea de informații din punct de vedere alfabetic?
- Cum să găsești puterea alfabetului?
- Cu ce ​​este egal 1 octet?

6. Tema pentru acasă (Vezi atașamentul slide 6).

Învață o regulă de măsurare a informațiilor în ceea ce privește abordarea alfabetică.

Învață unitățile de măsură ale informațiilor.

Rezolvă o problemă:

1) Capacitatea unui alfabet este de 64 de caractere. Care va fi cantitatea de informații dintr-un text format din 100 de caractere?
2) Volumul de informații al mesajului este de 4096 de biți. Conține 1024 de caractere. Care este puterea alfabetului cu care este compus acest mesaj?

Cantitatea de informații

Cantitatea de informații ca măsură de reducere a incertitudinii cunoștințelor.
(Abordare de fond pentru determinarea cantității de informații)

Procesul de cunoaștere a lumii înconjurătoare duce la acumularea de informații sub formă de cunoștințe (fapte, teorii științifice etc.). Obținerea de noi informații duce la o extindere a cunoștințelor sau, după cum se spune uneori, la o reducere a incertitudinii cunoștințelor. Dacă un mesaj duce la o scădere a incertitudinii cunoștințelor noastre, atunci putem spune că un astfel de mesaj conține informații.

De exemplu, după ce ai luat un test sau ai terminat un test, ești chinuit de incertitudine; nu știi ce notă ai primit. În cele din urmă, profesorul anunță rezultatele și primești unul dintre cele două mesaje de informare: „proces” sau „eșuat”, iar după test, unul dintre cele patru mesaje de informare: „2”, „3”, „4” sau „5”. ".

Anunţ despre evaluarea pentru test duce la o reducere a incertitudinii cunoștințelor dumneavoastră la jumătate, deoarece se primește unul dintre cele două mesaje de informare posibile. Un mesaj de informare despre o notă pentru un test duce la o reducere de patru ori a incertitudinii cunoștințelor dumneavoastră, deoarece este primit unul dintre cele patru mesaje de informare posibile.

Este clar că cu cât situația inițială este mai incertă ( cantitate mare mesajele informative sunt posibile), cu cât primim mai multe informații noi la primirea unui mesaj informativ (cu atât va scădea de mai multe ori incertitudinea cunoașterii).

Cantitatea de informații poate fi considerată ca o măsură a reducerii incertitudinii cunoștințelor la primirea mesajelor informaționale.

Abordarea informațiilor discutată mai sus ca măsură de reducere a incertitudinii cunoașterii ne permite să măsurăm cantitativ informația. Există o formulă care leagă numărul de mesaje informative posibile N și cantitatea de informații pe care am purtat-o ​​de mesajul primit:

N=2i (1.1)

Pic. Pentru a cuantifica orice cantitate, trebuie mai întâi să determinați unitatea de măsură. Deci, pentru a măsura lungimea, metrul este selectat ca unitate, pentru a măsura masa - kilogram, etc. În mod similar, pentru a determina cantitatea de informații, trebuie să introduceți o unitate de măsură.

In spate unitate de cantitate de informație cantitatea de informație care este conținută în mesajul de informare este acceptată, reducând incertitudinea cunoașterii la jumătate. Această unitate este numită pic.

Dacă revenim la primirea unui mesaj de informare despre rezultatele testelor discutate mai sus, atunci aici incertitudinea este redusă la jumătate și, prin urmare, cantitatea de informații pe care o poartă mesajul este egală cu 1 bit.

Unități derivate pentru măsurarea cantității de informații. Cea mai mică unitate de măsură a cantității de informații este un bit, iar următoarea unitate ca mărime este un octet și:

1 octet = 8 biți = 2 3 biți.

În informatică, sistemul de formare a mai multor unități de măsură este oarecum diferit de cel acceptat în majoritatea științelor. Sisteme metrice tradiționale de unități, de ex. Sistemul internațional Unități SI, coeficientul 10 n este folosit ca multiplicatori ai mai multor unități, unde n = 3, 6, 9 etc., care corespunde prefixelor zecimale „Kilo” (10 3), „Mega” (10 6), „ Giga” (10 9), etc.

Într-un computer, informațiile sunt codificate folosind un sistem de semne binar și, prin urmare, în mai multe unități de măsură ale cantității de informații, este utilizat un factor de 2 n

Astfel, unitățile de măsură ale cantității de informații care sunt multipli ai unui octet sunt introduse după cum urmează:

1 kilobyte (KB) = 2 10 octeți = 1024 octeți;

1 megaoctet (MB) = 2 10 KB = 1024 KB;

1 gigaoctet (GB) = 2 10 MB = 1024 MB.

Întrebări de control

    1. Dați exemple de mesaje informative care duc la o reducere a incertitudinii cunoștințelor.
    2. Dați exemple de mesaje informative care poartă 1 bit de informații.

Determinarea cantității de informații

Determinarea numărului de mesaje informative. Folosind formula (1.1), puteți determina cu ușurință numărul de mesaje de informații posibile dacă cantitatea de informații este cunoscută. De exemplu, la un examen iei o fișă de examen, iar profesorul îți spune că mesajul informativ vizual despre numărul său poartă 5 biți de informații. Dacă doriți să determinați numărul de bilete de examen, atunci este suficient să determinați numărul de mesaje de informații posibile despre numerele lor folosind formula (1.1):

Astfel, numărul biletelor de examen este de 32.

Determinarea cantității de informații. Dimpotrivă, dacă se cunoaște numărul posibil de mesaje informative N, atunci pentru a determina cantitatea de informație transportată de mesaj, este necesar să se rezolve ecuația pentru I.

Imaginează-ți că controlezi mișcarea unui robot și poți seta direcția mișcării acestuia folosind mesaje informative: „nord”, „nord-est”, „est”, „sud-est”, „sud”, „sud-vest”, „vest” și „ nord-vest” (Fig. 1.11). Câte informații va primi robotul după fiecare mesaj?

Există 8 mesaje de informații posibile, așa că formula (1.1) ia forma unei ecuații pentru I:

Să factorizăm numărul 8 din partea stângă a ecuației și să-l prezentăm sub formă de putere:

8 = 2 × 2 × 2 = 2 3 .

Ecuația noastră:

Egalitatea părților stânga și dreaptă ale ecuației este adevărată dacă exponenții numărului 2 sunt egali. Astfel, I = 3 biți, adică cantitatea de informații pe care fiecare mesaj de informare o transportă robotului este egală cu 3 biți.

Abordare alfabetică pentru determinarea cantității de informații

Prin abordarea alfabetică a determinării cantității de informații, se face abstracție din conținutul informațiilor și se consideră mesajul informațional ca o secvență de semne ale unui anumit sistem de semne.

Capacitatea de informare a unui semn. Să ne imaginăm că este necesară transmiterea unui mesaj de informare printr-un canal de transmitere a informației de la expeditor la destinatar. Lăsați mesajul să fie codificat folosind un sistem de semne al cărui alfabet este format din N caractere (1, ..., N). În cel mai simplu caz, când lungimea codului mesajului este de un caracter, expeditorul poate trimite unul dintre cele N mesaje posibile „1”, „2”, ..., „N”, care va transporta cantitatea de informații I ( Fig. 1.5).

Orez. 1.5. Transferul de informații

Formula (1.1) raportează numărul de mesaje informative posibile N și cantitatea de informație pe care am purtat-o ​​de mesajul primit. Apoi, în situația luată în considerare, N este numărul de semne din alfabetul sistemului de semne și I este cantitatea de informații pe care o poartă fiecare semn:

Folosind această formulă, puteți, de exemplu, să determinați cantitatea de informații pe care o poartă un semn în sistemul de semne binar:

N = 2 => 2 = 2 I => 2 1 = 2 I => I=1 bit.

Astfel, într-un sistem cu semn binar, un semn poartă 1 bit de informație. Este interesant că însăși unitatea de măsură a cantității de informații „bit” (bit) și-a primit numele DE LA expresia engleză „Binary digiT” - „binary digit”.

Capacitatea de informare a semnului sistemului de semne binare este 1 bit.

Cu cât este mai mare numărul de semne pe care le conține alfabetul unui sistem de semne, cu atât este mai mare cantitatea de informații transportată de un semn. De exemplu, vom determina cantitatea de informații transportată de o literă a alfabetului rus. Alfabetul rus include 33 de litere, dar, în practică, doar 32 de litere sunt adesea folosite pentru a transmite mesaje (litera „ё” este exclusă).

Folosind formula (1.1), determinăm cantitatea de informații transportată de o literă a alfabetului rus:

N = 32 => 32 = 2 I => 2 5 = 2 I => I=5 biți.

Astfel, o literă a alfabetului rus poartă 5 biți de informații (cu o abordare alfabetică pentru măsurarea cantității de informații).

Cantitatea de informații pe care o poartă un semn depinde de probabilitatea primirii acestuia. Dacă destinatarul știe dinainte exact ce semn va veni, atunci cantitatea de informații primite va fi egală cu 0. Dimpotrivă, cu cât este mai puțin probabil să primească un semn, cu atât capacitatea sa de informare este mai mare.

În vorbirea scrisă rusă, frecvența de utilizare a literelor în text este diferită, deci, în medie, la 1000 de caractere dintr-un text semnificativ există 200 de litere „a” și de o sută de ori mai puțin număr de litere „f” (doar 2) . Astfel, din punctul de vedere al teoriei informațiilor, capacitatea de informare a caracterelor alfabetului rus este diferită (litera „a” are cea mai mică, iar litera „f” are cea mai mare).

Cantitatea de informații din mesaj. Un mesaj este format dintr-o secvență de caractere, fiecare dintre ele transportând o anumită cantitate de informații.

Dacă semnele poartă aceeași cantitate de informații, atunci cantitatea de informații I c din mesaj poate fi calculată prin înmulțirea cantității de informații I z purtate cu un semn cu lungimea codului (numărul de caractere din mesaj) K:

I c = I × K

Astfel, fiecare cifră a unui cod binar de computer poartă informații de 1 bit. În consecință, două cifre transportă informații în 2 biți, trei cifre - în 3 biți etc. Cantitatea de informații în biți este egală cu numărul de cifre ale codului binar al computerului (Tabelul 1.1).

Tabelul 1.1. Cantitatea de informații transportată de un cod binar de computer

Subiect: „Măsurarea informațiilor”

Formule

Pentru a determina volumul de informații al unui mesaj, sunt necesare două formule:

1. \(N= 2^i\)

N - puterea alfabetului

2. \(I = k * i \) ​

eu— volumul de informații mesaje

k - numărul de caractere din mesaj

i - volumul de informații al unui caracter din alfabet

Formula pentru găsirea k:

Formula pentru găsirea i:

Sarcini

Sarcina nr. 1. Mesajul, scris cu litere din alfabetul de 128 de caractere, conține 30 de caractere. Găsiți volumul de informații al întregului mesaj?

Soluţie.

\(I = ? \) ​

\(i = ? \) ​

\(N= 2^i \) = \(128= 2^7 \)

\(i = 7 \)​ biți. Ce putere a doi este greutatea unui caracter din alfabet.În continuare, determinăm volumul de informații al mesajului folosind formula:

\(I = k * i \) ​ = 30 * 7 = 210 biți

Răspuns: 210 biți

Sarcina nr. 2. Un mesaj de informații de 4 KB conține 4096 de caractere. Câte caractere conține alfabetul cu care a fost scris acest mesaj?

Soluţie. Să notăm ce este dat în funcție de condițiile problemei și ce trebuie găsit:

\(I = 4\) ​ KB

\(N = ? \) ​

\(i = ? \) ​

Este foarte important să convertiți toate numerele în puteri a două:

1 KB = \(2^(13)\) biți

\(I = 4 \) ​ KB = \(2^2 \) * \(2^(13) \) = \(2^(15) \) biți

k = 4096 = \(2^(12)\)

Mai întâi, să găsim greutatea unui caracter folosind formula:

\(i = \frac(\mathrm I)(\mathrm k) \)​ = \(2^(15) \) : \(2^(12) \) = \(2^3 \) = 8 biți

\(N= 2^i \) \(2^8 =256\)

Răspuns: 256 de caractere în alfabet.

Sarcina nr. 3. Câte caractere conține un mesaj scris folosind un alfabet de 16 caractere dacă dimensiunea lui este de 1/16 MB?

Soluţie. Să notăm ce este dat în funcție de condițiile problemei și ce trebuie găsit:

MB

\(k = ? \) ​

\(i = ? \) ​

Să ne imaginăm \(I = \frac(\mathrm 1)(\mathrm 16) \) MB la puterea a doi:

1 MB = \(2^(23)\) biți

\(I = \frac(\mathrm 1)(\mathrm 16) \)​ MB = \(2^(23) \) : ​\(2^4 \) = \(2^(19) \) biți.

Mai întâi, să găsim greutatea unui caracter folosind formula:

\(N= 2^i \) = \(2^4 = 16 \)

\(i = 4 \)​ biți = \(2^2 \)

Acum să găsim numărul de caractere din mesajul k:

\(k = \frac(\mathrm I)(\mathrm i) \)​ = \(2^{19} \) ​ : \(2^2 \) = \(2^{17} \) = 131072

Răspuns: 131072 caractere per mesaj.

Volumul informațional al textului și unitățile de măsură ale informațiilor


Un computer modern poate procesa informații numerice, text, grafice, sonore și video. Toate aceste tipuri de informații dintr-un computer sunt prezentate în cod binar, adică sunt utilizate doar două caractere 0 și 1. Acest lucru se datorează faptului că este convenabil să se reprezinte informația sub forma unei secvențe de impulsuri electrice: există nici un impuls (0), există un impuls (1).

O astfel de codificare este de obicei numită binară, iar secvențele logice de zerouri și unități în sine sunt numite limbaj mașină.

Cât de lung trebuie să fie codul binar pentru a putea fi folosit pentru a codifica caracterele de pe tastatura computerului?

Prin urmare, greutatea informațională a unui caracter dintr-un alfabet suficient este de 1 octet.

Pentru a măsura volume mari de informații, se folosesc unități mai mari de informații:

Unități de măsurare a cantității de informații:

1 octet = 8 biți

1 kilobyte = 1 KB = 1024 octeți

1 megaoctet = 1 MB = 1024 KB

1 gigabyte = 1 GB = 1024 GB

Volumul informativ al textului

1. Numărul de personaje din carte:

60 * 40 * 150 = 360.000 de caractere.

2. Deoarece 1 caracter cântărește 1 octet, volumul de informații al cărții este egal cu

360.000 de octeți.

3. Să convertim octeții în unități mai mari:

360.000 / 1024 = 351,56 KB

351,56 / 1024 = 0,34 MB

Răspuns: Volumul de informații al textului este de 0,34 MB.

Sarcină:

Volumul de informații al textului pregătit cu ajutorul computerului este de 3,5 KB. Câte caractere conține acest text?

1. Să convertim volumul din MB în octeți:

3,5 MB * 1024 = 3584 KB

3584 KB * 1024 = 3.670.016 octeți

2. Deoarece 1 caracter cântărește 1 octet, numărul de caractere din text este

Pentru măsurare este folosită abordarea alfabetică cantitatea de informațiiîntr-un text prezentat ca o succesiune de caractere ale oarecare alfabet. Această abordare nu are legătură cu conținutul textului. Cantitatea de informații în acest caz este numită volumul informativ al textului, care este proporțională cu dimensiunea textului - numărul de caractere care alcătuiesc textul. Această abordare de măsurare a informațiilor este uneori numită abordare volumetrică.

Fiecare caracter al textului poartă o anumită cantitate de informații. El este numit ponderea informatiei a simbolului. Prin urmare, volumul informațional al textului este egal cu suma ponderilor informaționale ale tuturor caracterelor care alcătuiesc textul.

Aici se presupune că textul este un lanț secvenţial de caractere numerotate. În formula (1) i 1 denotă ponderea informațională a primului caracter al textului, i 2 - ponderea informațională a celui de-al doilea caracter al textului etc.; K- dimensiunea textului, adică numărul total de caractere din text.

Toate simbolurile diferite folosite pentru a scrie texte, numit alfabet. Mărimea alfabetului este un număr întreg numit puterea alfabetului. Trebuie avut în vedere faptul că alfabetul include nu numai literele unei anumite limbi, ci toate celelalte simboluri care pot fi folosite în text: numere, semne de punctuație, diverse paranteze, spații etc.

Determinarea greutăților informaționale ale simbolurilor poate avea loc în două aproximări:

1) asumarea probabilității egale (frecvență egală de apariție) a oricărui caracter din text;

2) luarea în considerare a diferitelor probabilități (frecvență diferită de apariție) ale diferitelor personaje din text.

Aproximarea probabilității egale a caracterelor din text

Dacă presupunem că toate caracterele alfabetului din orice text apar cu aceeași frecvență, atunci ponderea informațională a tuturor caracterelor va fi aceeași. Lăsa N- puterea alfabetului. Atunci fracția oricărui caracter din text este 1/ N partea a textului. Prin definiția probabilității (vezi ) această valoare este egală cu probabilitatea ca un caracter să apară în fiecare poziție a textului:

p = 1/N

Conform formulei lui K. Shannon (vezi. „Măsurarea informațiilor. Abordarea conținutului”), cantitatea de informații transportată de un simbol este calculată după cum urmează:

i = log2(1/ p) = log2 N(pic) (2)

Prin urmare, ponderea informațională a simbolului ( i) și puterea alfabetului ( N) sunt legate între ele conform formulei lui Hartley (vezi „ Măsurarea informațiilor. Abordarea conținutului” )

2 i = N.

Cunoașterea greutății informaționale a unui caracter ( i) și dimensiunea textului exprimată în număr de caractere ( K), puteți calcula volumul de informații al textului folosind formula:

eu = K · i (3)

Această formulă este o versiune specială a formulei (1), în cazul în care toate simbolurile au aceeași pondere a informațiilor.

Din formula (2) rezultă că atunci când N= 2 (alfabet binar) greutatea informației a unui caracter este de 1 bit.

Din perspectiva abordării alfabetice a măsurării informaţiei1 bit -aceasta este greutatea informațională a unui caracter din alfabetul binar.

O unitate de măsură mai mare a informației este octet.

1 octet -aceasta este greutatea informațională a unui simbol din alfabet cu o putere de 256.

Deoarece 256 = 2 8, relația dintre un bit și un octet rezultă din formula lui Hartley:

2 i = 256 = 2 8

De aici: i= 8 biți = 1 octet

Pentru a reprezenta textele stocate și procesate pe un computer, cel mai des este folosit un alfabet cu o capacitate de 256 de caractere. Prin urmare,
1 caracter al unui astfel de text „cântărește” 1 octet.

Pe lângă bit și octet, unități mai mari sunt, de asemenea, folosite pentru a măsura informațiile:

1 KB (kilobyte) = 2 10 octeți = 1024 octeți,

1 MB (megaoctet) = 2 10 KB = 1024 KB,

1 GB (gigabyte) = 2 10 MB = 1024 MB.

Aproximarea diferitelor probabilități de apariție a caracterelor în text

Această aproximare ia în considerare faptul că în textul real apar caractere diferite cu frecvențe diferite. Rezultă că probabilitățile de apariție a diferitelor personaje într-o anumită poziție a textului sunt diferite și, prin urmare, ponderile lor informaționale sunt diferite.

Analiza statistică a textelor rusești arată că frecvența de apariție a literei „o” este de 0,09. Aceasta înseamnă că pentru fiecare 100 de caractere, litera „o” apare în medie de 9 ori. Același număr indică probabilitatea ca litera „o” să apară într-o anumită poziție în text: p o = 0,09. Rezultă că greutatea informațională a literei „o” în textul rus este egală cu:

Cea mai rară literă din texte este litera „f”. Frecvența sa este 0,002. De aici:

Aceasta duce la o concluzie calitativă: ponderea informațională a literelor rare este mai mare decât ponderea literelor care apar frecvent.

Cum se calculează volumul de informații al unui text ținând cont de diferitele greutăți de informații ale caracterelor alfabetului? Acest lucru se face după următoarea formulă:

Aici N- dimensiunea (puterea) alfabetului; n j- numărul de repetări ale numărului simbol j in text; eu j- greutatea informatiei a numarului simbolului j.

Abordarea alfabetică în cursul de informatică stă la baza școlii

Într-un curs de informatică la o școală de bază, introducerea elevilor în abordarea alfabetică a măsurării informațiilor are loc cel mai adesea în contextul reprezentării informatice a informațiilor. Afirmația principală este așa:

Cantitatea de informații este măsurată prin dimensiunea codului binar cu care este reprezentată această informație

Deoarece orice tip de informație este prezentat în memoria calculatoruluiîn formă de cod binar, atunci această definiție este universală. Este valabil pentru informații simbolice, numerice, grafice și audio.

Un semn ( deversare)codul binar poartă 1pic de informație.

La explicarea metodei de măsurare a volumului informaţional al textului în curs de bază informatică această întrebare se dezvăluie prin următoarea succesiune de concepte: alfabet-dimensiunea codului binar al caracterelor-volumul informativ al textului.

Logica raționamentului se desfășoară din exemple particulare pentru a obține o regulă generală. Lasă alfabetul unei anumite limbi să aibă doar 4 caractere. Să le notăm: , , , . Aceste simboluri pot fi codificate folosind patru coduri binare din două cifre: - 00, - 01, - 10, - 11. Aici sunt utilizate toate variantele de plasare a două simboluri, al căror număr este 2 2 = 4. De aici concluzia este desenat: ponderea informației a simbolului este din Un alfabet de 4 caractere este egal cu doi biți.

Următorul caz special este un alfabet de 8 caractere, fiecare caracter poate fi codificat în cod binar de 3 biți, deoarece numărul de plasări a două caractere în grupuri de 3 este 2 3 = 8. Prin urmare, ponderea informației unui caracterul dintr-un alfabet de 8 caractere este de 3 biți. etc.

Generalizând din exemple particulare, obținem o regulă generală: folosirea b- codul binar de biți poate codifica un alfabet format din N = 2 b- simboluri.

Exemplul 1. Pentru a scrie text, pentru a separa cuvintele sunt folosite doar litere mici ale alfabetului rus și „spațiu”. Care este volumul de informații al unui text format din 2000 de caractere (o pagină tipărită)?

Soluţie. Există 33 de litere în alfabetul rus. Prin scurtarea acestuia cu două litere (de exemplu, „е” și „й”) și introducerea unui caracter spațiu, obținem un număr foarte convenabil de caractere - 32. Folosind aproximarea probabilității egale a caracterelor, scriem formula lui Hartley:

2i= 32 = 2 5

De aici: i= 5 biți - greutatea informațiilor pentru fiecare caracter al alfabetului rus. Atunci volumul de informații al întregului text este egal cu:

eu= 2000 5 = 10.000 pic

Exemplul 2. Calculați volumul de informații al unui text de 2000 de caractere, a cărui înregistrare utilizează un alfabet de reprezentare computerizată a textelor cu o capacitate de 256.

Soluţie.În acest alfabet, greutatea informațiilor fiecărui caracter este de 1 octet (8 biți). Prin urmare, volumul de informații al textului este de 2000 de octeți.

În sarcinile practice pe această temă, este important să exersăm abilitățile elevilor în transformarea cantității de informații în unități diferite: biți - octeți - kiloocteți - megaocteți - gigaocteți. Dacă recalculăm volumul de informații al textului din exemplul 2 în kiloocteți, obținem:

2000 de octeți = 2000/1024 1,9531 KB

Exemplul 3. Dimensiunea mesajului, care conține 2048 de caractere, a fost de 1/512 de megaoctet. Care este dimensiunea alfabetului în care este scris mesajul?

Soluţie. Să convertim volumul de informații al mesajului din megaocteți în biți. Pentru a face acest lucru, înmulțiți această valoare de două ori cu 1024 (obținem octeți) și o dată cu 8:

eu= 1/512 · 1024 · 1024 · 8 = 16.384 biți.

Deoarece un astfel de volum de informații este transportat de 1024 de caractere ( LA), apoi pe caracter există:

i = eu/K= 16.384/1024 = 16 biți.

Rezultă că dimensiunea (puterea) alfabetului utilizat este de 2 16 = 65.536 de caractere.

Abordarea volumului în cursurile de informatică din liceu

Studiind informatica în clasele 10-11 la un nivel de învățământ general de bază, este posibil să lăsați cunoștințele elevilor despre abordarea volumetrică de măsurare a informațiilor la același nivel ca cel descris mai sus, de exemplu. în contextul volumului de cod binar de calculator.

Când se studiază informatica la nivel de profil, abordarea volumetrică trebuie luată în considerare dintr-o perspectivă matematică mai generală, folosind idei despre frecvența caracterelor din text, probabilități și legătura probabilităților cu ponderile informaționale ale caracterelor.

Cunoașterea acestor probleme se dovedește a fi importantă pentru o înțelegere mai profundă a diferențelor în utilizarea codificării binare uniforme și neuniforme (vezi. „Codificarea informațiilor”), pentru a înțelege unele tehnici de compresie a datelor (vezi „Comprimarea datelor”) și algoritmi de criptare (vezi. "Criptografie" ).

Exemplul 4. Alfabetul tribului MUMU are doar 4 litere (A, U, M, K), un semn de punctuație (punct) și un spațiu este folosit pentru a separa cuvintele. S-a calculat că popularul roman „Mumuka” conține doar 10.000 de caractere, dintre care: literele A - 4000, literele U - 1000, literele M - 2000, literele K - 1500, puncte - 500, spații - 1000. Câtă informație are conţine o carte?

Soluţie. Deoarece volumul cărții este destul de mare, putem presupune că frecvența de apariție a fiecărui simbol alfabetic în textul calculat din acesta este tipică pentru orice text în limba MUMU. Să calculăm frecvența de apariție a fiecărui simbol în întregul text al cărții (adică probabilitatea) și ponderile informaționale ale simbolurilor

Calculăm cantitatea totală de informații din carte ca suma produselor ponderii informaționale a fiecărui simbol și numărul de repetări ale acestui simbol în carte:

Acțiune