Kaip informatikos srityje apibrėžiamas informacijos kiekis? Pranešimo informacijos apimties nustatymas

Pamokos tikslas:

  1. Turėti supratimą apie abėcėlinį metodą nustatant informacijos kiekį;
  2. Žinoti informacinių pranešimų skaičiaus, informacijos kiekio žinutėse nustatymo formulę;
  3. Gebėti spręsti uždavinius, siekiant nustatyti informacinių pranešimų skaičių ir informacijos kiekį, kurį neša gautas pranešimas.

Per užsiėmimus

1. Žinių atnaujinimas:

Vaikinai, pažiūrėkime, ką matome už lango. Ką galite pasakyti apie gamtą? (Atėjo žiema.)
– Bet kodėl nusprendėte, kad atėjo žiema? (Šalta, sninga.)
– Bet niekur neparašyta, kad tai žiemos ženklai. (Bet mes žinome, ką visa tai reiškia: atėjo žiema.)

Todėl paaiškėja, kad žinios, kurias išgauname iš supančios tikrovės, yra informacija. (skaidrė 1)

Apšilimas.

Užpildykite lentelę ir rodyklėmis parodykite atitikmenis.

Ar įmanoma išmatuoti informacijos kiekį ir kaip tai padaryti? (Taip)

Pasirodo, informaciją taip pat galima išmatuoti ir rasti jos kiekį.

Yra du informacijos matavimo būdai. Su vienu iš jų susitiksime šiandien. (Pažiūrėkite į programą skaidrė 2)

2. Naujos medžiagos studijavimas.

Kaip rasti informacijos kiekį?

Pažiūrėkime į pavyzdį.

Turime trumpą tekstą, parašytą rusų kalba. Jį sudaro rusiškos abėcėlės raidės, skaičiai ir skyrybos ženklai. Paprastumo dėlei manysime, kad simboliai tekste yra vienodai.

Tekste naudojamas simbolių rinkinys vadinamas abėcėlė.

Informatikos moksle abėcėlė reiškia ne tik raides, bet ir skaičius, skyrybos ženklus ir kitus specialiuosius simbolius.

Abėcėlė turi dydį (visas simbolių skaičius) kuris vadinamas abėcėlės galia. Taikant abėcėlinį metodą, manoma, kad kiekvienas teksto simbolis turi tam tikrą „informacijos svorį“. Didėjant abėcėlės galiai, didėja šios abėcėlės simbolių informacinis svoris.

Pažymėkime abėcėlės galią N.

Raskime ryšį tarp simbolio informacijos svorio (i) ir abėcėlės galios (N). Mažiausią abėcėlę sudaro 2 simboliai, žymimi „0“ ir „1“. Dvejetainės abėcėlės simbolio informacinis svoris laikomas informacijos vienetu ir vadinamas 1 bitu. (Žiūrėkite priedą skaidrė 3)

N 2 4 8 16 32 64 128 256
i 1 bitas 2 bitų 3 bitų 4 bitų 5 bitų 6 bitų 7 bitų 8 bitų

Kompiuteris taip pat naudoja savo abėcėlę, kurią galima pavadinti kompiuteriu. Jame yra 256 simboliai. Tai yra kompiuterio abėcėlės galia.

Taip pat nustatėme, kad naudojant 8 bitus galima užkoduoti 256 skirtingus simbolius.

8 bitai yra tokia būdinga reikšmė, kad ji gavo savo pavadinimą - baitas.

1 baitas = 8 bitai

Naudodamiesi šiuo faktu: galite greitai apskaičiuoti informacijos kiekį kompiuteriniame tekste, t. parašytas naudojant teksto redaktorius, tada tokiu būdu galite rasti bet kurio panašiu būdu sukurto pranešimo informacijos kiekį.

Pažiūrėkime informacijos matavimo taisyklę abėcėlės metodo požiūriu skaidrėje. (Žiūrėkite priedą skaidrė 4)

Pavyzdys:

Raskite kompiuterio teksto puslapio informacijos apimtį.

Sprendimas:

Pasinaudokime taisykle.

1. Raskite galią: N=256
2. Raskite vieno simbolio informacijos tūrį: N = 2 i i = 8 bitai = 1 baitas.
3. Raskite simbolių skaičių puslapyje. Maždaug.

(Raskite simbolių skaičių eilutėje ir padauginkite iš eilučių skaičiaus)

Paaiškinimas:

Leiskite vaikams pasirinkti atsitiktinę eilutę ir suskaičiuoti joje esančių simbolių skaičių, atsižvelgdami į visus skyrybos ženklus ir tarpus.

40 simbolių * 50 eilučių = 2000 simbolių.

4. Raskite viso puslapio informacijos apimtį: 2000 * 1 = 2000 baitų

Sutikite, kad baitas yra mažas informacijos vienetas. Norint išmatuoti didelius informacijos kiekius, naudojami šie vienetai (Žiūrėkite priedą skaidrė 5)

3. Studijuotos medžiagos konsolidavimas.

Ant stalo:

Užpildykite tuščias vietas skaičiais ir patikrinkite tikslumą.

1 KB = ___ baitas = ______bitas,
2 KB = _____ baitas = _____ bitai,
24576 bitai = _____baitai = _____KB,
512 KB = ___ baitai = ____bitai.

Mokiniams siūlomos užduotys:

1) Pranešimas parašytas naudojant 8 simbolių abėcėlę. Kiek informacijos turi viena šios abėcėlės raidė?

Sprendimas: N = 8 , tada i = 3 bitai

2) 128 simbolių abėcėlės raidėmis parašytame pranešime yra 30 simbolių. Kiek informacijos joje yra?

1. N = 128, K = 30
2. N = 2 i i = 7 bitai (vieno simbolio apimtis)
3. I = 30*7 = 210 bitų (viso pranešimo apimtis)

4. Kūrybinis darbas.

Kompiuteryje įveskite tekstą, kurio informacijos apimtis yra 240 baitų.

5. Pamokos santrauka.

Ko naujo mes išmokome šiandien pamokoje?
– Kaip abėcėlės požiūriu nustatomas informacijos kiekis?
– Kaip atrasti abėcėlės galią?
– Kam lygus 1 baitas?

6. Namų darbai (Žiūrėkite priedą skaidrė 6).

Išmokite informacijos matavimo taisyklę abėcėlės tvarka.

Išmokite informacijos matavimo vienetus.

Išspręsti problemą:

1) Kai kurios abėcėlės talpa yra 64 simboliai. Koks bus informacijos kiekis 100 simbolių tekste?
2) Pranešimo informacijos apimtis yra 4096 bitai. Jį sudaro 1024 simboliai. Kokia yra abėcėlės, iš kurios sudaryta ši žinia, galia?

Informacijos kiekis

Informacijos kiekis kaip žinių neapibrėžtumo mažinimo matas.
(Esminis požiūris į informacijos kiekio nustatymą)

Aplinkinio pasaulio pažinimo procesas veda į informacijos kaupimąsi žinių pavidalu (faktų, mokslinių teorijų ir kt.). Naujos informacijos gavimas veda į žinių išplėtimą arba, kaip kartais sakoma, žinių neapibrėžtumo sumažėjimą. Jei kuri nors žinutė sumažina mūsų žinių neapibrėžtumą, galime sakyti, kad tokiame pranešime yra informacijos.

Pavyzdžiui, išlaikius testą ar atlikus testą tave kankina netikrumas, nežinai, kokį pažymį gavai. Galiausiai mokytojas paskelbia rezultatus, ir jūs gaunate vieną iš dviejų informacinių pranešimų: „išlaikyta“ arba „nepavyko“, o po testo – vieną iš keturių informacinių pranešimų: „2“, „3“, „4“ arba „5“. “.

Skelbimas Dėl testo įvertinimo jūsų žinių neapibrėžtumas sumažėja perpus, nes gaunamas vienas iš dviejų galimų informacinių pranešimų. Informacinis pranešimas apie testo pažymį keturis kartus sumažina jūsų žinių neapibrėžtumą, nes gaunamas vienas iš keturių galimų informacinių pranešimų.

Akivaizdu, kad kuo neapibrėžtesnė pradinė situacija ( didelis kiekis galimi informaciniai pranešimai), tuo daugiau naujos informacijos gauname gavę informacinį pranešimą (tuo daugiau kartų sumažės žinių neapibrėžtumas).

Informacijos kiekis gali būti laikomas žinių neapibrėžtumo mažinimo priemone gaunant informacinius pranešimus.

Aukščiau aptartas požiūris į informaciją, kaip žinių neapibrėžtumo mažinimo priemonė, leidžia kiekybiškai išmatuoti informaciją. Yra formulė, kuri susieja galimų informacinių pranešimų skaičių N ir informacijos kiekį, kurį pernešiau gautu pranešimu:

N=2 i (1.1)

Bit. Norėdami kiekybiškai įvertinti bet kokį kiekį, pirmiausia turite nustatyti matavimo vienetą. Taigi, norint matuoti ilgį, matuoklis pasirenkamas kaip vienetas, matuoti masę - kilogramas ir tt Panašiai, norėdami nustatyti informacijos kiekį, turite įvesti matavimo vienetą.

Už nugaros informacijos kiekio vienetas priimamas informacijos kiekis, kuris yra informaciniame pranešime, perpus sumažinant žinių neapibrėžtumą. Šis vienetas vadinamas šiek tiek.

Jei grįšime prie anksčiau aptarto informacinio pranešimo apie testo rezultatus gavimo, tai čia neapibrėžtis sumažėja perpus, todėl pranešimo nešamos informacijos kiekis yra lygus 1 bitui.

Išvestiniai informacijos kiekio matavimo vienetai. Mažiausias informacijos kiekio matavimo vienetas yra bitas, o kitas pagal dydį – baitas ir:

1 baitas = 8 bitai = 2 3 bitai.

Informatikos srityje kelių matavimo vienetų sudarymo sistema šiek tiek skiriasi nuo priimtos daugelyje mokslų. Tradicinės metrinės vienetų sistemos, pvz. Tarptautinė sistema SI vienetų, koeficientas 10 n naudojamas kaip kartotinių vienetų daugikliai, kur n = 3, 6, 9 ir tt, o tai atitinka dešimtainius priešdėlius „Kilo“ (10 3), „Mega“ (10 6), „ Giga“ (10 9) ir kt.

Kompiuteryje informacija užkoduojama naudojant dvejetainių ženklų sistemą, todėl keliuose informacijos kiekio matavimo vienetuose naudojamas koeficientas 2 n

Taigi informacijos kiekio matavimo vienetai, kurie yra baito kartotiniai, įvedami taip:

1 kilobaitas (KB) = 2 10 baitų = 1024 baitai;

1 megabaitas (MB) = 2 10 KB = 1024 KB;

1 gigabaitas (GB) = 2 10 MB = 1024 MB.

Kontroliniai klausimai

    1. Pateikite informacinių pranešimų, kurie sumažina žinių neapibrėžtumą, pavyzdžius.
    2. Pateikite informacinių pranešimų, kuriuose yra 1 bitas informacijos, pavyzdžius.

Informacijos kiekio nustatymas

Informacinių pranešimų skaičiaus nustatymas. Naudodami (1.1) formulę galite lengvai nustatyti galimų informacinių pranešimų skaičių, jei informacijos kiekis yra žinomas. Pavyzdžiui, per egzaminą jūs laikote egzamino kortelę, o mokytojas jums sako, kad vaizdinėje informacinėje žinutėje apie jo numerį yra 5 informacijos bitai. Jei norite nustatyti egzamino bilietų skaičių, pakanka nustatyti galimų informacinių pranešimų apie jų skaičių skaičių naudojant (1.1) formulę:

Taigi egzamino bilietų skaičius yra 32.

Informacijos kiekio nustatymas. Priešingai, jei žinomas galimas informacinių pranešimų skaičius N, tada norint nustatyti pranešimo pernešamos informacijos kiekį, reikia išspręsti I lygtį.

Įsivaizduokite, kad valdote roboto judėjimą ir galite nustatyti jo judėjimo kryptį naudodamiesi informaciniais pranešimais: "šiaurė", "šiaurės rytai", "rytai", "pietryčiai", "pietai", "pietvakariai", "vakarai" ir " šiaurės vakarai“ (1.11 pav.). Kiek informacijos robotas gaus po kiekvieno pranešimo?

Galimi 8 informaciniai pranešimai, todėl formulė (1.1) yra lygties forma I:

Paskaičiuokime skaičių 8 kairėje lygties pusėje ir pateiksime jį laipsnio forma:

8 = 2 × 2 × 2 = 2 3 .

Mūsų lygtis:

Kairiosios ir dešiniosios lygties pusių lygybė yra teisinga, jei skaičiaus 2 eksponentai yra lygūs.Taigi I = 3 bitai, t.y., informacijos kiekis, kurį kiekvienas informacinis pranešimas neša robotui, yra lygus 3 bitams.

Abėcėlinis informacijos kiekio nustatymo metodas

Taikant abėcėlinį informacijos kiekio nustatymo metodą, abstrahuojama nuo informacijos turinio ir informacinis pranešimas laikomas tam tikros ženklų sistemos ženklų seka.

Ženklo informacinė talpa. Įsivaizduokime, kad informacinį pranešimą reikia perduoti informacijos perdavimo kanalu nuo siuntėjo iki gavėjo. Tegul pranešimas yra užkoduotas naudojant ženklų sistemą, kurios abėcėlę sudaro N simboliai (1, ..., N). Paprasčiausiu atveju, kai pranešimo kodo ilgis yra vienas simbolis, siuntėjas gali išsiųsti vieną iš N galimų pranešimų „1“, „2“, ..., „N“, kuriame bus informacijos kiekis I ( 1.5 pav.).

Ryžiai. 1.5. Informacijos perdavimas

Formulė (1.1) susieja galimų informacinių pranešimų skaičių N ir informacijos I kiekį, kurį pernešė gautas pranešimas. Tada nagrinėjamoje situacijoje N yra ženklų skaičius ženklų sistemos abėcėlėje, o I yra informacijos kiekis, kurį neša kiekvienas ženklas:

Naudodami šią formulę galite, pavyzdžiui, nustatyti informacijos kiekį, kurį ženklas neša dvejetainėje ženklų sistemoje:

N = 2 => 2 = 2 I => 2 1 = 2 I => I = 1 bitas.

Taigi dvejetainių ženklų sistemoje ženklas neša 1 bitą informacijos. Įdomu tai, kad pats informacijos kiekio matavimo vienetas „bitas“ (bitas) gavo savo pavadinimą IŠ angliškos frazės „Binary digiT“ - „dvejetainis skaitmuo“.

Dvejetainių ženklų sistemos ženklo informacinė talpa yra 1 bitas.

Kuo daugiau ženklų yra ženklų sistemos abėcėlėje, tuo daugiau informacijos perduoda vienas ženklas. Kaip pavyzdį nustatysime, kiek informacijos perduoda rusiškos abėcėlės raidė. Rusų abėcėlę sudaro 33 raidės, tačiau praktikoje pranešimams perduoti dažnai naudojamos tik 32 raidės (raidė „ё“ neįtraukiama).

Naudodami (1.1) formulę nustatome rusų abėcėlės raidės perduodamos informacijos kiekį:

N = 32 => 32 = 2 I => 2 5 = 2 I => I = 5 bitai.

Taigi, rusiškos abėcėlės raidėje yra 5 informacijos bitai (informacijos kiekio matavimo abėcėlės tvarka).

Ženklo nešamos informacijos kiekis priklauso nuo jo gavimo tikimybės. Jei gavėjas iš anksto tiksliai žino, koks ženklas ateis, tai gaunamos informacijos kiekis bus lygus 0. Priešingai, kuo mažesnė tikimybė gauti ženklą, tuo didesnė jo informacinė talpa.

Rusų kalboje raidžių vartojimo dažnis tekste yra skirtingas, todėl vidutiniškai 1000 reikšmingo teksto simbolių tenka 200 raidžių „a“ ir šimtą kartų mažiau raidžių „f“ (tik 2). . Taigi, informacijos teorijos požiūriu, rusiškos abėcėlės simbolių informacinė talpa skiriasi (raidė „a“ turi mažiausią, o „f“ – didžiausią).

Informacijos kiekis žinutėje. Pranešimą sudaro simbolių seka, kurių kiekvienas neša tam tikrą informacijos kiekį.

Jei ženklai neša vienodą informacijos kiekį, tai informacijos I c kiekį pranešime galima apskaičiuoti vieno ženklo nešamą informacijos kiekį I z padauginus iš kodo ilgio (simbolių skaičiaus pranešime) K:

I c = I × K

Taigi kiekvienas dvejetainio kompiuterio kodo skaitmuo turi 1 bito informaciją. Vadinasi, du skaitmenys neša informaciją 2 bitais, trys skaitmenys – 3 bitais ir tt Informacijos kiekis bitais yra lygus dvejetainio kompiuterio kodo skaitmenų skaičiui (1.1 lentelė).

1.1 lentelė. Informacijos kiekis, pernešamas dvejetainiu kompiuterio kodu

Tema: „Informacijos matavimas“

Formulės

Norint nustatyti pranešimo informacijos kiekį, reikia dviejų formulių:

1. \(N= 2^i\)

N - abėcėlės galia

2. \(I = k * i \) ​

aš- informacijos apimtisžinutes

k - simbolių skaičius žinutėje

i - vieno simbolio informacijos apimtis abėcėlėje

K radimo formulė:

I radimo formulė:

Užduotys

Užduotis Nr.1. Žinutė, parašyta raidėmis iš 128 simbolių abėcėlės, susideda iš 30 simbolių. Rasti viso pranešimo informacijos kiekį?

Sprendimas.

\ (I = ? \)

\(i = ? \)

\(N= 2^i \) = \(128= 2^7 \)

\(i = 7 \)​ bitai. Kokia dviejų galia yra vieno abėcėlės simbolio svoris. Toliau mes nustatome pranešimo informacijos kiekį naudodami formulę:

\ (I = k * i \) ​ = 30 * 7 = 210 bitų

Atsakymas: 210 bitų

2 užduotis. 4 KB informaciniame pranešime yra 4096 simboliai. Kiek simbolių yra abėcėlėje, su kuria buvo parašytas šis pranešimas?

Sprendimas. Užrašykime, kas duota pagal problemos sąlygas ir ką reikia rasti:

\(I = 4\) ​ KB

\(N = ? \)

\(i = ? \)

Labai svarbu visus skaičius konvertuoti į dviejų laipsnius:

1 KB = \(2^(13)\) bitai

\(I = 4 \) ​ KB = \(2^2 \) * \(2^(13) \) = \(2^(15) \) bitai

k = 4096 = \(2^(12)\)

Pirmiausia raskime vieno simbolio svorį naudodami formulę:

\(i = \frac(\mathrm I)(\mathrm k) \)​ = \(2^(15) \) : \(2^(12) \) = \(2^3 \) = 8 bitai

\(N= 2^i \) \(2^8 = 256\)

Atsakymas: 256 simboliai abėcėlėje.

Užduotis Nr.3. Kiek simbolių yra žinutėje, parašytame naudojant 16 simbolių abėcėlę, jei jos dydis yra 1/16 MB?

Sprendimas. Užrašykime, kas duota pagal problemos sąlygas ir ką reikia rasti:

MB

\(k = ? \)

\(i = ? \)

Įsivaizduokime \(I = \frac(\mathrm 1)(\mathrm 16) \) MB dviejų laipsniu:

1 MB = \(2^(23)\) bitai

\(I = \frac(\mathrm 1)(\mathrm 16) \)​ MB = \(2^(23) \) : ​\(2^4 \) = \(2^(19) \) bitai.

Pirmiausia raskime vieno simbolio svorį naudodami formulę:

\(N= 2^i \) = \(2^4 = 16 \)

\(i = 4 \)​ bitai = \(2^2 \)

Dabar suraskime simbolių skaičių pranešime k:

\(k = \frac(\mathrm I)(\mathrm i) \)​ = \(2^{19} \) ​ : \(2^2 \) = \(2^{17} \) = 131072

Atsakymas: 131072 simboliai vienoje žinutėje.

Informacinis teksto tūris ir informacijos matavimo vienetai


Šiuolaikinis kompiuteris gali apdoroti skaitmeninę, tekstinę, grafinę, garso ir vaizdo informaciją. Visi šie informacijos tipai kompiuteryje pateikiami dvejetainiu kodu, t.y. naudojami tik du simboliai 0 ir 1. Taip yra dėl to, kad informaciją patogu pavaizduoti elektrinių impulsų sekos forma: yra nėra impulso (0), yra impulsas (1).

Toks kodavimas dažniausiai vadinamas dvejetainiu, o pačios loginės nulių ir vienetų sekos – mašinine kalba.

Kokio ilgio turi būti dvejetainis kodas, kad juo būtų galima koduoti kompiuterio klaviatūros simbolius?

Taigi, vieno pakankamos abėcėlės simbolio informacijos svoris yra 1 baitas.

Norint išmatuoti didelius informacijos kiekius, naudojami didesni informacijos vienetai:

Informacijos kiekio matavimo vienetai:

1 baitas = 8 bitai

1 kilobaitas = 1 KB = 1024 baitai

1 megabaitas = 1 MB = 1024 KB

1 gigabaitas = 1 GB = 1024 GB

Informacinė teksto apimtis

1. Knygos veikėjų skaičius:

60 * 40 * 150 = 360 000 simbolių.

2. Nes 1 simbolis sveria 1 baitą, knygos informacijos tūris lygus

360 000 baitų.

3. Paverskime baitus į didesnius vienetus:

360 000 / 1024 = 351,56 KB

351,56 / 1024 = 0,34 MB

Atsakymas: Teksto informacijos apimtis 0,34 MB.

Užduotis:

Kompiuteriu parengto teksto informacinė apimtis – 3,5 KB. Kiek simbolių yra šiame tekste?

1. Konvertuokime garsumą iš MB į baitus:

3,5 MB * 1024 = 3584 KB

3584 KB * 1024 = 3 670 016 baitų

2. Nes 1 simbolis sveria 1 baitą, simbolių skaičius tekste yra

Matuojant naudojamas abėcėlinis metodas informacijos kiekis tekste, pateiktame kaip kokios nors abėcėlės simbolių seka. Šis požiūris nesusijęs su teksto turiniu. Informacijos kiekis šiuo atveju vadinamas teksto informacijos apimtis, kuris yra proporcingas teksto dydžiui – tekstą sudarančių simbolių skaičiui. Toks informacijos matavimo metodas kartais vadinamas tūriniu metodu.

Kiekvienas teksto veikėjas neša tam tikrą informacijos kiekį. Jis vadinamas simbolio informacinis svoris. Todėl teksto informacijos apimtis yra lygi visų tekstą sudarančių simbolių informacijos svorių sumai.

Čia daroma prielaida, kad tekstas yra nuosekli sunumeruotų simbolių grandinė. (1) formulėje i 1 žymi pirmojo teksto simbolio informacijos svorį, i 2 - antrojo teksto simbolio informacinis svoris ir kt.; K- teksto dydžio, t.y. viso teksto simbolių skaičiaus.

Visi įvairūs simboliai, naudojami tekstams rašyti, paskambino abėcėlė. Abėcėlės dydis yra sveikasis skaičius, vadinamas abėcėlės galia. Reikėtų nepamiršti, kad abėcėlė apima ne tik konkrečios kalbos raides, bet ir visus kitus simbolius, kurie gali būti naudojami tekste: skaičiai, skyrybos ženklai, įvairūs skliaustai, tarpai ir kt.

Simbolių informacijos svoriai gali būti nustatomi dviem apytiksliais būdais:

1) darant vienodą bet kurio teksto simbolio tikimybę (vienodą pasireiškimo dažnį);

2) atsižvelgiant į skirtingas tikimybes (skirtingą pasireiškimo dažnumą) skirtingų simbolių tekste.

Lygios simbolių tikimybės tekste aproksimacija

Jei darysime prielaidą, kad bet kuriame tekste visi abėcėlės simboliai pasirodo vienodai dažnai, tada visų simbolių informacijos svoris bus vienodas. Leisti N- abėcėlės galia. Tada bet kurio teksto simbolio trupmena yra 1/ N teksto dalis. Pagal tikimybės apibrėžimą (žr ) ši reikšmė yra lygi tikimybei, kad simbolis atsiras kiekvienoje teksto pozicijoje:

p = 1/N

Pagal K. Shannon formulę (žr. „Informacijos matavimas. Turinio požiūris“), simboliu perduodamos informacijos kiekis apskaičiuojamas taip:

i = log2(1/ p) = log2 N(šiek tiek) (2)

Todėl simbolio informacijos svoris ( i) ir abėcėlės galia ( N) yra susiję vienas su kitu pagal Hartley formulę (žr. Matavimo informacija. Turinio požiūris“ )

2 i = N.

Žinant vieno simbolio informacijos svorį ( i) ir teksto dydį, išreikštą simbolių skaičiumi ( K), galite apskaičiuoti teksto informacijos apimtį naudodami formulę:

aš = K · i (3)

Ši formulė yra speciali formulės (1) versija tuo atveju, kai visi simboliai turi vienodą informacijos svorį.

Iš (2) formulės išplaukia, kad kada N= 2 (dvejetainė abėcėlė) vieno simbolio informacijos svoris yra 1 bitas.

Iš abėcėlinio požiūrio į informacijos matavimą perspektyvos1 bitas -tai dvinarės abėcėlės simbolio informacinis svoris.

Didesnis informacijos matavimo vienetas yra baitas.

1 baitas -tai simbolio iš abėcėlės, kurio galia yra 256, informacinis svoris.

Kadangi 256 = 2 8, santykis tarp bito ir baito išplaukia iš Hartley formulės:

2 i = 256 = 2 8

Iš čia: i= 8 bitai = 1 baitas

Kompiuteryje saugomiems ir apdorotiems tekstams pavaizduoti dažniausiai naudojama 256 simbolių talpa abėcėlė. Vadinasi,
1 tokio teksto simbolis „sveria“ 1 baitą.

Be bitų ir baitų, informacijai matuoti taip pat naudojami didesni vienetai:

1 KB (kilobaitas) = ​​2 10 baitų = 1024 baitai,

1 MB (megabaitas) = ​​2 10 KB = 1024 KB,

1 GB (gigabaitas) = ​​2 10 MB = 1024 MB.

Įvairių simbolių atsiradimo tekste tikimybių aproksimacija

Apskaičiuojant šį apytikslį, atsižvelgiama į tai, kad realiame tekste naudojami skirtingi simboliai, kurių dažnis skiriasi. Iš to išplaukia, kad skirtingų simbolių atsiradimo tam tikroje teksto vietoje tikimybės yra skirtingos, todėl skiriasi ir jų informacinis svoris.

Statistinė rusiškų tekstų analizė rodo, kad raidės „o“ atsiradimo dažnis yra 0,09. Tai reiškia, kad kas 100 simbolių raidė „o“ pasirodo vidutiniškai 9 kartus. Tas pats skaičius rodo tikimybę, kad raidė „o“ atsiras tam tikroje teksto vietoje: p o = 0,09. Iš to išplaukia, kad rusiškame tekste raidės „o“ informacinis svoris yra lygus:

Rečiausia raidė tekstuose yra raidė „f“. Jo dažnis yra 0,002. Iš čia:

Tai leidžia daryti kokybinę išvadą: retų raidžių informacijos svoris yra didesnis nei dažnai pasitaikančių raidžių svoris.

Kaip apskaičiuoti teksto informacijos apimtį, atsižvelgiant į skirtingą abėcėlės simbolių informacijos svorį? Tai atliekama pagal šią formulę:

Čia N- abėcėlės dydis (galia); n j- simbolio numerio pasikartojimų skaičius j tekste; i j- simbolio numerio informacinis svoris j.

Abėcėlinis požiūris informatikos kurse yra mokyklos pagrindas

Informatikos kurse pagrindinėje mokykloje mokinių supažindinimas su abėcėliniu informacijos matavimo metodu dažniausiai vyksta kompiuterinio informacijos vaizdavimo kontekste. Pagrindinis teiginys skamba taip:

Informacijos kiekis matuojamas dvejetainio kodo, su kuriuo ši informacija yra pavaizduota, dydžiu

Kadangi pateikiama bet kokia informacija kompiuterio atmintis dvejetainio kodo forma, tada šis apibrėžimas yra universalus. Jis galioja simbolinei, skaitinei, grafinei ir garsinei informacijai.

Vienas ženklas ( iškrovimas)dvejetainis kodas neša 1truputis informacijos.

Aiškindamas teksto informacijos apimties matavimo metodą pagrindinis kursas informatika šį klausimą atskleidžiama per tokią sąvokų seką: abėcėlė-simbolio dvejetainio kodo dydis-teksto informacijos apimtis.

Samprotavimo logika atsiskleidžia iš konkrečių pavyzdžių, siekiant gauti bendrą taisyklę. Tegul tam tikros kalbos abėcėlė turi tik 4 simbolius. Pažymime juos: , , , . Šiuos simbolius galima užkoduoti naudojant keturis dviženklius dvejetainius kodus: - 00, - 01, - 10, - 11. Čia naudojami visi dviejų simbolių išdėstymo variantai, kurių skaičius yra 2 2 = 4. Iš čia ir daroma išvada. nubraižytas: simbolio informacinis svoris yra iš A 4 simbolių abėcėlė yra lygi dviem bitams.

Kitas ypatingas atvejis yra 8 simbolių abėcėlė, kurios kiekvienas simbolis gali būti užkoduotas 3 bitų dvejetainiu kodu, nes dviejų simbolių skaičius grupėse po 3 yra 2 3 = 8. Todėl abėcėlės informacijos svoris 8 simbolių abėcėlės simbolis yra 3 bitai. ir kt.

Apibendrindami iš konkrečių pavyzdžių, gauname bendrą taisyklę: naudojant b- bitų dvejetainis kodas gali užkoduoti abėcėlę, kurią sudaro N = 2 b- simboliai.

1 pavyzdys. Rašant tekstą, atskirti žodžius naudojamos tik mažosios rusiškos abėcėlės raidės ir „tarpas“. Kokia yra 2000 simbolių (vieno atspausdinto puslapio) teksto informacijos apimtis?

Sprendimas. Rusų abėcėlėje yra 33 raidės. Sutrumpinę jį dviem raidėmis (pavyzdžiui, „е“ ir „й“) ir įvedę tarpo ženklą, gauname labai patogų simbolių skaičių – 32. Pasitelkę simbolių lygios tikimybės aproksimaciją, parašome Hartley formulę:

2i= 32 = 2 5

Iš čia: i= 5 bitai - kiekvieno rusų abėcėlės simbolio informacijos svoris. Tada viso teksto informacijos apimtis yra lygi:

= 2000 5 = 10 000 šiek tiek

2 pavyzdys. Apskaičiuokite informacijos apimtį 2000 simbolių teksto, kurio įrašymui naudojama kompiuterinė 256 talpos tekstų atvaizdavimo abėcėlė.

Sprendimas.Šioje abėcėlėje kiekvieno simbolio informacijos svoris yra 1 baitas (8 bitai). Todėl teksto informacijos apimtis yra 2000 baitų.

Praktinėse užduotyse šia tema svarbu lavinti studentų įgūdžius konvertuoti informacijos kiekį į skirtingi vienetai: bitai - baitai - kilobaitai - megabaitai - gigabaitai. Jei teksto informacijos apimtį iš 2 pavyzdžio perskaičiuosime į kilobaitus, gautume:

2000 baitų = 2000/1024 1,9531 KB

3 pavyzdys. Pranešimo, kurį sudaro 2048 simboliai, dydis buvo 1/512 megabaitų. Kokio dydžio abėcėlė, kuria parašytas pranešimas?

Sprendimas. Konvertuokime pranešimo informacijos kiekį iš megabaitų į bitus. Norėdami tai padaryti, padauginkite šią reikšmę du kartus iš 1024 (gauname baitus) ir vieną kartą iš 8:

= 1/512 · 1024 · 1024 · 8 = 16 384 bitai.

Kadangi toks informacijos kiekis yra 1024 simboliai ( KAM), tada kiekvienam simboliui yra:

i = /K= 16 384/1024 = 16 bitų.

Iš to išplaukia, kad naudojamos abėcėlės dydis (galia) yra 2 16 = 65 536 simboliai.

Apimties metodas informatikos kursuose vidurinėje mokykloje

Studijuojant informatiką 10–11 klasėse pagrindinio bendrojo ugdymo lygmenyje, galima palikti mokinių žinias apie tūrinį informacijos matavimo metodą tame pačiame lygyje, kaip aprašyta aukščiau, t.y. dvejetainio kompiuterio kodo apimties kontekste.

Studijuojant informatiką profilio lygmeniu, tūrinis požiūris turėtų būti vertinamas iš bendresnės matematinės perspektyvos, pasitelkiant idėjas apie simbolių dažnumą tekste, tikimybes ir tikimybių ryšį su simbolių informacijos svoriais.

Žinios apie šias problemas yra svarbios norint geriau suprasti vienodos ir nevienodos dvejetainės koduotės naudojimo skirtumus (žr. „Informacijos kodavimas“), suprasti kai kuriuos duomenų glaudinimo būdus (žr „Duomenų suspaudimas“) ir kriptografijos algoritmus (žr. "Kriptografija" ).

4 pavyzdys. MUMU genties abėcėlė turi tik 4 raides (A, U, M, K), žodžiams atskirti naudojamas vienas skyrybos ženklas (taškas) ir tarpas. Paskaičiuota, kad populiariame romane „Mumuka“ yra tik 10 000 simbolių, iš kurių: raidės A - 4000, raidės U - 1000, raidės M - 2000, raidės K - 1500, taškai - 500, tarpai - 1000. Kiek informacijos joje yra knyga?

Sprendimas. Kadangi knygos apimtis gana didelė, galime daryti prielaidą, kad iš jo apskaičiuotas kiekvieno abėcėlės simbolio atsiradimo dažnis tekste būdingas bet kokiam tekstui MUMU kalba. Apskaičiuokime kiekvieno simbolio pasireiškimo dažnumą visame knygos tekste (t.y. tikimybę) ir simbolių informacinius svorius.

Bendrą informacijos kiekį knygoje apskaičiuojame kaip kiekvieno simbolio informacinio svorio sandaugų ir šio simbolio pasikartojimų knygoje skaičių:

Dalintis