컴퓨터 과학에서 정보량은 어떻게 지정되나요? 메시지의 정보량 결정

수업의 목적:

  1. 정보의 양을 결정하는 알파벳순 접근 방식에 대한 아이디어를 얻으십시오.
  2. 정보 메시지 수, 메시지 내 정보량을 결정하는 공식을 알아보세요.
  3. 정보 메시지의 수와 수신된 메시지가 전달하는 정보의 양을 결정하기 위해 문제를 해결할 수 있습니다.

수업 중에는

1. 지식 업데이트:

여러분, 창밖으로 보이는 것을 볼까요? 자연에 대해 무엇을 말할 수 있습니까? (겨울이 왔습니다.)
-그런데 왜 겨울이 왔다고 결정했나요? (춥다, 눈이 온다.)
-그러나 이것이 겨울의 징조라는 기록은 어디에도 없습니다. (그러나 우리는 그것이 무엇을 의미하는지 알고 있습니다: 겨울이 왔습니다.)

그러므로 우리가 주변 현실에서 추출하는 지식은 다음과 같다. 정보. (슬라이드 1)

워밍업하세요.

표를 작성하고 화살표를 사용하여 일치하는 항목을 표시하세요.

정보의 양을 측정하는 것이 가능하며, 어떻게 측정할 수 있나요? (예)

정보도 측정할 수 있고 그 양을 찾을 수도 있다는 것이 밝혀졌습니다.

정보를 측정하는 방법에는 두 가지가 있습니다. 오늘은 그 중 한 명을 만나보겠습니다. (응용프로그램을 보세요. 슬라이드 2)

2. 새로운 자료를 연구합니다.

정보의 양은 어떻게 알 수 있나요?

예를 살펴보겠습니다.

러시아어로 작성된 짧은 텍스트가 있습니다. 러시아어 알파벳 문자, 숫자 및 구두점으로 구성됩니다. 단순화를 위해 문자가 텍스트에 동일한 확률로 존재한다고 가정합니다.

텍스트에 사용된 문자 집합을 이라고 합니다. 알파벳.

컴퓨터 과학에서 알파벳은 문자뿐만 아니라 숫자, 구두점 및 기타 특수 문자도 의미합니다.

알파벳에는 크기가 있다 (전체 문자 수)라고 불리는 알파벳의 힘.알파벳 접근 방식을 사용하면 텍스트의 각 문자에 특정 "정보 가중치"가 있다고 믿어집니다. 알파벳의 힘이 커질수록 이 알파벳 기호의 정보 가중치도 커집니다.

알파벳의 힘을 N으로 표시해 보겠습니다.

기호의 정보가중치(i)와 알파벳의 거듭제곱(N) 사이의 관계를 찾아보자. 가장 작은 알파벳은 "0"과 "1"로 지정된 2개의 문자로 구성됩니다. 이진 알파벳 기호의 정보 가중치를 정보의 단위로 취하여 1비트라 한다. (첨부 파일을 참조 슬라이드 3)

N 2 4 8 16 32 64 128 256
1비트 2비트 3비트 4비트 5비트 6비트 7비트 8비트

컴퓨터는 또한 컴퓨터라고 할 수 있는 자체 알파벳을 사용합니다. 포함되는 문자 수는 256자입니다. 이것이 컴퓨터 알파벳의 힘이다.

또한 8비트를 사용하여 256개의 서로 다른 문자를 인코딩할 수 있다는 사실도 발견했습니다.

8비트는 고유한 이름이 붙을 정도로 특징적인 값입니다. 바이트.

1바이트 = 8비트

이 사실을 이용하면 대부분의 기사, 서적, 출판물 등을 고려하여 컴퓨터 텍스트, 즉 컴퓨터를 사용하여 입력한 텍스트에 포함된 정보의 양을 빠르게 계산할 수 있습니다. 텍스트 편집기를 사용하여 작성한 다음 유사한 방식으로 생성된 모든 메시지의 정보량을 찾을 수 있습니다.

슬라이드의 알파벳 접근 방식의 관점에서 정보를 측정하는 규칙을 살펴보겠습니다. (첨부 파일을 참조 슬라이드 4)

예:

컴퓨터 텍스트 페이지의 정보량을 찾으십시오.

해결책:

규칙을 활용해보자.

1. 검정력 찾기: N=256
2. 한 캐릭터의 정보량 찾기: N= 2i i = 8비트 = 1바이트.
3. 페이지의 문자 수를 찾으십시오. 약.

(한 줄의 문자 수를 구하고 줄 수를 곱합니다)

설명:

아이들이 임의의 문자열을 선택하고 모든 구두점과 공백을 고려하여 그 안의 문자 수를 세게 하세요.

40자 * 50줄 = 2000자.

4. 전체 페이지의 정보량을 구합니다: 2000 * 1 = 2000바이트

바이트는 정보의 작은 단위라는 점에 동의합니다. 많은 양의 정보를 측정하기 위해서는 다음과 같은 단위를 사용합니다. (첨부 파일을 참조 슬라이드5)

3. 연구 자료의 통합.

책상 위에:

빈칸에 숫자를 채우고 정확성을 확인하세요.

1KB = ___ 바이트 = ______비트,
2KB = _____ 바이트 =______ 비트,
24576비트 =_____바이트 =_____KB,
512KB = ___바이트 = ____비트.

학생들에게는 다음과 같은 과제가 제공됩니다.

1) 메시지는 8자리의 알파벳을 사용하여 작성됩니다. 이 알파벳 한 글자에는 얼마나 많은 정보가 담겨 있습니까?

해결책: N=8, 그러면 i= 3비트

2) 128자의 알파벳으로 작성된 메시지는 30자를 포함합니다. 얼마나 많은 정보를 담고 있나요?

1. N= 128, K=30
2. N= 2 나는 = 7비트 (한 글자 분량)
3. I = 30*7 = 210비트 (전체 메시지의 양)

4. 창의적인 작업.

정보량이 240바이트인 컴퓨터에 텍스트를 입력합니다.

5. 수업 요약.

오늘 수업에서 우리는 어떤 새로운 것을 배웠나요?
- 알파벳의 관점에서 정보의 양은 어떻게 결정되는가?
- 알파벳의 힘을 찾는 방법은 무엇입니까?
- 1바이트는 무엇인가요?

6. 숙제 (첨부 파일을 참조 슬라이드 6).

알파벳순 접근 방식으로 정보를 측정하는 규칙을 알아보세요.

정보 측정 단위를 알아보세요.

문제를 해결하다:

1) 일부 알파벳의 용량은 64자입니다. 100자로 구성된 텍스트의 정보량은 얼마나 될까요?
2) 메시지의 정보량은 4096비트이다. 1024자를 포함합니다. 이 메시지를 구성하는 알파벳의 힘은 무엇입니까?

정보의 양

지식의 불확실성을 줄이기 위한 척도로서의 정보의 양.
(정보량을 결정하는 실질적인 접근 방식)

주변 세계를 인식하는 과정은 지식(사실, 과학 이론 등)의 형태로 정보의 축적으로 이어집니다. 새로운 정보를 얻으면 지식이 확장되거나 때로는 지식의 불확실성이 줄어듭니다. 일부 메시지가 우리 지식의 불확실성을 감소시키는 경우 해당 메시지에 정보가 포함되어 있다고 말할 수 있습니다.

예를 들어, 시험을 본 후나 시험을 마친 후에는 자신이 어떤 성적을 받았는지 알 수 없는 불확실성에 시달립니다. 마지막으로 교사가 결과를 발표하면 "통과" 또는 "실패"라는 두 가지 정보 메시지 중 하나를 받게 되며, 시험 후에는 "2", "3", "4" 또는 "5"라는 네 가지 정보 메시지 중 하나를 받게 됩니다. ".

발표테스트 평가에 대한 정보를 얻으면 두 가지 가능한 정보 메시지 중 하나가 수신되므로 지식의 불확실성이 절반으로 줄어듭니다. 시험 성적에 대한 정보 메시지는 네 가지 가능한 정보 메시지 중 하나를 수신하므로 지식의 불확실성이 4배 감소합니다.

초기 상황이 더 불확실할수록( 많은 분량정보 메시지가 가능함), 정보 메시지를 받을 때 더 많은 새로운 정보를 받게 됩니다(지식의 불확실성이 더 많이 감소합니다).

정보의 양정보 메시지를 수신할 때 지식의 불확실성을 줄이는 척도로 간주될 수 있습니다.

지식의 불확실성을 줄이는 척도로서 위에서 논의한 정보에 대한 접근 방식을 통해 정보를 정량적으로 측정할 수 있습니다. 가능한 정보 메시지 수 N과 수신된 메시지가 전달하는 정보의 양을 연관시키는 공식이 있습니다.

N=2 나는 (1.1)

조금. 수량을 정량화하려면 먼저 측정 단위를 결정해야 합니다. 따라서 길이를 측정하려면 미터가 단위로 선택되고, 질량(킬로그램) 등을 측정하려면 측정 단위가 선택됩니다. 마찬가지로 정보의 양을 결정하려면 측정 단위를 입력해야 합니다.

뒤에 정보량의 단위정보 메시지에 포함된 정보의 양이 수용되어 지식의 불확실성이 절반으로 줄어듭니다. 이 단위는 조금.

위에서 논의한 테스트 결과에 대한 정보 메시지 수신으로 돌아가면 여기에서 불확실성이 절반으로 줄어들므로 메시지가 전달하는 정보의 양은 1비트와 같습니다.

정보의 양을 측정하기 위해 파생된 단위입니다.정보량을 측정하는 가장 작은 단위는 비트이고, 그 다음으로 큰 단위는 바이트입니다.

1바이트 = 8비트 = 2 3비트.

컴퓨터 과학에서 여러 측정 단위를 구성하는 시스템은 대부분의 과학에서 허용되는 시스템과 다소 다릅니다. 전통적인 미터법 단위 체계. 국제 시스템 SI 단위, 계수 10n은 여러 단위의 승수로 사용됩니다. 여기서 n = 3, 6, 9 등은 소수 접두사 "Kilo"(10 3), "Mega"(10 6), "에 해당합니다. 기가'(10·9) 등

컴퓨터에서는 정보가 이진 기호 시스템을 사용하여 인코딩되므로 정보량을 측정하는 여러 단위에서 2n의 계수가 사용됩니다.

따라서 바이트의 배수인 정보량의 측정 단위는 다음과 같이 입력됩니다.

1킬로바이트(KB) = 2 10바이트 = 1024바이트;

1메가바이트(MB) = 2 10KB = 1024KB;

1기가바이트(GB) = 2 10MB = 1024MB.

통제 질문

    1. 지식의 불확실성을 줄이는 정보 메시지의 예를 제시하십시오.
    2. 1비트의 정보를 전달하는 정보 메시지의 예를 들어보세요.

정보의 양 결정

정보 메시지의 수를 결정합니다.공식 (1.1)을 사용하면 정보의 양을 알고 있는 경우 가능한 정보 메시지의 수를 쉽게 결정할 수 있습니다. 예를 들어, 시험에서 시험 카드를 보면 교사는 그 숫자에 대한 시각적 정보 메시지가 5비트 정보를 전달한다고 알려줍니다. 시험 티켓 수를 결정하려면 공식 (1.1)을 사용하여 해당 번호에 대해 가능한 정보 메시지 수를 결정하는 것으로 충분합니다.

따라서 시험 티켓 수는 32 장입니다.

정보의 양을 결정합니다.반대로 정보 메시지의 가능한 수 N을 알고 있다면 메시지에 포함된 정보의 양을 결정하려면 I에 대한 방정식을 풀어야 합니다.

로봇의 움직임을 제어하고 "북쪽", "북동쪽", "동쪽", "남동쪽", "남쪽", "남서쪽", "서쪽" 및 " 등의 정보 메시지를 사용하여 로봇의 이동 방향을 설정할 수 있다고 상상해 보십시오. 북서쪽"(그림 1.11). 각 메시지 후에 로봇은 얼마나 많은 정보를 수신하게 됩니까?

8개의 가능한 정보 메시지가 있으므로 공식(1.1)은 I에 대한 방정식 형식을 취합니다.

방정식의 왼쪽에 있는 숫자 8을 인수분해하여 거듭제곱 형태로 표현해 보겠습니다.

8 = 2 × 2 × 2 = 2 3 .

우리의 방정식:

방정식의 좌변과 우변이 같다는 것은 숫자 2의 지수가 같으면 참이므로 I = 3비트, 즉 각 정보 메시지가 로봇에게 전달하는 정보의 양은 3비트와 같습니다.

정보의 양을 결정하는 알파벳순 접근 방식

정보의 양을 결정하는 알파벳순 접근 방식을 사용하면 정보의 내용을 추상화하고 정보 메시지를 특정 기호 시스템의 일련의 기호로 간주합니다.

간판의 정보용량. 정보 전송 채널을 통해 발신자로부터 수신자에게 정보 메시지를 전송해야 한다고 가정해 보겠습니다. N 문자(1, ..., N)로 구성된 알파벳의 기호 시스템을 사용하여 메시지를 인코딩합니다. 가장 간단한 경우, 메시지 코드의 길이가 한 문자일 때 발신자는 N개의 가능한 메시지 "1", "2", ..., "N" 중 하나를 보낼 수 있으며, 이는 I( 그림 1.5).

쌀. 1.5. 정보 이전

공식 (1.1)은 가능한 정보 메시지의 수 N과 수신된 메시지가 전달하는 정보의 양과 관련이 있습니다. 그런 다음 고려중인 상황에서 N은 기호 시스템의 알파벳 기호 수이고 I는 각 기호가 전달하는 정보의 양입니다.

예를 들어 이 공식을 사용하면 이진 기호 시스템에서 기호가 전달하는 정보의 양을 결정할 수 있습니다.

N = 2 => 2 = 2 I => 2 1 = 2 I => I=1비트.

따라서 이진 부호화 시스템에서 부호는 1비트의 정보를 전달합니다. 정보량 "비트"(비트)의 측정 단위가 영어 문구 "Binary digit"- "binary digit"에서 이름을 얻었다는 것이 흥미 롭습니다.

이진 기호 체계의 기호 정보 용량은 다음과 같습니다. 1비트.

기호 시스템의 알파벳에 포함된 기호의 수가 많을수록 하나의 기호가 전달하는 정보의 양도 더 많아집니다. 예를 들어, 러시아 알파벳 문자에 포함된 정보의 양을 결정하겠습니다. 러시아 알파벳에는 33개의 문자가 포함되어 있지만 실제로는 메시지를 전달하는 데 32개의 문자만 사용되는 경우가 많습니다(“ё” 문자는 제외).

공식 (1.1)을 사용하여 러시아 알파벳 문자에 포함된 정보의 양을 결정합니다.

N = 32 => 32 = 2 I => 2 5 = 2 I => I=5비트.

따라서 러시아 알파벳 문자는 5비트의 정보를 전달합니다(정보의 양을 측정하는 알파벳 접근 방식 사용).

표지판이 전달하는 정보의 양은 수신 가능성에 따라 달라집니다. 수신자가 어떤 신호가 올지 정확히 알고 있다면 수신되는 정보의 양은 0이 됩니다. 반대로 신호를 받을 확률이 낮을수록 정보 용량이 커집니다.

러시아어 작문에서는 텍스트에 문자가 사용되는 빈도가 다르기 때문에 평균적으로 의미 있는 텍스트의 1000자당 "a" 문자는 200개이고 "f" 문자 수는 100배 적습니다(단 2개). . 따라서 정보 이론의 관점에서 보면 러시아 알파벳 문자의 정보 용량이 다릅니다 (문자 "a"가 가장 작고 문자 "f"가 가장 큽니다).

메시지에 포함된 정보의 양.메시지는 일련의 문자로 구성되며 각 문자에는 특정 양의 정보가 포함됩니다.

기호가 동일한 양의 정보를 전달하는 경우 메시지의 정보 I c 의 양은 하나의 기호가 전달하는 정보의 양 I z 에 코드 길이(메시지의 문자 수) K를 곱하여 계산할 수 있습니다.

나는 c = 나 × K

따라서 이진 컴퓨터 코드의 각 숫자는 1비트의 정보를 전달합니다. 결과적으로 두 자리는 2비트, 세 자리는 3비트 등으로 정보를 전달합니다. 비트 단위의 정보 양은 이진 컴퓨터 코드의 자릿수와 같습니다(표 1.1).

표 1.1. 이진 컴퓨터 코드가 전달하는 정보의 양

주제: "정보 측정"

방식

메시지의 정보량을 결정하려면 두 가지 공식이 필요합니다.

1. \(N= 2^i\)

N - 알파벳의 힘

2. \(I = k * i \) ​

나- 정보량메시지

k - 메시지의 문자 수

i - 알파벳 한 문자의 정보량

k를 찾는 공식:

i를 찾는 공식:

작업

작업 번호 1. 128자의 알파벳으로 작성된 메시지에는 30자가 포함됩니다. 전체 메시지의 정보량을 찾으십니까?

해결책.

\(나 = ? \) ​

\(i = ? \) ​

\(N= 2^i \) = \(128= 2^7 \)

\(i = 7 \)​ 비트. 2의 거듭제곱은 알파벳 한 글자의 무게입니다.다음으로 다음 공식을 사용하여 메시지의 정보량을 결정합니다.

\(I = k * i \) ​ = 30 * 7 = 210비트

답: 210비트

작업 번호 2. 4KB 정보 메시지에는 4096자가 포함됩니다. 이 메시지에 쓰여진 알파벳은 몇 글자입니까?

해결책.문제의 조건에 따라 주어지는 것과 찾아야 할 것은 무엇인지 적어보자.

\(I = 4\) ​ KB

\(N = ? \) ​

\(i = ? \) ​

모든 숫자를 2의 거듭제곱으로 변환하는 것이 매우 중요합니다.

1KB = \(2^(13)\) 비트

\(I = 4 \) ​ KB = \(2^2 \) * \(2^(13) \) = \(2^(15) \) 비트

k = 4096 = \(2^(12)\)

먼저 다음 공식을 사용하여 한 문자의 무게를 구해 보겠습니다.

\(i = \frac(\mathrm I)(\mathrm k) \)​ = \(2^(15) \) : \(2^(12) \) = \(2^3 \) = 8비트

\(N= 2^i \) \(2^8 =256\)

답: 알파벳 256자입니다.

작업 번호 3. 16자 알파벳을 사용하여 작성된 메시지의 크기가 1/16MB라면 몇 글자가 포함됩니까?

해결책.문제의 조건에 따라 주어지는 것과 찾아야 할 것은 무엇인지 적어보자.

​MB

\(k = ? \) ​

\(i = ? \) ​

상상해보자 \(I = \frac(\mathrm 1)(\mathrm 16) \)​ MB의 2승:

1MB = \(2^(23)\) 비트

\(I = \frac(\mathrm 1)(\mathrm 16) \)​ MB = \(2^(23) \) : ​\(2^4 \) = \(2^(19) \) 비트.

먼저 다음 공식을 사용하여 한 문자의 무게를 구해 보겠습니다.

\(N= 2^i \) = \(2^4 = 16 \)

\(i = 4 \)​ 비트 = \(2^2 \)

이제 메시지 k의 문자 수를 찾아보겠습니다.

\(k = \frac(\mathrm I)(\mathrm i) \)​ = \(2^{19} \) ​ : \(2^2 \) = \(2^{17} \) = 131072

답변: 메시지당 131072자입니다.

텍스트의 정보량 및 정보 측정 단위


현대 컴퓨터는 숫자, 텍스트, 그래픽, 사운드 및 비디오 정보를 처리할 수 있습니다. 컴퓨터의 이러한 모든 유형의 정보는 이진 코드로 표시됩니다(예: 0과 1 두 문자만 사용됨). 이는 일련의 전기 충격 형태로 정보를 표시하는 것이 편리하기 때문입니다. 충동이 없음(0), 충동이 있음(1).

이러한 코딩을 일반적으로 이진수라고 하며, 0과 1의 논리적 시퀀스 자체를 기계어라고 합니다.

컴퓨터 키보드의 문자를 인코딩하는 데 사용할 수 있는 이진 코드는 얼마나 길어야 합니까?

따라서, 충분한 알파벳 중 한 문자의 정보 가중치는 1바이트이다..

큰 정보량을 측정하려면 더 큰 정보 단위가 사용됩니다.

정보량을 측정하는 단위:

1바이트 = 8비트

1킬로바이트 = 1KB = 1024바이트

1MB = 1MB = 1024KB

1기가바이트 = 1GB = 1024GB

텍스트의 정보량

1. 책 속 등장인물 수:

60 * 40 * 150 = 360,000자.

2. 왜냐하면 문자 1개의 무게는 1바이트이며, 책의 정보량은

360,000바이트.

3. 바이트를 더 큰 단위로 변환해 보겠습니다.

360,000 / 1024 = 351.56KB

351.56 / 1024 = 0.34MB

답변: 텍스트의 정보량은 0.34MB입니다.

일:

컴퓨터를 사용하여 작성한 텍스트의 정보량은 3.5KB입니다. 이 텍스트에는 몇 개의 문자가 포함되어 있나요?

1. 볼륨을 MB에서 바이트로 변환해 보겠습니다.

3.5MB * 1024 = 3584KB

3584KB * 1024 = 3,670,016바이트

2. 왜냐하면 1문자의 무게는 1바이트이며, 텍스트의 문자 수는

측정에는 알파벳순 접근 방식이 사용됩니다. 정보의 양일부 알파벳의 일련의 문자로 표시되는 텍스트에서. 이 접근 방식은 텍스트의 내용과 관련이 없습니다.이 경우 정보의 양을 이라고 합니다. 텍스트의 정보량, 이는 텍스트의 크기(텍스트를 구성하는 문자 수)에 비례합니다. 정보 측정에 대한 이러한 접근 방식을 체적 접근 방식이라고도 합니다.

텍스트의 각 문자는 일정량의 정보를 전달합니다. 그는 불린다 기호의 정보 가중치. 따라서 텍스트의 정보량은 텍스트를 구성하는 모든 문자의 정보 가중치의 합과 같습니다.

여기서는 텍스트가 번호가 매겨진 문자의 순차적인 체인이라고 가정합니다. 식(1)에서 1 는 텍스트의 첫 번째 문자의 정보 가중치를 나타내며, 2 - 텍스트의 두 번째 문자 등의 정보 가중치; 케이- 텍스트 크기, 즉 텍스트의 총 문자 수입니다.

텍스트를 작성하는 데 사용되는 다양한 기호, 라고 불리는 알파벳. 알파벳의 크기는 정수입니다. 알파벳의 힘. 알파벳에는 특정 언어의 문자뿐만 아니라 텍스트에 사용할 수 있는 기타 모든 기호(숫자, 구두점, 다양한 괄호, 공백 등)가 포함된다는 점을 명심해야 합니다.

기호의 정보 가중치 결정은 두 가지 근사치로 발생할 수 있습니다.

1) 텍스트의 모든 문자가 동일한 확률(동일한 발생 빈도)로 가정합니다.

2) 텍스트에 있는 다양한 문자의 다양한 확률(다양한 발생 빈도)을 고려합니다.

텍스트의 문자가 동일 확률로 근사화됨

어떤 텍스트의 모든 알파벳 문자가 동일한 빈도로 나타난다고 가정하면 모든 문자의 정보 가중치는 동일합니다. 허락하다 N- 알파벳의 힘. 그런 다음 텍스트에 있는 문자의 분수는 1/입니다. N텍스트의 번째 부분입니다. 확률의 정의에 따르면(참조 ) 이 값은 각 텍스트 위치에 문자가 나타날 확률과 같습니다.

= 1/N

K. Shannon의 공식에 따르면(참조. “정보를 측정합니다. 콘텐츠 접근”), 기호가 전달하는 정보의 양은 다음과 같이 계산됩니다.

나는 = log2(1/ ) = 로그2 N(조금) (2)

따라서 기호의 정보가중치( ) 및 알파벳 거듭제곱( N)는 Hartley의 공식에 따라 서로 관련되어 있습니다(“참조). 정보를 측정합니다. 콘텐츠 접근” )

2 = N.

한 문자의 정보 가중치를 아는 것( ) 및 문자 수로 표시되는 텍스트 크기( 케이) 다음 공식을 사용하여 텍스트의 정보량을 계산할 수 있습니다.

나 = 케이 · (3)

이 공식은 모든 기호가 동일한 정보 가중치를 갖는 경우 공식 (1)의 특수 버전입니다.

공식 (2)로부터 다음과 같은 결과가 나옵니다. N= 2(이진 알파벳) 한 문자의 정보 가중치는 1비트이다.

정보 측정에 대한 알파벳순 접근 방식의 관점에서1비트 -이는 이진 알파벳 문자의 정보 가중치입니다.

정보 측정의 더 큰 단위는 바이트.

1바이트 -이는 256의 거듭제곱을 갖는 알파벳 기호의 정보 가중치입니다.

256 = 2 8이므로 비트와 바이트 사이의 관계는 Hartley의 공식을 따릅니다.

2 = 256 = 2 8

여기에서: = 8비트 = 1바이트

컴퓨터에 저장되고 처리되는 텍스트를 표현하기 위해서는 256자 이내의 알파벳이 가장 많이 사용된다. 따라서,
해당 텍스트의 한 문자는 1바이트의 "무게"를 갖습니다.

비트와 바이트 외에도 더 큰 단위도 정보를 측정하는 데 사용됩니다.

1KB(킬로바이트) = 2 10바이트 = 1024바이트,

1MB(메가바이트) = 2 10KB = 1024KB,

1GB(기가바이트) = 2 10MB = 1024MB.

텍스트에서 문자가 나타날 다양한 확률의 근사치

이 근사치는 실제 텍스트에서 서로 다른 문자가 서로 다른 빈도로 발생한다는 점을 고려합니다. 따라서 텍스트의 특정 위치에 다른 문자가 나타날 확률이 다르므로 정보 가중치도 다릅니다.

러시아어 텍스트에 대한 통계적 분석에 따르면 문자 "o"의 발생 빈도는 0.09입니다. 즉, 100자마다 문자 "o"가 평균 9번 나타납니다. 같은 숫자는 텍스트의 특정 위치에 문자 "o"가 나타날 확률을 나타냅니다. o = 0.09. 러시아어 텍스트에서 문자 "o"의 정보 가중치는 다음과 같습니다.

텍스트에서 가장 희귀한 문자는 문자 "f"입니다. 빈도는 0.002입니다. 여기에서:

이는 질적인 결론으로 ​​이어진다. 즉, 희귀한 문자의 정보 가중치가 자주 발생하는 문자의 가중치보다 크다는 것이다.

알파벳 문자의 다양한 정보 가중치를 고려하여 텍스트의 정보량을 계산하는 방법은 무엇입니까? 이는 다음 공식에 따라 수행됩니다.

여기 N- 알파벳의 크기(제곱) nj- 기호 번호의 반복 횟수 제이본문에서; 나는 j- 기호번호의 정보 가중치 제이.

컴퓨터 과학 과정의 알파벳순 접근 방식은 학교의 기초입니다.

기본 학교의 컴퓨터 과학 과정에서 정보 측정에 대한 알파벳순 접근 방식에 대한 학생들의 소개는 정보의 컴퓨터 표현이라는 맥락에서 가장 자주 발생합니다. 주요 진술은 다음과 같습니다.

정보의 양은 이 정보가 표현되는 바이너리 코드의 크기로 측정됩니다.

어떤 형태의 정보라도 제시되기 때문에 컴퓨터 메모리이진 코드 형식에서는 이 정의가 보편적입니다. 기호, 숫자, 그래픽 및 오디오 정보에 유효합니다.

하나의 기호( 해고하다)바이너리 코드는 1정보가 좀.

텍스트의 정보량을 측정하는 방법을 설명할 때 기본 코스컴퓨터 과학 이 질문다음과 같은 일련의 개념을 통해 드러납니다. 알파벳-문자 바이너리 코드 크기-텍스트의 정보량.

추론의 논리는 일반적인 규칙을 얻기 위해 특정한 예를 통해 전개됩니다. 특정 언어의 알파벳은 4글자로만 구성됩니다. , , , 로 표시해 보겠습니다. 이러한 기호는 - 00, - 01, - 10, - 11의 네 개의 두 자리 이진 코드를 사용하여 인코딩될 수 있습니다. 여기서는 두 기호 배치의 모든 변형이 사용되며 그 수는 2 2 = 4입니다. 따라서 결론은 다음과 같습니다. 그려짐: 기호의 정보 가중치는 4자리 알파벳이 2비트와 같습니다.

다음 특별한 경우는 8자 알파벳으로, 각 문자는 3비트 이진 코드로 인코딩될 수 있습니다. 왜냐하면 3개 그룹의 두 문자 배치 수가 2 3 = 8이기 때문입니다. 따라서 정보 가중치는 8자리 알파벳의 문자는 3비트입니다. 등.

특정 예를 일반화하면 다음과 같은 일반 규칙을 얻을 수 있습니다. 비-비트 이진 코드는 다음으로 구성된 알파벳을 인코딩할 수 있습니다. N = 2 - 상징.

예시 1.텍스트를 작성하려면 러시아어 알파벳의 소문자와 "공백"만 단어를 구분하는 데 사용됩니다. 2000자(인쇄된 페이지 1페이지)로 구성된 텍스트의 정보량은 얼마입니까?

해결책.러시아 알파벳에는 33개의 글자가 있습니다. 문자 두 개(예: "е" 및 "й")를 줄이고 공백 문자를 도입하면 매우 편리한 문자 수인 32개를 얻을 수 있습니다. 문자의 등확률 근사치를 사용하여 Hartley의 공식을 작성합니다.

2= 32 = 2 5

여기에서: = 5비트 - 러시아어 알파벳의 각 문자에 대한 정보 가중치입니다. 그러면 전체 텍스트의 정보량은 다음과 같습니다.

= 2000 5 = 10,000 조금

예시 2. 256자 용량의 텍스트를 컴퓨터로 표현한 알파벳을 사용하여 기록된 2000자 텍스트의 정보량을 계산합니다.

해결책.이 알파벳에서 각 문자의 정보 가중치는 1바이트(8비트)이다. 따라서 텍스트의 정보량은 2000바이트이다.

이 주제에 대한 실제 과제에서는 정보의 양을 정보로 변환하는 학생들의 기술을 연습하는 것이 중요합니다. 다른 단위: 비트 - 바이트 - 킬로바이트 - 메가바이트 - 기가바이트. 예제 2의 텍스트 정보량을 킬로바이트로 다시 계산하면 다음과 같은 결과를 얻습니다.

2000바이트 = 2000/1024 1.9531KB

예시 3. 2048자를 포함하는 메시지 크기는 1MB의 1/512입니다. 메시지를 쓰는 알파벳의 크기는 얼마입니까?

해결책.메시지의 정보량을 메가바이트에서 비트로 변환해 보겠습니다. 이렇게 하려면 이 값에 1024(바이트를 얻음)를 두 번 곱하고 8을 한 번 곱합니다.

= 1/512 · 1024 · 1024 · 8 = 16,384비트.

이러한 양의 정보는 1024자( 에게), 문자별로 다음이 있습니다.

= /케이= 16,384/1024 = 16비트.

사용되는 알파벳의 크기(제곱수)는 2 16 = 65,536 자입니다.

고등학교 컴퓨터 과학 과정의 볼륨 접근 방식

기본적인 일반 교육 수준에서 10~11학년의 컴퓨터 과학을 공부함으로써 위에서 설명한 것과 동일한 수준에서 정보 측정에 대한 체적 접근 방식에 대한 학생들의 지식을 남길 수 있습니다. 이진 컴퓨터 코드의 양과 관련하여.

프로필 수준에서 컴퓨터 과학을 연구할 때 텍스트의 문자 빈도, 확률 및 문자의 정보 가중치와 확률의 연결에 대한 아이디어를 사용하여 보다 일반적인 수학적 관점에서 체적 접근 방식을 고려해야 합니다.

이러한 문제에 대한 지식은 균일 및 비균일 이진 인코딩 사용의 차이점을 더 깊이 이해하는 데 중요한 것으로 나타났습니다(참조: “정보 인코딩”), 일부 데이터 압축 기술을 이해하려면(참조 "데이터 압축") 및 암호화 알고리즘(참조: "암호화" ).

예시 4. MUMU 부족의 알파벳은 4글자(A, U, M, K)와 구두점(점) 1개로 이루어져 있으며 단어를 구분하는 데 공백이 사용됩니다. 인기 소설 "Mumuka"에는 문자 A - 4000, 문자 U - 1000, 문자 M - 2000, 문자 K - 1500, 점 - 500, 공백 - 1000 등 10,000자만 포함되어 있는 것으로 계산되었습니다. 얼마나 많은 정보가 그것은 포함되어 있습니까? 책?

해결책.책의 양이 상당히 크기 때문에 계산된 텍스트에서 각 알파벳 기호의 발생 빈도는 MUMU 언어의 모든 텍스트에서 일반적이라고 가정할 수 있습니다. 책 전체 본문에서 각 기호가 나타나는 빈도(즉, 확률)와 기호의 정보 가중치를 계산해보자

책에 있는 정보의 총량은 각 기호의 정보 가중치와 책에서 이 기호의 반복 횟수를 곱한 값의 합으로 계산됩니다.

공유하다