Hartley에 대한 정보의 양을 결정합니다. "Hartley-Shannon 공식" 주제에 대한 기본 요약

60. 정보 측정 – 확률적 및 알파벳순 접근 방식. 하틀리와 섀넌의 공식. 예MS와 함께엘자.

불확실성이 제거된 정보라는 관점에서 보면, 정보의 양이벤트에 대한 메시지의 내용은 해당 이벤트가 발생할 확률에 따라 달라집니다.

메시지 평가에 대한 과학적 접근 방식은 1928년 R. Hartley에 의해 제안되었습니다. 계획된 등확률 사건에 대한 하틀리의 공식형식은 다음과 같습니다.

= 통나무 2 N또는 2 = N,

여기서 N은 숫자입니다. 똑같이 가능성이 있는이벤트(가능한 선택 수), I - 정보의 양.

N = 2(두 가지 가능성 중 선택)이면 I = 1비트입니다.

예시 1. Hartley의 공식을 사용하여 정보의 양을 계산합니다. 메시지는 몇 비트의 정보를 전달하는가?

기차가 8개 선로 중 하나에 도착하나요?

하틀리의 공식: = 통나무 2 N,

여기서 N은 사건의 동등하게 가능한 결과의 수입니다. 우리 얘기 중이야메시지에서,

I – 메시지에 포함된 정보의 양.

I = 로그 2 8 = 3(비트) 답: 3비트.

동일하지 않은 이벤트에 대해 Hartley 공식을 수정했습니다. N개의 가능한 사건이 각각 발생할 확률은 동일하므로

= 1 / N, 저것 N = 1 / 그리고 공식은 다음과 같습니다

I = 로그 2 N= 로그 2 (1/p) = - 로그 2 p

사건의 확률(p)과 사건에 대한 메시지의 정보량(I) 사이의 정량적 관계는 다음 공식으로 표현됩니다.

= 통나무 2 (1/ )

사건의 확률은 다음 공식을 사용하여 계산됩니다. = 케이/ N, K - 관심 있는 이벤트가 발생한 횟수를 나타내는 값입니다. N은 가능한 결과와 사건의 총 개수입니다. 확률이 감소하면 정보의 양이 증가합니다.

예시 2.수업에는 30 명이 있습니다. 수학 시험에서 나는 A 6개, B 15개, C 8개, D' 1개를 받았습니다. Ivanov가 "B"를 받았다는 메시지에는 몇 비트의 정보가 포함되어 있습니까?

답: 1비트.

Shannon의 공식을 사용합니다. N개 중 하나에 대한 메시지의 정보량을 계산하는 일반적인 경우이지만 확률은 동일하지 않습니다. 이 접근법은 1948년 K. Shannon에 의해 제안되었습니다.

기본 정보 단위:

수요일= -

의미 수요일 피 나는= 1 / N.

예시 3.무작위로 생성된 메시지 "헤드라이트"는 몇 비트의 정보를 전달합니까? 러시아어 텍스트의 평균 1,000자마다 문자 "a"가 200번 나타나고 문자 "f"가 2번, 문자 "r"이 40번 나타나는 경우 타임스.

메시지에 기호가 나타날 확률은 텍스트에 나타나는 빈도와 일치한다고 가정합니다. 따라서 문자 "a"가 다음과 같이 나타납니다. 평균 빈도 200/1000=0.2; 텍스트(p a)에 문자 "a"가 나타날 확률은 대략 0.2와 같다고 간주할 수 있습니다.

문자 "f"는 2/1000=0.002의 빈도로 나타납니다. 문자 "p" - 빈도는 40/1000=0.04입니다.

마찬가지로 p p = 0.04, p f = 0.002입니다. 다음으로 K. Shannon에 따라 진행합니다. 우리는 값 0.2의 이진 로그를 취하여 문제의 텍스트에서 단일 문자 "a"가 전달하는 정보의 양을 얻습니다. 각 문자에 대해 정확히 동일한 작업을 수행합니다. 그러면 한 글자가 전달하는 본질적인 정보의 양은 다음과 같습니다. 통나무 2 1/ 피 나는 = - 통나무 2 피 나는, 정보량의 척도로는 알파벳의 문자당 평균 정보량을 사용하는 것이 더 편리하다.

수요일= -

의미 수요일동일하게 일어날 수 있는 사건에 대해 최대값에 도달합니다. 즉, 모든 p i가 동일할 때입니다.

피 나는= 1 / N.

이 경우 Shannon의 공식은 Hartley의 공식으로 바뀌게 됩니다.

I = M*I 평균 =4*(-(0.002*로그 2 0.002+0.2* 로그 2 0.2+0.04* 로그 2 0.04+0.2* 로그 2 0.2))= 4*(-(0.002*(-8.967)+ 0.2*(-2.322)+0.04*(-4.644)+0.2*(-2.322)))=4*(-(-0.018-0 .46-0.19-0.46))=4*1.1325=4.53

답: 4.53비트

정보 측정에 대한 알파벳순 접근 방식

기술에서는 알파벳 접근 방식이 사용되는데, 이 경우 정보의 양은 내용에 따라 달라지지 않고 알파벳의 힘과 텍스트의 문자 수에 따라 달라집니다.

ASCII 인코딩의 경우 – 알파벳 거듭제곱=256

I=log 2 256=8(비트); 문자 정보를 코드로 인코딩할 때 공백, 문장 부호를 포함한 각 문자를 1바이트(8비트)로 인코딩합니다.

정보 측정 단위 컴퓨터 기술

1비트(기술적 접근 방식)

정보의 최소 단위

정보의 양은 정수 비트로만 측정됩니다.

1KB(킬로바이트)

2 10바이트 = 1024바이트

~ 1,000바이트

1MB(메가바이트)

2 10KB = 2 20바이트

~100만 바이트

1GB(기가바이트)

2 10MB = 2 30바이트

~10억 바이트

  • 3. 데이터 전송 기술. 이더넷, 토큰 링, ISDN, X.25, 프레임 릴레이.
  • 4. 게이트웨이 장치: 리피터, 브리지, 라우터, 게이트웨이. 스위칭 및 라우팅 방법. 네트워크 성능을 향상시키는 방법
  • 5. P2P 및 서버 네트워크: 비교 특성. 특수 서버의 주요 유형.
  • 6. 인터넷의 기술적 기반. 주소 지정 시스템(IP 주소, 도메인 이름, DNS 시스템). 네트워크의 기본 통신 프로토콜입니다.
  • 7. 인터넷 작업을 위한 기본 사용자 기술. WWW, FTP, TELNET, 이메일. 인터넷에서 정보를 검색합니다.
  • 9. 데이터베이스: 데이터, 데이터 모델, 데이터베이스, 데이터베이스 관리 시스템, 정보 시스템. 데이터 모델. 관계형 데이터 모델.
  • 12. 정보 시스템 설계. 수명주기 구조 및 모델.
  • 13. 기업 구조의 모델링 및 표현. IDEF0 다이어그램.
  • 14. 데이터 흐름의 모델링 및 표현. DFD 다이어그램.
  • 16. 전문가 시스템(ES): 개념, 목적, 아키텍처, 독특한 특징. ES의 분류. ES 개발 단계.
  • 17. 전문가 시스템의 지식 기반. 지식 표현 방법: 논리 모델, 생산 규칙, 프레임, 의미 네트워크.
  • 18 지식. 지식의 종류. 지식 추출 방법: 의사소통, 텍스트.
  • 19가지 프로그래밍 언어와 그 특징(Prolog, Delphi, C++).
  • 20. 프로그래밍 언어와 그 특성(PHP, Perl, JavaScript).
  • 21. 러시아 연방 정보 보안 보장의 목표, 목표, 원칙 및 주요 방향. 정보의 법적, 조직적, 엔지니어링 및 기술적 보호.
  • 22. 전자 출판물 : 개념, 구성. EI의 분류. EI 등록.
  • 23. 정보 자원: 개념, 구성. 주 정보 자원.
  • 24. 자원 관리 수단으로서의 개인용 컴퓨터 운영 체제(연구 중인 OS의 예 사용) OS 구조 및 구성 요소.
  • 25. 악성 소프트웨어: 분류, 탐지 및 제거 방법.
  • 26 웹 애플리케이션의 구조. HTTP 프로토콜. 쿠키. 웹 애플리케이션 기능. CGI 프로토콜.
  • 27 IS 운영의 신뢰성을 보장합니다. 업무. OLTP 시스템.
  • 28. 소프트웨어 제품의 인체공학적 목표 및 품질 지표.
  • 31. 정보 관리: 개념 및 주요 기능.
  • 33 소프트웨어 분야의 표준화. 소프트웨어 문서화 표준.
  • 34. 정보 시스템의 질적 및 양적 특성 평가. 소프트웨어 및 정보 지원의 신뢰성 특성을 평가하기 위한 모델. 정보 시스템의 신뢰성을 보장하기 위한 기본 개념, 지표 및 방법.
  • 36. 정보화 분야 혁신 프로그램 구현의 특징(정보화 분야 정보 정책의 특성, 프로젝트 구성 및 IS 구현 원칙, 정보화 프로젝트 관리).

주변 세계의 다양한 현상과 대상을 연구할 때 사람들은 숫자를 이러한 대상과 연관시키고 정량적 척도를 도입하려고 했습니다. 사람들은 거리를 측정하고, 다양한 물체의 무게를 측정하고, 체적 면적과 신체 부피를 계산하는 방법을 배웠습니다. 시간과 지속 시간을 측정하는 방법을 배운 후에도 우리는 여전히 그 본질을 이해하려고 노력하고 있습니다. 온도계는 과학자들이 측정 내용을 이해하기 수년 전에 발명되었습니다. 최초의 온도계 발명부터 열역학 개발까지 약 3세기가 흘렀습니다. 어떤 현상이나 사물에 대한 정량적 연구가 그 질적 연구에 앞서고, 해당 개념을 형성하는 과정이 정량적 연구 뒤에 올 수도 있다.

정보와 관련하여 유사한 상황이 발생했습니다. 1928년 R. Hartley, 1948년 K. Shannon은 정보량을 계산하는 공식을 제안했지만 정보가 무엇인지에 대한 질문에는 답하지 않았습니다. 의사소통 이론에서 정보는 다양한 메시지의 형태로 나타납니다. 예를 들어 전신의 경우 문자나 숫자, 전화나 라디오 방송의 경우 시간의 연속 함수로 나타납니다. 이러한 예에서 궁극적으로 작업은 전송하는 것입니다. 의미론적 내용인간의 말. 결과적으로, 인간의 말은 소리의 진동이나 글의 형태로 표현될 수 있습니다.

이는 이러한 유형의 정보의 또 다른 속성입니다. 동일한 의미 내용을 다양한 물리적 형태로 표현하는 능력입니다. W. Ashby는 이에 대해 처음으로 특별한 관심을 끌었습니다. 다양한 물리적 형태로 정보를 표현하는 것을 인코딩이라고 합니다. 다른 사람과 의사소통을 하기 위해서는 끊임없이 인코딩, 레코딩, 디코딩을 거쳐야 합니다. 대부분의 경우 통신 채널을 통해 정보가 전송될 수 있다는 것은 분명합니다. 다양한 시스템코딩.

R. Hartley는 정보 전달 이론에 "정보의 양 측정"방법론을 처음으로 도입했습니다. 동시에 R. Hartley는 자신이 측정하려는 정보가 "... 일반적인 합의에 따라 해당 당사자에게 알려진 의미를 갖는 단어, 점, 대시 등의 물리적 기호 그룹"이라고 믿었습니다. .” 따라서 Hartley는 인코딩된 정보를 측정하기 위한 일종의 측정 방법을 도입하는 임무를 스스로 설정했습니다.

n개의 문자 a 1 a 2 a 3 an의 시퀀스가 ​​전송된다고 가정합니다. 각 문자는 m 문자를 포함하는 알파벳 A m에 속합니다. 그러한 서열의 다양한 변이체의 수 K는 무엇입니까? n = 1(한 문자가 전송됨)이면 K = m입니다. n=2인 경우(2개의 문자 시퀀스가 ​​전송됨) K = m*m = m 2 ; 일반적인 경우 n개의 문자 시퀀스에 대해 우리는 다음을 얻습니다.


Hartley는 밑수 2에 대한 숫자 K의 로그와 같은 시퀀스에 포함된 정보의 양을 계산할 것을 제안했습니다.

I = 로그 2K, (2.1)

여기서 K = mn.

즉, Hartley의 공식에 따르면 알파벳 A m 의 n개 문자 시퀀스에 포함된 정보의 양은 다음과 같습니다.

I = 로그 2(mn) = n 로그 2m. (2.2)

비고 1. Hartley는 알파벳 Am의 모든 기호가 메시지의 어느 위치에서나 동일한 확률(빈도)로 나타날 수 있다고 가정했습니다. 이 조건은 자연어 알파벳의 경우 위반됩니다. 예를 들어 러시아어 알파벳의 모든 문자가 동일한 빈도로 텍스트에 나타나는 것은 아닙니다.

비고 2. 알파벳 A m으로 된 길이 n의 모든 메시지에는 동일한 양의 정보가 포함됩니다. 예를 들어, 알파벳(0; 1)에서 메시지 00111, 11001 및 10101에는 동일한 양의 정보가 포함됩니다. 이는 메시지에 포함된 정보의 양을 계산할 때 의미적 내용에서 주의가 산만해진다는 것을 의미합니다. "의미 있는" 메시지와 그로부터 임의의 기호 순열을 통해 파생된 메시지에는 동일한 양의 정보가 포함됩니다.

예. 전신 메시지는 점(.)과 대시(-)라는 두 가지 기호를 사용합니다. 알파벳은 m = 2자로 구성됩니다. 그러면 한 문자(n=1)를 전송할 때 정보량 I=Log2 2=1이 된다. 이 양을 정보량의 측정 단위로 삼아 1비트(영어로는 1bit)라 한다. 이진 단위 = 조금). 알파벳(. ; -)으로 된 전신 메시지에 n 문자가 포함되어 있으면 정보량 I = n Log 2 2 = n(비트)입니다.

기호 0과 1을 사용하여 정보는 컴퓨터에서 인코딩되어 컴퓨터로 전송됩니다. 컴퓨터 네트워크, 즉. 알파벳은 두 문자(0, 1)로 구성됩니다. 이 경우 하나의 기호에는 I = Log 2 2 = 1 비트의 정보도 포함되므로 Hartley의 공식(2.2)에 따라 알파벳(0; 1)으로 된 n 문자 길이의 메시지에는 n 비트의 정보가 포함됩니다.

33개 문자로 구성된 러시아어 알파벳 메시지 전송을 고려하면 하틀리의 공식을 사용하여 계산된 n 문자 메시지에 포함된 정보의 양은 I = n*Log 2 33 » n* 5.0444비트와 같습니다. . 영어 알파벳은 26개의 문자로 구성되며, 한 문자에는 Log 2 26 » 4.7비트가 포함됩니다. 따라서 Hartley의 공식을 사용하여 계산된 n 문자 메시지에는 n* Log 2 26 » 4.7 *n 비트의 정보가 포함됩니다. 그러나 모든 문자가 동일한 빈도로 텍스트에 나타나는 것은 아니기 때문에 이 결과는 올바르지 않습니다. 또한 알파벳 문자에는 공백, 마침표, 쉼표 등 구분 문자를 추가해야 합니다.

공식(2.1)은 N개의 동일 확률 미시상태를 갖는 시스템의 엔트로피를 계산하기 위한 볼츠만 공식과 표면적으로 유사합니다.

S= - k*Ln(W), (2.3)

여기서 k는 볼츠만 상수 = 1.38*10 -23이고 W는 단위 시간 t = 10 -13초당 시스템의 미시상태 중 하나가 자발적으로 채택될 확률입니다. W = 1/N, 즉

S= -k*Ln(1/N) = k*Ln(N), (2.4)

이는 인자 k와 로그의 밑을 제외하고 공식 (2.1)과 완전히 일치합니다. 이러한 외부 유사성으로 인해 정보 이론에서 Log 2 K의 값은 엔트로피라고도 하며 기호 H로 표시됩니다. 정보 엔트로피는 일부 확률 변수( 물리적 시스템) 유한하거나 셀 수 있는 수의 상태가 있습니다. 임의의 값(s.v.)는 실험이나 관찰의 결과로 나타나는 양입니다. 숫자 값, 어느 것인지 미리 알 수 없습니다.

따라서 X를 N개의 서로 다른 값 x 1, x 2, ... x N을 취할 수 있는 확률 변수로 가정합니다. r.v.의 모든 값이 X의 가능성이 동일하면 수량 X의 엔트로피(불확도 측정)는 다음과 같습니다.

H(X) = 로그 2 N. (2.5)

논평. 확률 변수(시스템)가 하나의 상태(N=1)에만 있을 수 있는 경우 해당 엔트로피는 0과 같습니다. 실제로 더 이상 확률 변수가 아닙니다. 가능한 동일 확률 상태의 수가 많을수록 시스템의 불확실성이 높아집니다.

엔트로피와 정보량은 동일한 단위(비트)로 측정됩니다.

정의. 1비트는 동일한 확률의 두 상태를 갖는 시스템의 엔트로피입니다.

시스템 X가 동일한 확률로 두 가지 상태 x1과 x2에 있다고 가정합니다. N = 2; 그러면 엔트로피 H(X) = Log 2 2 = 1비트입니다. 이러한 시스템의 예는 동전을 던지면 앞면(x1) 또는 뒷면(x2)이 나타나는 경우입니다. 동전이 "올바른" 경우 앞면 또는 뒷면이 나올 확률은 동일하며 1/2과 같습니다.

정보 측정 단위에 대한 또 다른 정의를 제시해 보겠습니다.

정의. 모든 성격(모든 문자)의 질문에 대한 대답은 동일한 확률로 "예" 또는 "아니요"일 수 있는 경우 1비트의 정보를 포함합니다.

예. "빈 두께"게임. 한 손에 작은 물건을 숨기고 파트너에게 어느 손에 그것을 숨겼는지 추측하도록 요청합니다. 그는 당신에게 "왼손에?"라고 묻습니다. (또는 단순히 손을 선택합니다: 왼쪽 또는 오른쪽). 그의 추측이 맞다면 "예"라고 답하고, 그렇지 않으면 "아니요"라고 대답합니다. 어떤 답변에 대해서도 파트너는 1비트의 정보를 받게 되며 상황의 불확실성이 완전히 제거됩니다.

Hartley의 공식은 주어진 집합에서 선택된 요소를 결정하는 문제를 해결할 때 사용할 수 있습니다. 이 결과는 다음과 같은 규칙으로 공식화될 수 있습니다.

N개의 요소로 구성된 주어진 집합 M에서 다른 어떤 것도 알려지지 않은 일부 요소 x가 선택되면 이 요소를 결정하려면 Log 2 N 비트의 정보를 얻어야 합니다.

Hartley의 공식을 사용하여 몇 가지 문제를 고려해 보겠습니다.

문제 1. 누군가 1부터 32까지의 자연수를 생각했습니다. 보장의도한(강조표시된) 숫자를 추측하세요. 대답은 "예" 또는 "아니오"로만 가능합니다.

코멘트.간단한 검색으로 원하는 숫자를 추측해볼 수 있습니다. 운이 좋으면 한 가지 질문만 하면 되지만, 최악의 경우에는 31가지 질문을 해야 합니다. 제안된 작업에서는 의도한 수를 결정하기 위해 보장되는 최소 질문 수를 결정해야 합니다.

해결책. Hartley의 공식을 사용하면 정수 집합(1,2,3 32)에서 선택한 요소 x를 결정하기 위해 얻어야 하는 정보의 양을 계산할 수 있습니다. 이렇게 하려면 H = Log 2 32 = 5비트의 정보를 얻어야 합니다. 질문은 그에 대한 대답이 똑같이 가능하도록 질문되어야 합니다. 그러면 각 질문에 대한 답은 1비트의 정보를 가져올 것입니다. 예를 들어, 숫자를 1부터 16까지, 17부터 32까지 두 개의 동일한 그룹으로 나누고 원하는 숫자가 어느 그룹에 속해 있는지 물어볼 수 있습니다. 다음으로 이미 16개의 숫자만 포함되어 있는 선택한 그룹에 대해 동일한 작업을 수행해야 합니다. 예를 들어 숫자 7을 생각해보자.

질문 1번: 의도한 숫자가 집합(17, 32)에 속합니까? "아니요"라고 대답하면 1비트의 정보를 얻을 수 있습니다. 이제 우리는 숫자가 집합(1, 16)에 속한다는 것을 알고 있습니다.

질문 2번: 잉태된 숫자는 집합(1; 8)에 속합니까? "예"라고 대답하면 1비트의 정보가 더 제공됩니다. 이제 우리는 숫자가 집합(1, 8)에 속한다는 것을 알고 있습니다.

질문 3번: 잉태된 숫자는 집합(1, 4)에 속합니까? "아니오"라고 대답하면 한 가지 정보가 더 제공됩니다. 이제 우리는 숫자가 집합(5, 8)에 속한다는 것을 알고 있습니다.

질문 4번: 잉태된 숫자는 집합(7, 8)에 속합니까? "예"라고 대답하면 1비트의 정보가 더 제공됩니다. 이제 우리는 숫자가 집합(7, 8)에 속한다는 것을 알고 있습니다.

질문 5번: 의도한 숫자는 8인가요? "아니오"라고 대답하면 한 가지 정보가 더 제공됩니다. 이제 우리는 의도한 숫자가 7이라는 것을 알았습니다. 문제가 해결되었습니다. 5개의 질문이 제기되었고, 그에 대한 응답으로 5비트의 정보가 수신되었으며, 의도된 개수가 결정되었습니다. ‚

문제 2. (위조주화에 관한 문제) 27개의 동전이 있는데, 그 중 26개는 진짜이고 1개는 가짜입니다. 위조 동전이 진짜 동전보다 가볍다는 사실을 이용하여 27개 중 하나의 위조 동전을 확실하게 식별할 수 있는 레버 저울의 최소 무게 측정 횟수는 얼마입니까?

레버 저울에는 두 개의 컵이 있으며 이를 사용하면 컵 내용물의 무게가 동일한지 여부만 확인할 수 있으며, 그렇지 않은 경우 어느 컵의 내용물이 더 무거운지 확인할 수 있습니다.

해결책.이는 27개 중에서 선택한 요소 하나를 식별하는 작업입니다. Hartley의 공식을 사용하면 위조 동전을 식별하기 위해 얻어야 하는 정보의 양을 즉시 결정할 수 있습니다. 이는 I = Log 2 27 = Log 2 (3)와 같습니다. 3) = 3 로그 2 3비트. 아직 가중치 전략을 알지 ​​못해도 문제를 해결하기 위해 얼마나 많은 정보를 얻어야 하는지 알 수 있습니다.

동일한 수의 동전을 저울에 올려놓으면 세 가지 동일한 결과가 나올 수 있습니다.

1. 왼쪽 컵이 오른쪽 컵보다 무겁습니다(L > R).

2. 왼쪽 컵이 오른쪽 컵보다 가볍다(L)< П);

3. 왼쪽 컵이 오른쪽 컵과 균형을 이루고 있습니다(L = R).

"레버 스케일" 시스템은 세 가지 동일한 확률 상태에 있을 수 있으므로 한 번의 무게 측정은 Log 2에 3비트 정보를 제공합니다. 전체적으로 문제를 해결하려면 I = 3 Log 2 3비트의 정보를 얻어야 합니다. 이는 위조 동전을 판별하기 위해 3번의 무게 측정을 수행해야 함을 의미합니다. 우리는 이미 최소 계량 횟수를 알고 있지만 어떻게 수행해야 하는지는 아직 모릅니다. 전략은 각 가중치가 다음을 제공하는 것과 같아야 합니다. 최대 금액정보. 모든 동전을 A, B, C 세 개의 동일한 더미(각각 9개씩)로 나누겠습니다. 문자 f로 표시된 위조 동전은 세 더미 중 어느 더미에서나 동일한 확률로 발견될 수 있습니다. 예를 들어 A와 B 중 두 개를 선택하고 무게를 측정해 보겠습니다.

세 가지 가능한 결과가 있습니다.

1) A는 B보다 무겁습니다(A > B). f Î B를 의미하며;

2) A는 B보다 가볍다(A< B); значит f Î A;

3) A는 B와 평형을 이루고 있습니다(A = B). f Î C를 의미합니다.

어떤 결과가 나오든 우리는 위조 동전 f가 어느 더미에 있는지 결정할 것입니다. 그러나 이 더미에는 동전이 9개만 있을 것입니다. A1, B1, C1 세 개의 동일한 더미로 나누십시오. 각 더미에는 동전 3개가 있습니다. 둘 중 하나를 선택하고 무게를 달아 봅시다. 이전 단계와 마찬가지로 가짜 동전이 위치한 동전 더미를 결정하지만 이제 더미는 3개의 동전으로만 구성됩니다. 두 개의 동전을 선택하고 무게를 달아 봅시다. 이것이 마지막이자 세 번째 계량이 될 것이며 그 후에 위조 동전을 찾을 것입니다.

문제 3. 계산기를 사용하지 않고 동일한 확률로 50개 상태에 있을 수 있는 시스템의 엔트로피를 1비트로 추정합니다.

해결책. Hartley의 공식을 사용하여 H = Log 2 50. 이 식을 평가해 보겠습니다.

분명히 32< 50 < 64; логарифмируем это неравенство à Log 2 32 < Log 2 50 < Log 2 64 à 5 < Log 2 50 < 6. Энтропия системы с точностью до 1 бита 5 < H < 6 . ‚

작업 4.시스템의 엔트로피는 7비트인 것으로 알려져 있다. 이 시스템의 상태가 모두 동일할 가능성이 있다고 알려진 경우 이 시스템의 상태 수를 결정하십시오.

해결책.시스템의 상태 수를 N으로 표시하겠습니다. 모든 상태가 동일하게 가능하므로 H = Log 2 N à N = 2 H, 즉 N = 2 7 = 128.

Hartley의 공식과 마찬가지로 이 공식은 컴퓨터 과학에서 다양한 확률로 정보의 총량을 계산하는 데 사용됩니다.

다양한 불평등 확률의 예는 군대의 막사에서 사람들이 나가는 것입니다. 군인, 장교, 심지어 장군도 막사를 떠날 수 있습니다. 그러나 막사에서 군인, 장교 및 장군의 분포는 다릅니다. 이는 군인이 가장 많고 그 다음으로 장교가 많을 것이며 가장 드문 유형은 장군이 될 것이기 때문에 분명합니다. 세 가지 유형의 군대 모두에 대한 확률이 동일하지 않기 때문에 그러한 사건이 얼마나 많은 정보를 필요로 하는지 계산하기 위해 다음을 사용합니다. 섀넌의 공식.

동전 던지기(앞면이나 뒷면이 나타날 확률은 동일 - 50%)와 같은 동일하게 일어날 수 있는 다른 사건의 경우 Hartley의 공식이 사용됩니다.

이제 구체적인 예를 사용하여 이 공식을 적용하는 방법을 살펴보겠습니다.

가장 적은 정보가 포함된 메시지는 무엇입니까(비트 단위로 계산):

  1. 바실리는 과자 6개를 먹었고 그 중 2개는 매자나무였습니다.
  2. 컴퓨터에는 10개의 폴더가 있습니다. 필수 파일폴더 9에서 발견되었습니다.
  3. 바바 루다는 고기로 파이 4개, 양배추로 파이 4개를 만들었어요. 그레고리는 파이 2개를 먹었습니다.
  4. 아프리카에는 200일 동안 건조한 날씨가 있고 165일 동안 몬순 비가 내립니다. 아프리카인들은 일년에 40일을 사냥했습니다.

이 문제에서는 옵션 1, 2, 3이 사건의 확률이 동일하므로 계산하기 쉽다는 사실에 주목하겠습니다. 이를 위해 Hartley의 공식을 사용하겠습니다. 나는 = 로그 2N(그림 1) 그러나 일의 분포가 고르지 않다는 것이 분명한 점 4(건조한 날씨에 우세함)를 사용하면 이 경우 어떻게 해야 합니까? 이러한 이벤트의 경우 Shannon의 공식 또는 정보 엔트로피가 사용됩니다. I = - (p 1 로그 2 p 1 + p 2 로그 2 p 2 + . . . + p N 로그 2 p N),(그림 3)

정보량에 대한 공식(HARTLEY 공식, 그림 1)

여기서:

  • 나 - 정보의 양
  • p는 이 사건이 일어날 확률이다

우리 문제에서 우리의 관심을 끄는 사건은 다음과 같습니다.

  1. 6개 중 2개의 매자나무가 있었습니다(2/6).
  2. 전체 개수(1/10) 대비 필요한 파일이 발견된 폴더가 1개 있었습니다.
  3. 총 8개의 파이가 있었고 그 중 그레고리는 2개(2/8)를 먹었습니다.
  4. 그리고 지난 40일의 사냥은 건조한 200일과 관련되고, 40일의 사냥은 165일의 비오는 날과 관련됩니다. (40/200) + (40/165)

따라서 우리는 그것을 얻습니다:

사건에 대한 확률 공식.

K는 우리가 관심 있는 이벤트이고 N은 이러한 이벤트의 총 개수입니다. 또한 직접 확인해 보면 특정 이벤트의 확률은 1보다 클 수 없습니다. (항상 가능한 사건이 적기 때문입니다)

정보 계산을 위한 SHANNON의 공식(그림 3)

우리의 작업으로 돌아가서 얼마나 많은 정보가 포함되어 있는지 계산해 보겠습니다.

그건 그렇고, 로그를 계산할 때 웹 사이트를 사용하는 것이 편리합니다 - https://planetcalc.ru/419/#

  • 첫 번째 경우 - 2/6 = 0.33 = 그리고 Log 2 0.33 = 1.599비트
  • 두 번째 경우 - 1/10 = 0.10 Log 2 0.10 = 3.322비트
  • 세 번째 - 2/8 = 0.25 = Log 2 0.25 = 2비트
  • 네 번째 - 40/200 + 40/165 = 0.2 및 0.24의 경우 공식 -(0.2 * log 2 0.2) + -(o.24 * log 2 0.24) = 0.95856 비트를 사용하여 계산합니다.

따라서 우리 문제에 대한 답은 다음과 같습니다. 4.

1928년 미국 엔지니어 R. Hartley는 정보를 얻는 과정을 동일한 확률의 N개의 메시지로 구성된 유한한 미리 결정된 집합에서 하나의 메시지를 선택하는 것으로 간주했으며, 선택한 메시지에 포함된 정보의 양을 N의 이진 로그로 정의했습니다.

하틀리의 공식: I = log 2 N

1부터 100까지의 숫자 집합에서 하나의 숫자를 추측해야 한다고 가정해 보겠습니다. Hartley의 공식을 사용하면 이에 필요한 정보의 양을 계산할 수 있습니다. I = log 2 100  6.644. 따라서 정확하게 추측된 숫자에 대한 메시지에는 대략 6.644 단위의 정보와 동일한 양의 정보가 포함됩니다.

다른 사람에게 베풀자 확률이 동일한 메시지의 예:

동전을 던질 때: "앞머리가 나왔어", "머리가 떨어졌어";

도서 페이지에서: "글자의 개수는 짝수입니다", "글자가 홀수예요".

이제 결정해보자 메시지의 가능성이 동일합니까? "건물 문밖으로 나온 최초의 여성"그리고 "그 남자가 건물의 문을 가장 먼저 떠날 것이다". 이 질문에 명확하게 대답하는 것은 불가능합니다. 그것은 모두 우리가 말하는 건물의 종류에 달려 있습니다. 예를 들어 지하철 역이라면 남자와 여자가 ​​먼저 문을 떠날 확률은 동일하고, 이것이 군 막사라면 남자의 경우이 확률은 여자보다 훨씬 높습니다. .

이런 종류의 문제에 대해 미국 과학자는 클로드 섀넌 1948년에 세트에 있는 메시지의 불평등한 확률을 고려하여 정보의 양을 결정하는 또 다른 공식을 제안했습니다.

Shannon의 공식: I = - (p 1 log 2 p 1 + p 2 log 2 p 2 + . . . + p N log 2 p N),
어디 p - 정확히 그럴 확률 N개의 메시지 세트 중에서 번째 메시지가 선택됩니다.

확률을 보면 쉽게 알 수 있다 p 1 , ..., p N동등하다면, 그들 각각은 동등하다 1/N, 그리고 Shannon의 공식은 Hartley의 공식으로 변합니다.

정보의 양을 결정하기 위해 고려된 두 가지 접근 방식 외에도 다른 접근 방식이 있습니다. 모든 이론적 결과는 초기 가정에 의해 설명된 특정 범위의 사례에만 적용 가능하다는 점을 기억하는 것이 중요합니다.

정보 단위로서 Claude Shannon은 다음 중 하나를 제안했습니다. 조금 (영어. 조금 - 바이 네리 디지 - 이진수).



조금 정보 이론에서- 두 개의 동일한 가능성이 있는 메시지(예: "앞면" - "꼬리", "짝수" - "홀수" 등)를 구별하는 데 필요한 정보의 양.

컴퓨팅에서는비트는 데이터와 명령의 내부 표현에 사용되는 두 문자 "0"과 "1" 중 하나를 저장하는 데 필요한 컴퓨터 메모리의 가장 작은 "부분"입니다.

비트는 측정 단위가 너무 작습니다. 실제로는 더 큰 단위가 더 자주 사용됩니다. 바이트 , 동일한 8비트.컴퓨터 키보드 알파벳 256자(256 = 2 8)를 인코딩하는 데 필요한 것은 정확히 8비트입니다.

또한 널리 사용됨 더 큰 파생 정보 단위:

1킬로바이트(KB) = 1024바이트 = 2 10바이트,

1메가바이트(MB) = 1024KB = 2 20바이트,

1기가바이트(GB) = 1024MB = 2 30바이트.

최근에는 처리되는 정보의 양이 증가함에 따라 다음과 같은 파생 단위가 제공됩니다.

1테라바이트(TB) = 1024GB = 2 40바이트,

1페타바이트(PB) = 1024TB = 2 50바이트.

정보 단위당, 예를 들어 10개의 동일한 가능성이 있는 메시지를 구별하는 데 필요한 정보의 양을 선택할 수 있습니다. 이진수(비트)가 아니라 십진수( 그렇다고) 정보의 단위.

그 정보로 무엇을 할 수 있나요?

정보는 다음과 같습니다.

정보에 대한 특정 작업과 관련된 이러한 모든 프로세스를 정보 프로세스.

정보의 속성.

정보 속성:

신뢰할 수 있음;

값;

적시; 이해 가능성;

유효성;

짧음;

정보는 실제 상황을 반영하는 경우 신뢰할 수 있습니다.. 부정확한 정보는 오해나 잘못된 결정으로 이어질 수 있습니다.

신뢰할 수 있는 정보는 시간이 지남에 따라 신뢰할 수 없게 될 수 있습니다., 속성이 있으므로 구식이 되다, 그건 실제 상황을 반영하지 않습니다..

정보가 이해하고 결정을 내리는 데 충분하면 정보가 완전합니다.. 불완전하고 중복된 정보 의사결정을 방해하거나 오류를 초래할 수 있음.

정보의 정확성대상, 프로세스, 현상 등의 실제 상태에 대한 근접 정도에 따라 결정됩니다.

정보의 가치는 문제 해결에 얼마나 중요한지에 따라 결정됩니다., 그리고 사실에서도 미래에 어떤 유형의 인간 활동에도 적용될 수 있을까요?.

오직 적시에 받은 정보는 예상되는 이익을 가져올 수 있습니다.. 마찬가지로 바람직하지 않음 정보의 조기 제출(아직 동화될 수 없을 때), 그렇습니다. 지연.

가치 있고 시의적절한 정보가 불분명하게 표현된 경우, 그녀는 될 수 있습니다 쓸모 없는.

정보 명확해진다, 이 정보의 대상이 되는 사람들이 사용하는 언어로 표현된 경우.

정보는 접근 가능한 방식으로 제시되어야 합니다.(인식 수준에 따라) 형태. 따라서 학교 교과서와 과학 출판물에서는 동일한 질문이 다르게 제시됩니다.

동일한 문제에 대한 정보 요약할 수 있다(중요하지 않은 내용 없이 간결하게) 또는 광범위하게(자세한, 자세한). 참고서, 백과사전, 교과서 및 모든 종류의 지침에는 정보의 간결함이 필요합니다.

데이터 처리.

데이터 처리- 일부 알고리즘을 실행하여 다른 정보 개체로부터 일부 정보 개체를 얻습니다.

처리는 정보에 대해 수행되는 주요 작업 중 하나이며 정보의 양과 다양성을 늘리는 주요 수단입니다.

정보처리 도구는 인류가 만들어낸 온갖 장치와 시스템을 말하며, 우선 컴퓨터는 정보를 처리하는 만능 기계이다.

하틀리와 섀넌의 공식.

1928년에 미국 엔지니어 R. Hartley는 메시지 평가에 대한 과학적인 접근 방식을 제안했습니다. 그가 제안한 공식은 다음과 같았다.

나 = 로그 2 케이

여기서 K는 동일하게 일어날 수 있는 사건의 수입니다. I는 K개 이벤트 중 하나가 발생한 메시지의 비트 수입니다. 그 다음에K=2 .

때때로 Hartley의 공식은 다음과 같이 작성됩니다.

나 = 로그 2 K = 로그 2 (1 / 아르 자형) = - 로그 2 아르 자형

K개의 사건 각각은 동일한 확률의 결과 p = 1 / K를 갖기 때문에 K = 1 / p입니다.

일.

공은 세 개의 항아리(A, B, C) 중 하나에 있습니다. 항아리 B에 담긴 메시지에 몇 비트의 정보가 포함되어 있는지 확인하세요.

해결책.

이 메시지에는 I = 로그가 포함되어 있습니다. 2 3 = 1.585비트 정보.

그러나 모든 상황이 동일한 실행 가능성을 갖는 것은 아닙니다. 실현 확률이 다른 상황이 많이 있습니다. 예를 들어 비대칭 동전을 던지는 경우나 '샌드위치 규칙' 등이 있습니다.

“어렸을 때 샌드위치를 ​​떨어뜨린 적이 있는데, 바닥에 묻은 기름때를 닦아내는 모습을 보고 형이 저를 안심시켜줬어요.

- 걱정하지 마세요. 샌드위치의 법칙이 효과가 있었어요.

- 이것은 어떤 법인가요? - 내가 물었다.

- 법칙: “샌드위치는 항상 버터 쪽이 아래로 향하게 됩니다.” 하지만 이건 농담이에요.” 형이 말을 이었다. - 법이 없습니다. 샌드위치가 실제로 다소 이상하게 작동한다는 것입니다. 대부분의 버터가 바닥에 남습니다.

“샌드위치를 ​​몇 번 더 떨어뜨리고 확인해 보자”고 나는 제안했다. - 어차피 버려야 할 텐데.

우리는 확인했습니다. 열 번 중 여덟 번은 샌드위치가 버터 쪽이 아래로 떨어졌습니다.

그러다가 생각했습니다. 샌드위치가 버터 쪽이 아래로 떨어질지 아니면 위로 떨어질지 미리 알 수 있을까?

우리 엄마가 우리 실험을 방해했어요..."

(“위대한 사령관의 비밀”, V. Abchuk 책에서 발췌).

1948년 미국의 엔지니어이자 수학자 K. Shannon은 확률이 다른 사건에 대한 정보의 양을 계산하는 공식을 제안했습니다.

내가 정보의 양이라면,

K는 가능한 사건의 수입니다.

아르 자형 - 개별 사건의 확률,

그러면 확률이 다른 사건에 대한 정보의 양은 다음 공식으로 결정될 수 있습니다.

나는 = - 합계아르 자형 통나무 2 아르 자형 ,

여기서 나는 1에서 K까지의 값을 취합니다.

Hartley의 공식은 이제 Shannon의 공식의 특별한 경우로 간주될 수 있습니다.

나는 = - 합계 1 /에게통나무 2 (1 / 에게) = 나 = 로그 2 에게.

동일하게 발생하는 사건의 경우 획득되는 정보의 양이 최대입니다.

생리학자와 심리학자들은 사람이 감각을 통해 인지하고 기억과 과정에 보유할 수 있는 정보의 양을 결정하는 방법을 배웠습니다. 정보는 소리, 기호 등 다양한 형태로 제시될 수 있습니다. 우리 지식의 불확실성을 줄이는 메시지로 수신되는 정보의 양을 결정하기 위해 위에서 논의한 방법은 정보의 내용, 신규성 및 인간에 대한 이해 가능성의 관점에서 정보를 고려합니다. 이러한 관점에서 볼 때, 주사위를 던진 경험에는 "둘", "두 개의 점이 떨어진 면"이라는 메시지와 떨어지는 큐브의 시각적 이미지에 동일한 양의 정보가 포함됩니다.

다양한 수단을 이용하여 정보를 전송하고 저장하는 경우 기술 장치정보는 내용을 고려하지 않고 일련의 문자(숫자, 문자, 이미지 포인트의 색상 코드)로 간주되어야 합니다.

알파벳(기호 체계의 기호 집합)이 하나의 사건이라는 점을 고려하면, 메시지에 기호 중 하나가 나타나는 것도 그 사건의 상태 중 하나로 간주할 수 있습니다. 기호의 발생 가능성이 동일하다면 각 기호가 전달하는 정보 비트 수를 계산할 수 있습니다. 문자의 정보 용량은 알파벳 숫자에 따라 결정됩니다. 알파벳이 더 많은 문자로 구성될수록 많은 분량정보는 하나의 기호로 전달됩니다. 알파벳 기호의 총 개수를 보통 알파벳의 거듭제곱이라고 합니다.

DNA(디옥시리보핵산) 분자는 유전 알파벳을 형성하는 네 가지 구성 요소(뉴클레오티드)로 구성됩니다. 이 알파벳 기호의 정보 용량은 다음과 같습니다.

4 = 2 , 즉. I = 2비트.

러시아 알파벳의 각 문자(e = ё라고 가정하면)는 5비트의 정보(32 = 2)를 전달합니다. ).

이 접근 방식을 사용하면 주사위를 던진 결과에 대한 메시지를 통해 얻을 수 있는 정보의 양이 달라지며, 이를 계산하려면 문자 수에 문자 한 개가 전달하는 정보의 양을 곱해야 합니다.

부호 시스템을 사용하여 인코딩된 메시지에 포함된 정보의 양은 한 문자가 전달하는 정보의 양에 메시지의 문자 수를 곱한 것과 같습니다.

예시 1. Hartley의 공식을 사용하여 정보의 양을 계산합니다. 메시지는 몇 비트의 정보를 전달하는가?

기차가 8개 선로 중 하나에 도착하나요?

하틀리의 공식:나 = 로그 2 N ,

여기서 N은 메시지에 언급된 사건의 동등하게 가능한 결과의 수입니다.

I – 메시지에 포함된 정보의 양.

나 = 로그 2 8 = 3(비트) 답: 3비트.

동일하지 않은 이벤트에 대해 Hartley 공식을 수정했습니다. N개의 가능한 사건이 각각 발생할 확률은 동일하므로

p=1/N , 저것N=1/p 그리고 공식은 다음과 같습니다

나 = 로그 2 N= 로그 2 (1/p) = - 로그 2

사건의 확률(p)과 사건에 대한 메시지의 정보량(I) 사이의 정량적 관계는 다음 공식으로 표현됩니다.

나 = 로그 2 (1/p)

사건의 확률은 다음 공식을 사용하여 계산됩니다.p=K/N , K - 관심 있는 이벤트가 발생한 횟수를 나타내는 값입니다. N은 가능한 결과와 사건의 총 개수입니다. 확률이 감소하면 정보의 양이 증가합니다.

예시 2. 수업에는 30 명이 있습니다. 수학 시험에서 나는 A 6개, B 15개, C 8개, D' 1개를 받았습니다. Ivanov가 "B"를 받았다는 메시지에는 몇 비트의 정보가 포함되어 있습니까?

사건의 확률(p)과 사건에 대해 보고된 정보의 양(I) 사이의 정량적 관계

나 = 로그 2 (1/p) = - 로그 2

사건 발생 확률 15/30

메시지의 정보량 =로그 2 (30/15)=로그 2 2=1.

답: 1비트.

Shannon의 공식을 사용합니다. N개 중 하나에 대한 메시지의 정보량을 계산하는 일반적인 경우이지만 확률은 동일하지 않습니다. 이 접근법은 1948년 K. Shannon에 의해 제안되었습니다.

기본 정보 단위:

Iср - 문자당 평균 정보 비트 수입니다.

M - 메시지의 문자 수

I – 메시지 정보량

- 메시지에 i 문자가 나타날 확률; i - 기호 번호;

수요일 = -

의미 수요일 = 1/N.

예시 3. 무작위로 생성된 메시지 "헤드라이트"는 몇 비트의 정보를 전달합니까? 러시아어 텍스트의 평균 1,000자마다 문자 "a"가 200번 나타나고 문자 "f"가 2번, 문자 "r"이 40번 나타나는 경우 타임스.

메시지에 기호가 나타날 확률은 텍스트에 나타나는 빈도와 일치한다고 가정합니다. 따라서 문자 "a"는 200/1000 = 0.2의 평균 빈도로 발생합니다. 텍스트에 문자 "a"가 나타날 확률(p )은 대략 0.2와 동일한 것으로 간주될 수 있습니다.

문자 "f"는 2/1000=0.002의 빈도로 나타납니다. 문자 "p" - 빈도는 40/1000=0.04입니다.

마찬가지로, p 아르 자형 = 0.04, p 에프 = 0.002. 다음으로 K. Shannon에 따라 진행합니다. 우리는 값 0.2의 이진 로그를 취하여 문제의 텍스트에서 단일 문자 "a"가 전달하는 정보의 양을 얻습니다. 각 문자에 대해 정확히 동일한 작업을 수행합니다. 그러면 한 글자가 전달하는 본질적인 정보의 양은 다음과 같습니다.통나무 2 1/p = -로그 2 , 정보량의 척도로는 알파벳의 문자당 평균 정보량을 사용하는 것이 더 편리하다.

수요일 = -

의미 수요일 동일하게 일어날 수 있는 사건에 대해 최대값에 도달합니다. 즉, 모든 p가

= 1/N.

이 경우 Shannon의 공식은 Hartley의 공식으로 바뀌게 됩니다.

나 = M*I 수요일 =4*(-(0.002*로그 2 0.002+0.2* 로그 2 0.2+0.04* 로그 2 0.04+0.2* 로그 2 0,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53

답: 4.53비트

테이블을 컴파일할 때 다음 사항을 고려해야 합니다.

    데이터 입력(조건에 지정된 대로)

    가능한 결과의 총 개수 계산(공식 N=K 1 +K 2 +...+K ).

    각 사건의 확률 계산(공식 p = K /N).

    발생하는 각 이벤트에 대한 정보량 계산(수식 I) =로그 2 (1/p )).

    확률이 다른 사건에 대한 정보의 양을 계산합니다(Shannon의 공식).

진전:

1 . 하다 테이블 형식 모델정보의 양을 계산합니다.

2 . 표 형식 모델을 사용하여 작업 번호 2(그림 3)에 대한 계산을 수행하고 계산 결과를 노트북에 기록합니다.

작업 번호 3

상자에는 빨간색 10개, 녹색 8개, 노란색 5개, 파란색 12개 큐브가 들어 있습니다. 각 색상의 큐브를 얻을 확률과 얻을 수 있는 정보의 양을 계산합니다.

작업 번호 4

불투명한 봉지에 흰색 10개, 빨간색 20개, 파란색 30개, 녹색 공 40개가 들어 있습니다. 제거된 공의 색상에 대한 시각적 메시지에는 얼마나 많은 정보가 포함됩니까?

공유하다