하틀리 양의 정보. Hartley-Shannon 공식의 기본 개요

60. 정보 측정-확률 및 알파벳 접근. Hartley, Shannon Formulas. 의 예MS와 함께.

정보의 관점에서, 제거 된 불확실성으로서, 이벤트에 관한 메시지의 정보량은이 이벤트의 확률에 의존한다.

커뮤니케이션 평가에 대한 과학적 접근은 1928 년 R. Hartley에 의해 제안되었습니다. 예상 등가 사건에 대한 하틀리 공식   형식이 있습니다 :

= 로그 2 N   또는 2   나 = N,

여기서 N은 숫자입니다 똑같이 가능한   이벤트 (가능한 선택의 수), 나는 정보의 양입니다.

N \u003d 2 (두 가지 가능성 중에서 선택)이면 I \u003d 1 비트입니다.

실시 예 1   Hartley 공식을 사용하여 정보량 계산 메시지가 몇 비트의 정보를

기차는 8 가지 방법 중 하나로 도착합니까?

하틀리 포뮬러 : = 로그 2 N,

여기서 N은 메시지에서 언급 된 사건의 똑같이 가능한 결과의 수입니다.

메시지의 정보량입니다.

I \u003d log 2 8 \u003d 3 (비트) 답변 : 3 비트.

비 확률 이벤트에 대한 Hartley의 수정 된 공식.   N 개의 가능한 사건들 각각의 발병이 같은 확률을 가지기 때문에

p = 1 / N그때 N = 1 / p   수식의 형식은

I \u003d log 2 N \u003d log 2 (1 / p) \u003d-로그 2 p

사건 확률 (p)과 이에 관한 메시지의 정보량 (I) 사이의 양적 관계는 다음 공식으로 표현됩니다.

= 로그 2 (1/ p)

사건의 확률은 공식에 의해 계산됩니다 p= K/ N, K는 우리에게 관심있는 사건이 몇 번이나 발생했는지를 나타내는 값입니다. N은 가능한 총 결과 수, 이벤트입니다. 확률이 감소하면 정보량이 증가합니다.

실시 예 2   이 수업에는 30 명이 있습니다. 수학의 제어 작업을 위해 6 5, 15 4, 8 3 배 및 1 듀스를 받았다. Ivanov가 4 개를 받았다는 메시지는 몇 비트입니까?

답 : 1 비트.

Shannon의 공식을 사용합니다.N 중 하나에 대한 메시지에서 정보의 양을 계산하는 일반적인 경우이지만 이미 고르지 않은 이벤트입니다. 이 접근법은 1948 년 C. Shannon에 의해 제안되었습니다.

기본 정보 단위 :

  결혼= -

가치   결혼 = 1 / N.

실시 예 3 무작위로 생성 된 "헤드 라이트"메시지에 의해 전달되는 정보의 수. 러시아어 텍스트에서 천 문자마다 평균 "a"가 200 회, 문자 "f"-2 회, 문자 "p"-40 회 발생하는 경우

메시지에 기호가 나타날 확률은 텍스트에서 발생 빈도와 일치한다고 가정합니다. 따라서 문자 "a"는 200/1000 \u003d 0.2의 평균 주파수로 발견됩니다. 텍스트 (p a)에서 문자 "a"가 나타날 확률은 대략 0.2와 같다고 간주 될 수 있습니다.

문자 "f"는 2/1000 \u003d 0.002의 빈도로 발생하고; 문자 "p"-빈도 40/1000 \u003d 0.04;

마찬가지로 p p \u003d 0.04, p f \u003d 0.002입니다. 그런 다음 C. Shannon에 따라 진행합니다. 우리는 0.2의 이진 대수를 취하여 문제의 텍스트에서 한 글자 "a"가 가지고있는 정보의 양으로 밝혀졌습니다. 각 문자에 대해 동일한 작업을 수행합니다. 그런 다음 한 글자로 전달되는 개인 정보의 양은 로그 2 1/ = - 로그 2 , 정보량의 척도로서 알파벳의 한 문자 당 정보량의 평균값을 사용하는 것이 더 편리하다.

  결혼= -

가치   결혼   똑같이 가능한 사건, 즉 모든 파이의 평등으로 최대에 도달

= 1 / N.

이 경우 Shannon 수식은 Hartley 수식으로 바뀝니다.

I \u003d M * 평균 \u003d 4 * (-(0.002 * log 2 0.002 + 0.2 * log 2 0.2 + 0.04 * log 2 0.04 + 0.2 * log 2 0.2)) \u003d 4 * (-(0.002 * (-8.967) +0.2 * (-2.322) +0.04 * (-4.644) +0.2 * (-2.322))) \u003d 4 * (-(-0.018-0 , 46-0.19-0.46)) \u003d 4 * 1.1325 \u003d 4.53

답 : 4.53 비트

정보 측정에 대한 알파벳 접근

알파벳 방식은 기술에 사용되며,이 경우 정보의 양은 내용에 의존하지 않지만 알파벳의 힘과 텍스트의 문자 수에 따라 다릅니다.

ASCII 인코딩의 경우-알파벳 출력 \u003d 256

I \u003d log 2 256 \u003d 8 (비트); 코드로 문자 정보를 인코딩 할 때 공백과 문장 부호를 포함한 각 문자는 1 바이트 (8 비트)로 인코딩됩니다.

컴퓨터 기술의 정보 단위

1 비트 (기술적 접근 방식)

최소 정보 단위

정보의 양은 정수 비트 수로 만 측정됩니다.

1kB (킬로바이트)

2 10 바이트 \u003d 1024 바이트

~ 1,000 바이트

1MB (메가 바이트)

2 10KB \u003d 2 20 바이트

~ 백만 바이트

1GB (기가 바이트)

2 10MB \u003d 2 30 바이트

~ 10 억 바이트

  • 3. 데이터 전송 기술. 이더넷, 토큰 링, ISDN, X.25, 프레임 릴레이.
  • 4. 게이트웨이 장치 : 리피터, 브리지, 라우터, 게이트웨이. 스위칭 및 라우팅 방법. 네트워크 성능을 향상시키는 방법
  • 5. 피어 투 피어 및 서버 네트워크 : 비교 특성. 특수 서버의 주요 유형.
  • 6. 인터넷의 기술적 기초. 주소 지정 시스템 (IP 주소, 도메인 이름, DNS) 네트워크의 주요 통신 프로토콜.
  • 7. 인터넷 작업을위한 기본 사용자 기술. WWW, FTP, TELNET, 전자 메일. 인터넷에서 정보를 검색하십시오.
  • 9. 데이터베이스 : 데이터, 데이터 모델, 데이터베이스, 데이터베이스 관리 시스템, 정보 시스템. 데이터 모델. 관계형 데이터 모델.
  • 12. 정보 시스템 설계. 수명주기의 구조와 모델.
  • 13. 기업 구조의 모델링 및 제시. IDEF0 차트.
  • 14. 데이터 스트림의 모델링 및 표현. DFD 다이어그램.
  • 16. 전문가 시스템 (ES) : 개념, 목적, 아키텍처, 특징. ES의 분류. ES 개발 단계.
  • 17. 전문가 시스템의 지식 기반. 지식 표현 방법 : 논리 모델, 생산 규칙, 프레임, 시맨틱 네트워크.
  • 18 지식. 지식의 종류. 지식을 추출하는 방법 : 의사 소통, 텍스트.
  • 19 프로그래밍 언어, 특성 (Prolog, Delphi, C ++).
  • 20. 프로그래밍 언어, 특성 (PHP, Perl, JavaScript).
  • 21. 러시아 연방의 정보 보안 보장 목표, 목표, 원칙 및 주요 방향. 정보의 법적, 조직적, 공학적 및 기술적 보호.
  • 22. 전자 출판물 : 개념, 구성. EI의 분류. 등록 EI.
  • 23. 정보 자원 : 개념, 구성. 상태 정보 자원.
  • 24. 자원 관리 수단으로서의 개인용 컴퓨터의 운영 체제 (예 : 연구 된 OS). OS의 구조 및 구성 요소
  • 25. 악성 소프트웨어 : 분류, 탐지 및 제거 방법.
  • 26 웹 애플리케이션의 구조. HTTP 프로토콜 쿠키 웹 애플리케이션 기능. CGI 프로토콜
  • 27 IP의 신뢰성 보장. 거래 OLTP 시스템.
  • 28. 소프트웨어 제품의 인체 공학적 목표 및 품질 지표.
  • 31. 정보 관리 : 개념 및 주요 기능.
  • 33 소프트웨어 표준화. 소프트웨어 설명서 표준.
  • 34. 정보 시스템의 질적 및 양적 특성 평가. 소프트웨어 및 정보 지원의 신뢰성 특성을 평가하기위한 모델. 정보 시스템의 신뢰성을 보장하기위한 기본 개념, 지표 및 방법.
  • 36. 정보화 분야에서 혁신적인 프로그램의 구현 특징 (정보화 분야의 정보 정책 특성화, 프로젝트 설계 및 IP 구현 원칙, 정보화 프로젝트 관리)

주변 세계의 다양한 현상과 사물을 연구 할 때 사람들은 이러한 사물과 숫자를 연결하고 양적 척도를 도입하려고했습니다. 사람들은 거리를 측정하고 다양한 물체의 무게를 측정하며 그림의 면적과 몸의 부피를 계산하는 법을 배웠습니다. 시간과 기간을 측정하는 법을 배운 후에도 그 본질을 이해하려고 노력하고 있습니다. 과학자들이 측정 한 것을 깨닫기 몇 년 전에 온도계가 개발되었습니다. 첫 온도계에서 열역학을 만드는 데 약 3 세기가 걸렸습니다. 특정 현상에 대한 정량적 연구, 대상은 질적 연구보다 앞서고, 해당 개념의 형성 과정은 정량적 연구를 따를 수 있습니다.

정보와 관련하여 비슷한 상황이 발생했습니다. 1928 년 R. Hartley, 1948 년 C. Shannon은 정보의 양을 계산하는 공식을 제안했지만 정보가 무엇인지에 대한 질문에는 답하지 않았다. 통신 이론에서 정보는 다양한 메시지 형태로 나타납니다. 예를 들어 문자 나 숫자, 전신과 같이, 또는 전화 나 방송과 같이 지속적인 시간 기능으로 나타납니다. 이러한 예 중 하나에서, 궁극적 인 목표는 인간 언어의 의미 론적 내용을 전달하는 것입니다. 결과적으로 사람의 말은 소리 진동이나 글로 표현 될 수 있습니다.

이것은 이러한 유형의 정보의 또 다른 속성입니다. 동일한 의미 론적 내용을 다른 물리적 형태로 표현할 수있는 능력입니다. W. Ashby는 처음으로이 점에 특별한주의를 기울였습니다. 다른 물리적 형태로 정보를 표현하는 것을 코딩이라고합니다. 다른 사람들과 의사 소통하기 위해서는 사람이 끊임없이 코딩, 트랜스 코딩 및 디코딩에 참여해야합니다. 통신 채널을 통해 정보가 광범위한 코딩 시스템에서 전송 될 수 있음이 명백하다.

R. Hartley는 정보 전송 이론에 "정보량 측정"방법을 도입 한 최초의 사람입니다. 동시에 R. Hartley는 자신이 측정하려고하는 정보는 "... 일반적인 합의에 따라 해당 당사자들에게 특정한 의미를 갖는 물리적 기호 그룹-단어, 점, 대시 등"이라고 믿었습니다. 따라서 Hartley는 인코딩 된 정보를 측정하기위한 측정 방법을 도입하는 작업을 스스로 시작했습니다.

n 문자 a 1 a 2 a 3 a n의 시퀀스를 전송하도록하자. 각 문자는 m 문자를 포함하는 알파벳 A m에 속한다. 이러한 서열의 상이한 변이체의 수 K는 무엇입니까? n \u003d 1 (하나의 문자가 전송 됨)이면 K \u003d m; n \u003d 2 (2 개의 문자 시퀀스가 \u200b\u200b전송 됨)이면 K \u003d m * m \u003d m 2; 일반적으로 n 문자 시퀀스의 경우


Hartley는 2를 기준으로 숫자 K의 로그와 같은 시퀀스에 포함 된 정보의 양을 계산할 것을 제안했습니다.

I \u003d 로그 2K, (2.1)

여기서 K \u003d m n.

즉, Hartley 공식에 따라 알파벳 A m에서 n 문자 시퀀스에 포함 된 정보의 양은

I \u003d Log 2 (m n) \u003d n Log 2 m. (2.2)

설명 1. Hartley는 알파벳 A m의 모든 문자가 동일한 확률 (빈도)로 메시지의 어느 곳에서나 발생할 수 있다고 가정했습니다. 이 조건은 자연어 알파벳에 대해 위반됩니다. 예를 들어 러시아어 알파벳의 모든 문자가 동일한 빈도로 텍스트에있는 것은 아닙니다.

비고 2. 알파벳 A m의 길이 n의 메시지는 동일한 양의 정보를 포함 할 것이다. 예를 들어, 알파벳 (0; 1)에서 메시지 00111, 11001 및 10101에는 동일한 양의 정보가 포함됩니다. 이것은 메시지에 포함 된 정보의 양을 계산할 때 의미 론적 내용에서 산만하다는 것을 의미합니다. "의미있는"메시지와 임의의 문자 순열로받은 메시지에는 동일한 양의 정보가 포함됩니다.

예입니다. 전신 메시지에는 마침표 (.)와 대시 (-) 등 두 문자가 사용됩니다. 알파벳은 m \u003d 2 자로 구성됩니다. 그리고, 하나의 문자 (n \u003d 1)를 전송할 때, 정보량 I \u003d Log 2 2 \u003d 1입니다.이 양은 정보량의 측정 단위로 취해지고 1 비트 (영어에서) 이진 단위 = 조금) 알파벳 (.;-)의 전신 메시지에 n 개의 문자가 포함 된 경우 정보량 I \u003d n Log 2 2 \u003d n (비트)입니다.

문자 0과 1을 사용하면 정보가 컴퓨터에서 인코딩되고 컴퓨터 네트워크에서 전송되는 동안, 즉 알파벳은 두 문자 (0; 1)로 구성됩니다. 한 문자 및이 경우 I \u003d Log 2 2 \u003d 1 비트의 정보를 포함하므로 Hartley 공식 (2.2)에 따라 알파벳 (0; 1)의 길이 n 문자의 메시지에는 n 비트의 정보가 포함됩니다.

33 자로 구성된 러시아어 알파벳의 메시지 전송을 고려하면 Hartley 공식으로 계산 된 n 문자 메시지에 포함 된 정보의 양은 I \u003d n * Log 2 33 "n * 5.0444 비트입니다. 영어 알파벳은 26 개의 문자를 포함하고 한 문자는 Log 2 26 "4.7 비트를 포함하므로 Hartley 공식으로 계산 된 n 개의 문자 메시지에는 n * Log 2 26"4.7 * n 비트의 정보가 포함됩니다. 그러나 모든 문자가 같은 빈도로 텍스트에 나타나지는 않기 때문에이 결과는 정확하지 않습니다. 또한 공백, 점, 쉼표 등의 알파벳 문자에 구분 기호 문자를 추가해야합니다.

공식 (2.1)은 N 등가 미세 상태의 시스템의 엔트로피를 계산하기위한 Boltzmann 공식과 유사합니다.

S \u003d-k * Ln (W), (2.3)

여기서 k는 볼츠만 상수 \u003d 1.38 * 10-23이고, W는 단위 시간 t \u003d 10-13 초, 시스템 \u003d 1 / N, 즉 시스템의 마이크로 상태 중 하나의 자발적인 수용 확률입니다.

S \u003d -k * Ln (1 / N) \u003d k * Ln (N), (2.4)

계수 k와 로그의 밑을 제외하고는 공식 (2.1)과 완전히 일치합니다. 이러한 외부 유사성으로 인해 정보 이론에서 Log 2 K의 값은 엔트로피라고도하며 H로 표시됩니다. 정보 엔트로피는 유한 또는 계산 가능한 수의 상태를 갖는 랜덤 변수 (물리적 시스템) 상태의 불확실성을 측정 한 것입니다. 랜덤 변수(rv)는 실험 또는 관찰의 결과로 미리 알려지지 않은 수치를 취하는 양이다.

따라서 X는 N 개의 서로 다른 값 x 1, x 2, ... x N을 취할 수있는 임의의 변수가되게하십시오. 모든 rv 값이 X는 똑같이 가능하며 X의 엔트로피 (불확실성 측정)는 다음과 같습니다.

H (X) \u003d Log 2 N (2.5)

비고 랜덤 변수 (시스템)가 하나의 상태 (N \u003d 1) 만있을 수 있으면 엔트로피는 0입니다. 실제로 이것은 더 이상 랜덤 변수가 아닙니다. 시스템의 불확실성이 높을수록 가능한 등가 상태의 수가 많아집니다.

엔트로피와 정보량은 비트 단위로 동일한 단위로 측정됩니다.

정의 1 비트는 두 개의 똑같이 가능한 상태를 가진 시스템의 엔트로피입니다.

시스템 X가 동일한 확률로 두 상태 x1과 x2에있게하십시오. N \u003d 2; 엔트로피는 H (X) \u003d Log 2 2 \u003d 1 비트입니다. 독수리 (x1) 또는 꼬리 (x2) 중 어느 것이 빠지는지를 던질 때 그러한 시스템의 예가 동전으로 우리에게 주어집니다. 동전이 "정확한"경우, 독수리 또는 꼬리가 떨어질 확률은 동일하고 1/2입니다.

정보 단위에 대한 정의를 하나 더 제공합니다.

정의 어떤 본성에 대한 질문에 대한 답은 (예, 아니오) 같은 확률로 1 비트의 정보를 포함합니다.

예입니다. 게임은 "두껍습니다." 한 손에 작은 물체를 숨기고 파트너에게 어떤 손을 숨겼는지 추측 할 수 있습니다. 그는 "왼손으로?" (또는 그냥 손을 고릅니다 : 왼쪽 또는 오른쪽). 그가 추측하면“예”, 그렇지 않으면“아니요”라고 대답합니다. 답이 있으면 파트너는 1 비트의 정보를 받고 상황의 불확실성이 완전히 제거됩니다.

Hartley 공식은 주어진 세트의 선택된 요소를 결정하는 문제를 해결하는 데 사용될 수 있습니다. 이 결과는 다음 규칙으로 공식화 될 수 있습니다.

N 개의 요소로 구성된 주어진 세트 M에서 일부 요소 x가 선택되어 더 이상 알려지지 않은 경우이 요소를 결정하려면 Log 2 N 비트의 정보를 얻어야합니다.

우리는 Hartley 공식을 적용 할 때 몇 가지 문제를 고려합니다.

문제 1. 누군가가 1에서 32 사이의 자연수를 구상했습니다. 보장   생각 된 (강조 표시된) 숫자를 추측하십시오. 대답은 예 또는 아니오 일 수 있습니다.

코멘트   간단한 철저한 검색으로 생각한 숫자를 추측 할 수 있습니다. 운이 좋으면 하나의 질문 만해야하며 가장 실패한 검색 옵션을 사용하면 31 개의 질문을해야합니다. 제안 된 문제에서 생각한 수를 결정하는 데 필요한 최소 질문 수를 결정해야합니다.

해결책.   Hartley 공식을 사용하면 정수 세트 (1,2,3 32)에서 선택한 요소 x를 결정하기 위해 확보해야하는 정보의 양을 계산할 수 있습니다. 이를 위해서는 H \u003d Log 2 32 \u003d 5 비트의 정보를 얻을 필요가있다. 질문에 대한 답변이 똑같이 가능하도록 질문을해야합니다. 그런 다음 각 질문에 대한 답은 1 비트의 정보를 가져옵니다. 예를 들어, 숫자를 1에서 16까지 그리고 17에서 32까지 두 개의 동일한 그룹으로 나누고 원하는 숫자가 속한 그룹을 요청할 수 있습니다. 또한 이미 16 개의 숫자 만 포함하는 선택된 그룹에서도 동일하게 수행해야합니다. 예를 들어 숫자 7을 생각하자.

질문 번호 1 : 의도 한 번호가 세트에 속합니까 (17; 32)? "아니오"라는 대답은 1 비트의 정보를 제공합니다. 우리는 이제 숫자가 세트 (1; 16)에 속한다는 것을 알고 있습니다.

질문 번호 2 : 의도 한 번호가 세트 (1; 8)에 속합니까? “예”라는 대답은 1 비트 더 많은 정보를 제공합니다. 우리는 숫자가 세트 (1; 8)에 속한다는 것을 알았습니다.

질문 번호 3 : 의도 한 번호가 세트 (1; 4)에 속합니까? “아니요”라는 대답은 1 비트 이상의 정보를 제공합니다. 우리는 숫자가 세트 (5; 8)에 속한다는 것을 알았습니다.

질문 번호 4 : 의도 한 번호가 세트 (7; 8)에 속합니까? “예”라는 대답은 1 비트 더 많은 정보를 제공합니다. 우리는 이제 그 숫자가 세트 (7; 8)에 속한다는 것을 알고 있습니다.

질문 번호 5 : 의도 한 숫자는 8입니까? “아니요”라는 대답은 1 비트 이상의 정보를 제공합니다. 우리는 이제 생각한 숫자가 7이라는 것을 알고 있습니다. 문제가 해결되었습니다. 5 개의 정보가 응답되었고 5 비트의 정보가 수신되었고 의도 된 수가 결정되었다. ‚

문제 2. (가짜 동전의 문제).   27 개의 동전이 있으며 그중 26 개는 실제이고 하나는 거짓입니다. 가짜 동전이 실제 동전보다 가볍다는 사실을 사용하여 27 중 하나의 가짜 동전을 결정하는 것이 보장되는 레버 스케일의 최소 계량 수는 얼마입니까?

레버 저울에는 두 개의 컵이 있으며 그 도움으로 컵의 내용물이 같은 무게인지, 그렇지 않은 경우 어떤 컵의 내용물이 더 무겁는지 확인할 수 있습니다.

해결책.Hartley 공식을 사용하여 가짜 동전을 결정하는 데 필요한 정보의 양을 즉시 결정할 수 있습니다. I \u003d Log 2 27 \u003d Log 2 (3 3) \u003d 3 Log 2 3 비트입니다. 계량 전략을 알지 \u200b\u200b못하면 문제를 해결하는 데 필요한 정보의 양을 말할 수 있습니다.

저울에 같은 수의 동전을 넣으면 똑같이 가능한 세 가지 결과가 가능합니다.

1. 왼쪽 컵이 오른쪽보다 무겁습니다 (L\u003e P).

2. 왼쪽 컵이 오른쪽보다 가볍습니다 (L< П);

3. 좌측 컵은 우측과 평형을 이룬다 (L \u003d P).

"레버 밸런스"시스템은 3 개의 동일하게 가능한 상태 일 수 있으므로 한 번의 계량으로 Log 2 3 비트의 정보가 제공됩니다. 전체적으로, 문제를 해결하려면 I \u003d 3 Log 2 3 비트의 정보를 얻어야하므로 가짜 동전을 결정하기 위해 3 번의 계량을 수행해야합니다. 우리는 이미 최소 수의 계량을 알고 있지만 여전히 수행하는 방법을 모릅니다. 전략은 각 계량이 최대량의 정보를 제공하도록해야합니다. 모든 동전을 각각 9 개씩 A, B, C의 3 개의 동일한 더미로 나눕니다. 문자 f로 표시되는 위조 동전은 세 개의 파일 중 하나 일 가능성이 동일합니다. A와 B와 같은 두 가지 중 하나를 선택하고 무게를 측정하십시오.

  세 가지 결과가 가능합니다.

1) A는 B보다 무겁다 (A\u003e B). f β를 의미하고;

2) A는 B보다 가볍다 (A< B); значит f Î A;

3) A는 B와 평형을 이룬다 (A \u003d B). f γ C를 의미

어떤 결과를 위해, 가짜 동전 f가 어느 더미에 있는지 결정하지만,이 더미에는 이미 9 개의 동전 만있을 것입니다. 그것을 각각 A1, B1, C1, 3 동전의 3 개의 동일한 더미로 나눕니다. 둘 중 하나를 선택하고 무게를 측정하십시오. 이전 단계에서와 같이 위조 동전이있는 동전 더미를 결정하지만 이제 더미는 3 개의 동전으로 구성됩니다. 두 개의 동전을 선택하고 무게를 측정하십시오. 이것은 마지막, 세 번째 계량이 될 것이며, 그 후에 가짜 동전을 찾을 수 있습니다.

작업 3. 계산기를 사용하지 않고 시스템의 엔트로피를 평가합니다.이 엔트로피는 1 비트의 정확도로 50 개의 상태에있을 가능성이 동일합니다.

해결책.   Hartley 공식 H \u003d Log 2 50에 따르면이 식을 평가하겠습니다.

분명히 32< 50 < 64; логарифмируем это неравенство à Log 2 32 < Log 2 50 < Log 2 64 à 5 < Log 2 50 < 6. Энтропия системы с точностью до 1 бита 5 < H < 6 . ‚

작업 4.   시스템의 엔트로피는 7 비트 인 것으로 알려져있다. 이 시스템의 상태가 똑같이 가능한 것으로 알려진 경우이 시스템의 상태 수를 결정하십시오.

해결책.시스템 상태 수를 N으로 표시합니다. 모든 상태가 똑같이 가능하기 때문에 H \u003d Log 2 N à N \u003d 2 H, 즉 N \u003d 2 7 \u003d 128.

Hartley 공식뿐만 아니라이 공식은 컴퓨터 과학에서 다양한 확률로 총 정보량을 계산하는 데 사용됩니다.

다양한 불평등 확률의 예는 군대의 병영에서 사람들이 빠져 나오는 것입니다. 군인과 장교, 심지어 장군 모두 막사를 떠날 수 있습니다. 그러나 병영에 병사, 장교 및 장군의 분포가 다릅니다. 이는 가장 많은 병사가있을 것이므로 장교의 수는 가고 가장 희귀 한 종류는 장군이 될 것입니다. 세 가지 유형의 군대 모두에 대해 확률이 같지 않기 때문에 그러한 사건이 얼마나 많은 정보를 사용하는지 계산하기 위해 섀넌의 공식.

코인 플립 (독수리가 떨어지거나 꼬리가 동일 할 확률-50 %)과 같은 다른 가능한 사건의 경우 Hartley 공식이 사용됩니다.

이제 구체적인 예를 통해이 공식의 적용을 살펴 보겠습니다.

가장 적은 정보를 포함하는 메시지 (비트 수) :

  1. 6 개의 과자를 바삭하게 먹었고, 그 중 2 개는 매자 나무였습니다.
  2. 컴퓨터에는 10 개의 폴더가 있으며 원하는 파일은 9 개의 폴더에 있습니다.
  3. 바바 루다 (Baba Luda)는 고기 4 개와 양배추 4 개를 만들었습니다. 그레고리는 2 마리의 파이를 먹었습니다.
  4. 아프리카에서는 200 일 동안 건조한 날씨와 165 일 동안 계절풍이 쏟아집니다. 아프리카는 1 년에 40 일을 사냥했습니다.

이 문제에서는 이벤트가 똑같이 가능하기 때문에 1, 2 및 3 옵션, 이러한 옵션을 쉽게 고려할 수 있습니다. 그리고 이것을 위해 우리는 Hartley 공식을 사용할 것입니다   I \u003d 로그 2 N(그림 1) 그러나 일의 분포가 일정하지 않다는 것을 볼 수있는 지점 4에서 (이점은 건조한 날씨의 방향에 있음)이 경우 어떻게해야합니까? 이러한 경우 Shannon 또는 정보 엔트로피 공식이 사용됩니다. I \u003d-(p 1 log 2 p 1 + p 2 log 2 p 2 + .. + P N log 2 p N),(그림 3)

정보 수의 공식 (HARTLEY FORMULA, 그림 1)

어느 :

  • 나는 정보의 양이다
  • p-이 사건이 일어날 확률

우리의 임무에서 우리에게 관심있는 사건은

  1. 6 개의 바바 리스크 중 2 개가있었습니다 (2/6)
  2. 총 수 (1/10)와 관련하여 원하는 파일을 찾은 폴더가 하나 있습니다.
  3. 총 8 개의 파이가 있었고 그 중 2 개는 그레고리가 먹었습니다 (2/8).
  4. 그리고 이십오 일 건조 일과 관련하여 사십 일의 마지막 사십 일과 사백 오십 일 비오는 날에. (40/200) + (40/165)

그래서 우리는 그것을 얻습니다 :

  이벤트의 확률 공식.

K가 우리에게 관심이있는 이벤트이고 N이이 이벤트의 총 수인 경우, 이벤트의 확률은 1보다 클 수 없습니다. (항상 가능한 이벤트가 적기 때문에)

  계산 정보에 대한 SHENNON 공식 (그림 3)

우리의 작업으로 돌아가서 얼마나 많은 정보가 포함되어 있는지 계산해 봅시다.

그건 그렇고, 로그를 계산할 때 사이트를 사용하는 것이 편리합니다-https://planetcalc.ru/419/#

  • 첫 번째 경우-2/6 \u003d 0.33 \u003d 및 Log 2 0.33 \u003d 1.599 비트
  • 두 번째 경우-1/10 \u003d 0.10 Log 2 0.10 \u003d 3.322 비트
  • 세 번째-2/8 \u003d 0.25 \u003d Log 2 0.25 \u003d 2 비트
  • 네 번째-40/200 + 40/165 \u003d 0.2 및 0.24의 경우 공식-(0.2 * log 2 0.2) +-(o.24 * log 2 0.24) \u003d 0.95856 비트에 따라 계산합니다

따라서 우리의 문제에 대한 답은 4.

1928 년 미국 엔지니어 R. Hartley는 정보를 얻는 과정을 N 개의 동일한 가능성있는 메시지의 최종 세트에서 하나의 메시지를 선택하는 것으로 간주했으며 선택한 메시지에 포함 된 정보의 양을 N의 이진 로그로 결정했습니다.

하틀리 공식 : I \u003d log 2 N

1에서 100까지의 숫자 집합에서 하나의 숫자를 추측한다고 가정하십시오. Hartley 공식을 사용하여 필요한 정보의 양을 계산할 수 있습니다. I \u003d log 2 100  6.644. 따라서, 정확하게 추측 된 수에 관한 메시지는 대략 6.644 단위의 정보와 동일한 양의 정보를 포함한다.

우리는 다른 사람들에게 평등 한 메시지의 예:

동전을 던질 때 : "꼬리가 떨어졌다", "독수리가 떨어졌다";

책 페이지에서 : "글자 수가 짝수입니다", "글자 수가 홀수".

우리는 지금 정의 똑같이 가능한 메시지 “건물 문을 떠난 첫 여자”   그리고 "처음으로 건물 문을 나가는 사람". 이 질문에 명백하게 대답하는 것은 불가능합니다.. 그것은 모두 문제의 건물에 달려 있습니다. 예를 들어 지하철 역이라면 문을 먼저 떠날 확률은 남녀 모두 동일하며 군사 막사 인 경우 남성의 경우이 확률은 여성보다 훨씬 높습니다.

이런 종류의 작업을 위해 미국 과학자 클로드 섀넌   1948 년에 세트에서 메시지의 가능한 불균등 확률을 고려한 정보의 양을 결정하기위한 또 다른 공식이 제안되었다.

Shannon의 공식 : I \u003d-(p 1 log 2 p 1 + p 2 log 2 p 2 + .. + P N log 2 p N),
  어디 p   나는   -확률 나는이 메시지는 일련의 N 메시지로 강조 표시됩니다.

확률이 높으면 p 1, ..., p N   같으면 각각 동일합니다 1 / NShannon의 공식은 Hartley 공식으로 바뀝니다.

정보의 양을 결정하기 위해 고려 된 두 가지 접근법 외에도 다른 방법이 있습니다. 이론적 결과는 초기 가정에 의해 요약 된 특정 범위의 사례에만 적용된다는 것을 기억하는 것이 중요합니다.

정보 단위로 Claude Shannon은 하나의 채택을 제안했습니다. 약간 (영어. 조금 - 바이 nary digi t   이진수입니다).



비트 정보 이론에서   -두 개의 동일하게 예상되는 메시지 (예 : "eagle"- "tails", "even"- "odd"등)를 구별하는 데 필요한 정보의 양

컴퓨팅에서   비트는 컴퓨터 내부의 데이터 및 명령을 나타내는 데 사용되는 두 문자 "0"및 "1"중 하나를 저장하는 데 필요한 컴퓨터 메모리의 가장 작은 "부분"입니다.

비트가 너무 작은 단위입니다. 실제로는 더 큰 단위가 종종 사용됩니다. 바이트 같음 8 비트.   컴퓨터 키보드 알파벳의 256 자 (256 \u003d 2 8)를 인코딩하려면 8 비트가 필요합니다.

널리 사용 더 큰 파생 정보 단위:

1 킬로바이트 (KB) \u003d 1024 바이트 \u003d 2 10 바이트,

1 메가 바이트 (MB) \u003d 1024KB \u003d 2 20 바이트

1 기가 바이트 (GB) \u003d 1024MB \u003d 2 30 바이트

최근 처리 된 정보의 양이 증가함에 따라 다음과 같은 파생 단위가 사용됩니다.

1 테라 바이트 (TB) \u003d 1024GB \u003d 2 40 바이트,

1 페타 바이트 (PB) \u003d 1024TB \u003d 2 50 바이트.

정보 단위의 경우, 예를 들어 10 개의 똑같이 가능한 메시지를 구별하는 데 필요한 정보의 양을 선택할 수 있습니다. 이진수 (비트)가 아니라 십진수 ( 아이) 정보 단위.

정보로 무엇을 할 수 있습니까?

이용 가능한 정보 :

정보에 대한 특정 작업과 관련된 모든 프로세스를 호출합니다 정보 프로세스.

정보 속성.

정보 속성 :

신뢰성;

가치;

적시; 이해력;

가용성;

간결함;

정보가 실제 상황을 반영하면 신뢰할 수 있습니다. 부정확 한 정보는 오해 나 잘못된 결정으로 이어질 수 있습니다.

신뢰할 수있는 정보는 시간이 지남에 따라 부정확해질 수 있습니다속성이 있으므로 쓸모 없어지 다실제 상황을 반영하지 않는다.

정보를 이해하고 결정하기에 충분하면 정보가 완성됩니다. 불완전한 정보와 중복 정보 의사 결정을 제한하거나 오류를 일으킬 수 있습니다.

정보 정확성   물체의 실제 상태, 프로세스, 현상 등에 대한 근접도에 의해 결정됩니다.

정보의 가치는 문제를 해결하는 데 얼마나 중요한지에 달려 있습니다.뿐만 아니라 얼마 후에는 어떤 종류의 인간 활동에도 적용 할 수 있을까요.

적시 정보는 예상되는 이점을 가져올 수 있습니다. 마찬가지로 바람직하지 않은 조기 정보 제출   (여전히 동화 될 수없는 경우) 지연.

가치 있고시기 적절한 정보가 이해할 수없는 방식으로 표현되는 경우그녀는 될 수있다 쓸모없는.

정보 명확 해지다이 정보가 의도 된 사람들이 사용하는 언어로 표현 된 경우.

정보는 접근 가능한 방식으로 제시되어야합니다.   (인식 수준) 양식. 따라서 교과서와 과학 간행물에 동일한 질문이 다르게 표시됩니다.

같은 문제에 대한 정보 요약 될 수있다   (중요하지 않은 세부 사항없이 간결함) 또는 방대한   (자세한, 자세한) 참고 문헌, 백과 사전, 교과서 및 모든 종류의 지침에 정보의 간결성이 필요합니다.

정보 처리.

정보 처리   -일부 알고리즘을 수행하여 다른 정보 개체에서 일부 정보 개체를 가져옵니다.

처리는 정보에 대해 수행되는 주요 작업 중 하나이며, 정보의 양과 다양성을 증가시키는 주요 수단입니다.

정보 처리 도구는 인류가 만든 모든 종류의 장치와 시스템이며, 무엇보다도 컴퓨터는 정보 처리를위한 보편적 인 기계입니다.

Hartley, Shannon Formulas.

1928 년 미국 엔지니어 R. Hartley는 메시지 평가에 대한 과학적 접근 방식을 제안했습니다. 그가 제안한 공식은 다음과 같습니다.

I \u003d 로그 2   K

여기서 K는 똑같이 가능한 사건의 수입니다. I는 K 이벤트 중 하나가 발생하도록 메시지의 비트 수입니다. 그런 다음K \u003d 2 .

때때로 Hartley 공식은 다음과 같이 작성됩니다.

I \u003d 로그 2   K \u003d 로그 2 (1 / p) \u003d-로그 2 p

각 K 이벤트는 똑같이 가능한 결과 p \u003d 1 / K를 가지므로 K \u003d 1 / p입니다.

도전.

공은 A, B 또는 C의 3 가지 투표함 중 하나에 있습니다. 메시지가 투표함 B에 있음을 나타내는 메시지의 비트 수를 결정하십시오.

해결책.

이러한 메시지에는 I \u003d log가 포함됩니다. 2   3 \u003d 1,585 비트의 정보.

그러나 모든 상황이 동일한 구현 확률을 갖는 것은 아닙니다. 구현 확률이 다른 많은 상황이 있습니다. 예를 들어 비대칭 동전이나 "샌드위치 규칙"을 던지는 경우.

“어렸을 때, 나는 샌드위치를 \u200b\u200b떨어 뜨 렸는데, 바닥에 기름 얼룩이 묻은 것을 유죄로 지켜 보면서 형이 저를 안심 시켰습니다.

-걱정하지 마십시오. 샌드위치의 법칙이 적용되었습니다.

-이게 무슨 법입니까? 나는 물었다.

-법은 "샌드위치는 항상 버터를 떨어 뜨린다"고 말합니다. 그러나 이것은 농담입니다-형제를 계속했습니다. -법이 없습니다. 샌드위치가 실제로 이상하게 작동한다는 것입니다. 대부분의 경우 기름이 바닥에 있습니다.

“샌드위치를 \u200b\u200b두 번 더 떨어 뜨리고 확인하십시오.”라고 제안했습니다. "어쨌든 버려야합니다."

확인했습니다. 10 번 중 8 번의 샌드위치가 버터를 떨어 뜨 렸습니다.

그런 다음 샌드위치가 어떻게 버터에 오르는 지 아래로 떨어지는 지 미리 알 수 있습니까?

우리 실험은 어머니에 의해 중단되었습니다 ... "

(V.Abchuk의 "위대한 지도자의 비밀"책에서 발췌)

1948 년 미국의 한 엔지니어이자 수학자 인 C. Shannon은 확률이 다른 사건에 대한 정보의 양을 계산하는 공식을 제안했습니다.

내가 정보의 양이면

K는 가능한 이벤트 수입니다.

p 나는   -개별 이벤트의 확률

확률이 다른 이벤트에 대한 정보의 양은 다음 공식에 의해 결정될 수 있습니다.

I \u003d-합계p 나는   로그 2 p 나는 ,

여기서 i는 1에서 K까지의 값을 갖습니다.

Hartley 공식은 이제 Shannon 공식의 특별한 경우로 간주 될 수 있습니다.

I \u003d-합계 1 /   로그 2 (1 / ) \u003d I \u003d 로그 2 .

똑같이 가능한 이벤트의 경우 수신되는 정보의 양이 최대입니다.

생리 학자와 심리학자는 사람이 감각의 도움으로 인식하고 기억과 과정을 유지할 수있는 정보의 양을 결정하는 법을 배웠습니다. 정보는 소리, 기호 등 다양한 형태로 제공 될 수 있습니다. 메시지에 수신 된 정보의 양을 결정하기위한 상기 방법은 지식의 불확실성을 감소시키고, 내용의 관점, 참신함 및 인간에 대한 이해의 관점에서 정보를 고려합니다. 이 관점에서, 큐브를 던지는 실험에서, 동일한 양의 정보가 "2"메시지, "2 개의 포인트가있는 라인이 위로 떨어졌습니다"및 큐브의 시각적 이미지에 같은 양의 정보가 포함됩니다.

다양한 기술 장치를 사용하여 정보를 전송하고 저장할 때 정보는 내용을 고려하지 않고 일련의 문자 (숫자, 문자, 이미지 포인트의 색상 코드)로 간주해야합니다.

알파벳 (사인 시스템의 문자 세트)이 이벤트 인 경우 메시지에서 문자 중 하나의 모양이 이벤트 상태 중 하나로 간주 될 수 있습니다. 문자 모양이 똑같이 가능한 경우 각 문자가 몇 비트의 정보를 전달하는지 계산할 수 있습니다. 문자의 정보 용량은 알파벳 숫자로 결정됩니다. 알파벳으로 구성된 문자가 많을수록 더 많은 정보가 한 문자를 전달합니다. 알파벳의 총 문자 수를 알파벳의 거듭 제곱이라고합니다.

DNA 분자 (데 옥시 리보 핵산)는 유전자 알파벳을 형성하는 4 개의 다른 성분 (뉴클레오티드)으로 구성됩니다. 이 알파벳의 부호 정보 용량은 다음과 같습니다.

4 = 2 즉, I \u003d 2 비트

러시아 알파벳의 각 문자 (e \u003d e라고 가정하면)는 5 비트 (32 \u003d 2)의 정보를 전달합니다 ).

이 방법을 사용하면 다이 롤 결과에 대한 메시지 결과로 다른 양의 정보를 얻을 수 있으므로이를 계산하려면 문자 수에 한 문자를 포함하는 정보의 양을 곱해야합니다.

문자 시스템을 사용하여 인코딩 된 메시지에 포함 된 정보의 양은 메시지의 문자 수에 1 문자를 곱한 정보의 양과 같습니다.

실시 예 1   Hartley 공식을 사용하여 정보량 계산 메시지가 몇 비트의 정보를

기차는 8 가지 방법 중 하나로 도착합니까?

하틀리 포뮬러 :   I \u003d 로그 2 N ,

여기서 N은 메시지에서 언급 된 사건의 똑같이 가능한 결과의 수입니다.

메시지의 정보량입니다.

I \u003d 로그 2 8 \u003d 3 (비트) 답변 : 3 비트.

비 확률 이벤트에 대한 Hartley의 수정 된 공식.   N 개의 가능한 사건들 각각의 발병이 같은 확률을 가지기 때문에

p \u003d 1 / N 그때N \u003d 1 / p   수식의 형식은

I \u003d 로그 2 N \u003d 로그 2 (1 / p) \u003d-로그 2 p

사건 확률 (p)과 이에 관한 메시지의 정보량 (I) 사이의 양적 관계는 다음 공식으로 표현됩니다.

I \u003d 로그 2 (1 / p)

사건의 확률은 공식에 의해 계산됩니다p \u003d K / N , K는 우리에게 관심있는 사건이 몇 번이나 발생했는지를 나타내는 값입니다. N은 가능한 총 결과 수, 이벤트입니다. 확률이 감소하면 정보량이 증가합니다.

실시 예 2   이 수업에는 30 명이 있습니다. 수학의 제어 작업을 위해 6 5, 15 4, 8 3 배 및 1 듀스를 받았다. Ivanov가 4 개를 받았다는 메시지는 몇 비트입니까?

사건 확률 (p)과 사건 정보의 양 (I) 사이의 양적 관계

I \u003d 로그 2 (1 / p) \u003d-로그 2 p

이벤트 확률 15/30

메시지의 정보량 \u003d 로그 2 (30/15) \u003d 로그 2 2=1.

답 : 1 비트.

Shannon의 공식을 사용합니다. N 중 하나에 대한 메시지에서 정보의 양을 계산하는 일반적인 경우이지만 이미 고르지 않은 이벤트입니다. 이 접근법은 1948 년 C. Shannon에 의해 제안되었습니다.

기본 정보 단위 :

Iav-평균적으로 한 글자 당 정보 비트 수;

M-메시지의 문자 수

I-메시지의 정보량

p 나는   -메시지에 i 문자가 나타날 가능성; i는 기호 번호입니다.

결혼 = -

가치 결혼 나는 p 나는 \u003d 1 / N.

실시 예 3   무작위로 생성 된 "헤드 라이트"메시지에 의해 전달되는 정보의 수. 러시아어 텍스트에서 천 문자마다 평균 "a"가 200 번, 문자 "f"-2 번, 문자 "p"-40 번 발생하는 경우

메시지에 기호가 나타날 확률은 텍스트에서 발생 빈도와 일치한다고 가정합니다. 따라서 문자 "a"는 200/1000 \u003d 0.2의 평균 주파수로 발견됩니다. 텍스트에 문자 "a"가 나타날 확률 (p a )는 대략 0.2와 같은 것으로 간주 될 수있다.

문자 "f"는 2/1000 \u003d 0.002의 빈도로 발생하고; 문자 "p"-빈도 40/1000 \u003d 0.04;

마찬가지로 p p \u003d 0.04, p f   \u003d 0.002. 그런 다음 C. Shannon에 따라 진행합니다. 우리는 0.2의 이진 대수를 취하여 문제의 텍스트에서 단일 문자 "a"로 전달되는 정보의 양으로 밝혀졌습니다. 각 문자에 대해 동일한 작업을 수행합니다. 그런 다음 한 글자로 전달되는 개인 정보의 양은로그 2 1 개 / p 나는   \u003d-로그 2   p 나는 , 정보량의 척도로서 알파벳의 한 문자 당 정보량의 평균값을 사용하는 것이 더 편리하다.

결혼 = -

가치 결혼   똑같이 가능한 사건, 즉 모든 p의 평등으로 최대에 도달 나는

p 나는 \u003d 1 / N.

이 경우 Shannon 수식은 Hartley 수식으로 바뀝니다.

나는 \u003d M * 나는 결혼 \u003d 4 * (-(0.002 * 로그 2 0.002 + 0.2 * 로그 2 0.2 + 0.04 * 로그 2 0.04 + 0.2 * 로그 2 0,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53

답 : 4.53 비트

테이블을 컴파일 할 때 다음을 고려해야합니다.

    데이터 입력 (조건에 나와 있음).

    가능한 총 결과 수 계산 (수식 N \u003d K 1 + K 2 + ... + K 나는).

    각 사건의 확률 계산 (공식 p 나는\u003d K 나는/ N).

    발생하는 각 이벤트에 대한 정보의 양 계산 (수식 I 나는\u003d 로그 2 (1 / p 나는)).

    확률이 다른 이벤트에 대한 정보의 양을 계산합니다 (Shannon의 공식).

진행 :

1 . 정보량을 계산하기 위해 테이블 \u200b\u200b형식 모델을 만듭니다.

2 . 표 형식 모델을 사용하여 문제 2 번 (그림 3)을 계산하고 계산 결과를 노트북에 넣습니다.

문제 번호 3

상자에는 10 빨간색, 8 녹색, 5 노란색, 12 파란색 큐브가 있습니다. 각 색상의 큐브를 얻을 확률과 얻을 정보의 양을 계산하십시오.

문제 번호 4

불투명 백에는 10 개의 흰색, 20 개의 빨간색, 30 개의 파란색 및 40 개의 녹색 공이 들어 있습니다. 꺼낸 공의 색상에 대한 시각적 메시지에는 얼마나 많은 정보가 포함됩니까?

이것을 공유하십시오