Информатика - Учебное пособие

Информация

 

В ХIX веке введение понятия "энергия" породило плодотворный методический подход, позволивший с единой "энергетической" точки зрения обсуждать и сопоставлять явления электрические и механические, биологические и тепловые, явления, ранее совместно не изучавшиеся.

В настоящее время на такую же роль нового, революционизирующего методику научного познания претендует понятие "информация".

Определения информации:

1. Совокупность знаний о фактических данных и зависимостях между ними. Является одним из видов ресурсов, используемых человеком в трудовой деятельности и в быту.

2. В вычислительной технике - содержание, присваиваемое данным, подлежащим вводу в

ЭВМ, хранимым в его памяти, обрабатываемым на ЭВМ и выдаваемым пользователям.

Информация, принимаемая каким-либо устройством из внешней среды, может иметь для получателя конкретный смысл, вызывать ответную (субъективную) реакцию. При этом у различных получателей может быть и различная оценка одного и того же сообщения. Говорить же о "важности", "полезности" информации для машины, получающей информацию, бессмысленно. В этом проявляется объективный характер понятия "информация". Следствием этой объективности является и проблема измеримости информации. Измеримость информации следует хотя бы из того, что получение информации одновременно означает уменьшение незнания или информационной неопределенности.

Примеры.

1. Шарик находится  в одном из пяти ящиков  - информационная  неопределенность равна 5.

2. Книга находится на одной из двух полок - информационная неопределенность равна

2.

 

Сообщение,   уменьшающее            неопределенность     ровно  вдвое, содержит        единицу информации - бит (от англ. "binary digit" - двоичный знак).

 

Разнообразие источников и потребителей информации привело к существованию различных форм ее представления:

 

и н ф о р м а ц и я

 

/           !          

/           !          

/           !          

 

символьная    текстовая        графическая

 

Если мы хотим оценить количество информации, нужно найти способ представить любую ее форму в едином виде.

В принципе, любое передаваемое информационное сообщение отображается с помощью некоторого конечного упорядоченного набора знаков, называемого алфавитом. Конечные последовательности символов алфавита называются словами, из слов составляются сообщения.

Для представления разнообразной информации нужно не так уж много символов. Так во всех текстах на русском языке используется весьма ограниченный набор различных символов:

33   буквы   алфавита,   10   цифр   и   несколько   десятков   знаков.   И   этот   набор   позволяет зафиксировать колоссальный объем информации.

Исторически развитие вычислительной техники привело к тому, что подавляющее большинство современных компьютеров выполнено на электронных элементах, имеющих 2 устойчивых состояния: реле, триггеры, электронные ключи и т. д. Подобным устройствам идеально соответствует двоичный алфавит, состоящий из двух символов: 0 и 1 (включено - 1, выключено - 0). Очевидно, что перед обработкой компьютером поступающая информация должна быть переведена на язык, ему понятный, т. е. закодирована.

 

Вообще кодированием называется процесс представления символов одного алфавита средствами другого алфавита.

Код - полный набор кодовых комбинаций, соответствующий представлению всех букв

(символов) кодируемого алфавита.

 

Методику представления информации в двоичной форме можно пояснить, используя для получения интересующей информации вопросы, на которые можно отвечать только "Да" или "Нет". Условимся каждый положительный ответ представлять цифрой "1", а отрицательный - цифрой "0". Тогда запись всех ответов образует многозначную последовательность цифр, состоящих из нулей и единиц.

Рассмотренный  процесс  получения  двоичной  информации  об  объекте  исследования называют двоичным кодированием информации.

Один разряд последовательности двоичных цифр может иметь только два значения: 0, 1. Двухразрядная последовательность имеет уже 4 различных значения: 00, 01, 10, 11. Трехразрядная последовательность имеет 8 значений и т. д. (см. табл. 1).

 

Таблица 1. Информационная емкость двоичных чисел

 

число разрядов

1

2

3

4

5

6

7

8

9

10

количество

различных значений

2

4

8

16

32

64

128

256

512

1024

 

Легко заметить, что число различных значений двоичной последовательности равняется двойке, возведенной в степень, равную длине двоичного числа. Так что приведенную выше таблицу легко продолжить.

Обычно в информационных документах широко используются не только русские, но и латинские буквы, а также цифры, различные математические знаки, всего примерно до 200 -

250 символов. Из таблицы следует, что для двоичного кодирования всех указанных символов необходима 8-разрядная последовательность нулей и единиц, обеспечивающая 256 различных комбинаций.

Для того, чтобы различные компьютеры могли одинаково воспринимать одну и ту же информацию, существуют определенные международные соглашения (стандарты), согласно которым каждому символу внешнего алфавита соответствует вполне определенная двоичная кодовая посылка. Широко распространенным является стандарт ASCII («американский стандартный код обмена информацией») (таблица 2).

 

Таблица 2. Кодовые комбинации ASCII некоторых символов

 

Символ

 

Двоичный код

 

16-ричный код

 

десятичный код

0

00110000

30

48

1

00110001

31

49

2

00110010

32

50

9

00111001

39

57

A

01000001

41

65

B

01000010

42

66

C

01000011

43

67

Z

01011010

5A

90

=

00111101

3D

61

.

00101110

2E

46

?

00111111

3F

3F

+

00101011

2B

43

 

Для представления в двоичной форме графической информации обычно используется т. н. поточечный способ:

- изображение делят на клетки (пикселы);

- определяется номер пиксела;

- определяется яркость пиксела (в различных цветовых диапазонах).

Предположим, что картина разбита на 50 тысяч клеток. Тогда номер клетки должен быть закодирован 16-разрядной двоичной последовательностью ((210=1024) · (26=64)).

Пусть для решаемой задачи яркость каждого из основных цветов достаточно разбить на 16 градаций (уровней). Из таблицы 1 следует, что такая яркость кодируется 4-значной двоичной последовательностью. В итоге, вся информация о пикселе передается одной 16-разрядной координатой и 4-разрядными посылками яркости для каждого цвета, например,

 

10110010 01111010

1010

1101

0011

номер пиксела

яркость

яркость

яркость

 

зеленого

синего

красного

 

Аналогично передается информация о других участках картины.

 

Количественная   оценка   информации.   Научный   подход   к   оценке   сообщений   был предложен в 1928 году американским инженером Р.Хартли. Его расчетная формула имеет вид:

 

H = log2 N,     (1.1)

 

где N - количество равновероятных событий, H - количество битов в сообщении, что любое из N

событий произошло (H еще называют энтропией опыта).

Пример.

В   сообщении   о   том,   что   шарик   находится   в   одной   из   трех   урн,   содержится

H = log2 3 = 1,585 бит.

Иногда формула (1.1) записывается по-другому. Поскольку каждое из N равновероятных

событий имеет вероятность p = 1/N, то N = 1/p, и (1.1) можно переписать как

 

H = - log2 p.    (1.2)

 

Если    исходы           опыта  не        равновероятны,         то        формулу         для      количественной            оценки информации записывают в виде

 

n

H         pi log 2  pi ,     (1.3)

i  1

 

где рi  - вероятность  i -го испытания, n - число возможных исходов опыта.

Пример. Пусть в урне находятся 2 шара - белый и черный. Вероятность извлечь любой из

них одинакова, а именно, p = 1/2. Тогда количество информации, связанное с таким опытом, и по формуле (1.1) и по формуле (1.3) равно 1 биту. Усложним опыт. Пусть в урне 10 шаров, из которых 1 черный и 9 белых. Каков цвет вынутого наугад шара? Интуитивно ясно, что неопределенность (а, значит, и количество получаемой информации) меньше, чем в первом случае.  Скорее  всего,  будет  извлечен  белый  шар.  Если  считать,  что  вероятность  исхода  с черным шаром = 1/10, а вероятность исхода с белым шаром = 9/10, то по формуле (1.3) получим

H = (1/10) log2 10 + (9/10) log2 (10/9) = 0,469 бит. Таким образом, интуиция нас не обманула.

Если сообщение представляется буквами русского алфавита (33 символа и пробел), то при равновероятном  их  появлении  количество  информации,  связанное  с  появлением  одного символа согласно формулы (1.1),

 

 

 
H = log2 34     5 бит.

 

 

 

 
Реально в словах различные буквы встречаются неодинаково (наиболее часто - пробел и буква "о", наиболее редко - буквы "э" и "ф") и не являются независимыми, реальная оценка количества информации на 1 символ русского алфавита H      1,2 бит. В других алфавитах - по-другому. Так, для немецкого языка  H     1,6 бит, для английского  H  2,5 бит.

В  современных  средствах  приема,  обработки  и  передачи  информации  наиболее  часто

используются двоичные алфавиты, которые математически наиболее естественно отображать с помощью двоичного кода. Если считать, что с 0 и 1 связаны одинаковые вероятности их появления (р = 1/2), то количество информации на 1 символ при двоичном кодировании

 

H = log2 2 = 1 (бит).

 

Таким образом, количество информации (в битах), заключенное в двоичном слове, равно длине слова, т. е. числу двоичных знаков в нем.

В язык представления информации в двоичном виде кроме бита входит и байт (byte). Байт  определяется  как  наименьшая  адресуемая  единица  данных  или  памяти  ЭВМ,  обычно равная 8 битам.

Исторически  размер  байта  сложился  как  компромисс  между  гибкостью  и эффективностью реализации оперативного доступа к участкам памяти ЭВМ в связи с необходимостью  обработки  символьных  и  числовых  данных  при  разной  точности представления последних.

С точки зрения информационной емкости современных запоминающих устройств байт является слишком малой единицей, поэтому на практике чаще оперируют следующими производными единицами:

1 килобайт (1 Кбайт) = 210 байт,

1 мегабайт (1 Мбайт) = 220 байт,

1 гигабайт (1 Гбайт) = 230 байт,

1 терабайт (1 Тбайт) = 240 байт,

1 петабайт (1 Пбайт) = 250 байт. Пример.

Подсчитаем информационную емкость книги. Пусть в ней насчитывается 200 страниц, каждая страница содержит 50 строк в среднем по 50 символов в каждой. Для хранения одного символа требуется один байт, тогда емкость книги при переводе ее в двоичный код составит

1·50·50·200 = 500 000 байт = 488,2 Кбайта.

Отметим, что в своей деятельности человек использует все большие массивы информации. Так, если с 1940 по 1950 год объем информации примерно удвоился, то в настоящее время это удвоение уже происходит за 2 - 3 года.

Интересен прогноз японских специалистов конца 80-х годов ХХ века по изменению соотношения между производительным трудом и средствами информации в общих энергозатратах человечества в ХХ веке. Если в начале века на долю информации приходилось 3

- 5\%, то по прогнозу на 2000 год примерно такая же доля остается на производительный труд.