Что нужно знать для определения информационного веса

Что нужно знать для определения информационного веса

Ключевые слова:

  • бит
  • информационный вес символа
  • информационный объём сообщения
  • единицы измерения информации

1.4.1. Алфавитный подход к измерению информации

Вспомним, что, с точки зрения субъективного подхода к определению информации, информация — это содержание сообщений, которые человек получает из различных источников. Одно и то же сообщение может нести много информации для одного человека и не нести её совсем для другого человека. При таком подходе количество информации определить однозначно затруднительно.

Алфавитный подход позволяет измерить информационный объём сообщения, представленного на некотором языке (естественном или формальном), независимо от его содержания.

Для количественного выражения любой величины необходима, прежде всего, единица измерения. Измерение осуществляется путём сопоставления измеряемой величины с единицей измерения. Сколько раз единица измерения «укладывается» в измеряемой величине, таков и результат измерения.

При алфавитном подходе считается, что каждый символ некоторого сообщения имеет определённый информационный вес — несёт фиксированное количество информации. Все символы одного алфавита имеют один и тот же вес, зависящий от мощности алфавита. Информационный вес символа двоичного алфавита принят за минимальную единицу измерения информации и называется 1 бит. Обратите внимание, что название единицы измерения информации «бит» (bit) происходит от английского словосочетания «binary digit» — «двоичная цифра».

За минимальную единицу измерения информации принят 1 бит. Считается, что таков информационный вес символа двоичного алфавита.

1.4.2. Информационный вес символа произвольного алфавита

Ранее мы выяснили, что алфавит любого естественного или формального языка можно заменить двоичным алфавитом. При этом мощность исходного алфавита N связана с разрядностью двоичного кода i, требуемой для кодирования всех символов исходного алфавита, соотношением: N = 2 i .

Разрядность двоичного кода принято считать информационным весом символа алфавита. Информационный вес символа алфавита выражается в битах.

Информационный вес i символа алфавита и мощность N алфавита связаны между собой соотношением: N = 2 i .

Задача 1. Алфавит племени Пульти содержит 8 символов. Каков информационный вес символа этого алфавита?

Решение. Составим краткую запись условия задачи.

Известно соотношение, связывающее величины i и N: N = 2 i .

С учетом исходных данных: 8 = 2 i . Отсюда: i = 3.

Полная запись решения в тетради может выглядеть так:

1.4.3. Информационный объём сообщения

Информационный объём сообщения (количество информации в сообщении), представленного символами естественного или формального языка, складывается из информационных весов составляющих его символов.

Информационный объём I сообщения равен произведению количества К символов в сообщении на информационный вес i символа алфавита:

I = K • i.

Задача 2. Сообщение, записанное буквами 32-символьного алфавита, содержит 140 символов. Какое количество информации оно несёт?

Ответ’: 700 битов.

Задача 3. Информационное сообщение объёмом 720 битов состоит из 180 символов. Какова мощность алфавита, с помощью которого записано это сообщение?

Ответ: 16 символов.

1.4.4. Единицы измерения информации

В наше время подготовка текстов в основном осуществляется с помощью компьютеров. Можно говорить о «компьютерном алфавите», включающем следующие символы: строчные и прописные русские и латинские буквы, цифры, знаки препинания, знаки арифметических операций, скобки и др. Такой алфавит содержит 256 символов. Поскольку 256 = 2 8 , информационный вес каждого символа этого алфавита равен 8 битам. Величина, равная восьми битам, называется байтом. 1 байт — информационный вес символа алфавита мощностью 256.

Читайте также:  Как очистить оперу от вирусов

1 байт = 8 битов

Бит и байт — «мелкие» единицы измерения. На практике для измерения информационных объёмов используются более крупные единицы:

1 килобайт = 1 Кб = 1024 байта = 2 10 байтов

1 мегабайт = 1 Мб = 1024 Кб = 2 10 Кб = 2 20 байтов

1 гигабайт = 1 Гб = 1024 Мб = 2 10 Мб = 2 20 Кб = 2 30 байтов

1 терабайт = 1 Тб = 1024 Гб = 2 10 Гб = 2 20 Мб = 2 30 Кб = 2 40 байтов

Задача 4. Информационное сообщение объёмом 4 Кбайта состоит из 4096 символов. Каков информационный вес символа этого сообщения? Сколько символов содержит алфавит, с помощью которого записано это сообщение? Решение.

Ответ: 256 символов.

Самое главное

При алфавитном подходе считается, что каждый символ некоторого сообщения имеет опредёленный информационный вес — несёт фиксированное количество информации.

1 бит — минимальная единица измерения информации.

Информационный вес i символа алфавита и мощность N алфавита связаны между собой соотношением: N = 2 i . Информационный объём I сообщения равен произведению количества К символов в сообщении на информационный вес i символа алфавита: I = K • i.

1 байт = 8 битов.

Байт, килобайт, мегабайт, гигабайт, терабайт — единицы измерения информации. Каждая следующая единица больше предыдущей в 1024 (2 10 ) раза.

Вопросы и задания

  1. В чем суть алфавитного подхода к измерению информации?
  2. Что принято за минимальную единицу измерения информации?
  3. Что нужно знать для определения информационного веса символа алфавита некоторого естественного или формального языка?
  4. Определите информационный вес i символа алфавита мощностью N, заполняя таблицу:

  • Как определить информационный объём сообщения, представленного символами некоторого естественного или формального языка?
  • Определите количество информации в сообщении из К символов алфавита мощностью N, заполняя таблицу:
  • Племя Мульти пишет письма, пользуясь 16-символьным алфавитом. Племя Пульти пользуется 32-символьным алфавитом. Вожди племён обменялись письмами. Письмо племени Мульти содержит 120 символов, а письмо племени Пульти — 96. Сравните информационные объёмы сообщений, содержащихся в письмах.
  • Информационное сообщение объёмом 650 битов состоит из 130 символов. Каков информационный вес каждого символа этого сообщения?
  • Выразите количество информации в различных единицах, заполняя таблицу:
  • Информационное сообщение объёмом 375 байтов состоит из 500 символов. Каков информационный вес каждого символа этого сообщения? Какова мощность алфавита, с помощью которого было записано это сообщение?
  • Для записи текста использовался 64-символьный алфавит. Какое количество информации в байтах содержат 3 страницы текста, если на каждой странице расположено 40 строк по 60 символов в строке?
  • Сообщение занимает 6 страниц по 40 строк, в каждой строке записано по 60 символов. Информационный объём всего сообщения равен 9000 байтов. Каков информационный вес одного символа? Сколько символов в алфавите языка, на котором записано это сообщение?
  • Читайте также:  Asrock 775 twins hdtv

    А теперь рассмотрим, как с понятием вероятности связано вычисление информационных весов символов алфавита. Обсуждая алфавитный подход раньше, мы исходили из предположения равновероятности появление в любой позиции текста любого из символов используемого алфавита. На самом деле для естественных языков это не так. Легко доказать, что одни символы появляются в тексте чаще, а другие — реже. Частота появления символа – это отношение количества вхождений данного символа в текст к общему количеству символов в тексте. В таблице 1.1 приведены частотные характеристики букв латинского алфавита в английских текстах, а в таблице 1.2 – русских букв (кириллицы) в текстах на русском языке (символ «_» означает пробел). Эти данные получены путем усреднения результатов обработки большого числа текстов.

    Буква Частота Буква Частота Буква Частота Буква Частота
    E 0,130 S 0,061 U 0,024 K 0,004
    T 0,105 H 0,052 G 0,020 X 0,0015
    A 0,081 D 0,038 Y 0,019 J 0,0013
    O 0,079 L 0,034 P 0,019 Q 0,0011
    N 0,071 F 0,029 W 0,015 Z 0,0007
    R 0,068 C 0,027 B 0,014
    I 0,063 M 0,025 V 0,009
    Буква Частота Буква Частота Буква Частота Буква Частота
    _ 0,175 Р 0,040 Я 0,018 Х 0,009
    О 0,090 В 0,038 Ы 0,016 Ж 0,007
    Е,Ё 0,072 Л 0,035 З 0,016 Ю 0,006
    А 0,062 К 0,028 Ь,Ъ 0,014 Ш 0,006
    И 0,062 М 0,026 Б 0,014 Ц 0,003
    Т 0,053 Д 0,025 Г 0,013 Щ 0,003
    Н 0,053 П 0,023 Ч 0,013 Э 0,003
    С 0,045 У 0,021 Й 0,012 Ф 0,002

    Как видно из этих таблиц наиболее часто употребляемая буква в английском тексте – “E”, а наименее «популярная» – “Z”. Соответственно в русском тексте это буквы “О” и ”Ф”.

    По аналогии с тем, что было рассмотрено выше, вам должно быть понятно, что частота встречаемости буквы – это вероятность ее появления в определенной позиции текста – Р. Отсюда следует, что информационный вес символа вычисляется по формуле:

    По этой формуле для русской буквы “О” получаем: i=log2(1/0,09)=3,47 бит. А для буквы ‘Ф’: i=log2(1/0,002)=8,97 бит. Разница весьма существенная! Принцип прежний: чем меньше вероятность, тем больше информация.

    Для оценки средней информативности символов алфавита c учетом разной вероятности их встречаемости используется формула Клода Шеннона

    где — средняя информативность, Pk— вероятность (частота) встречаемости k-го символа алфавита, N – мощность алфавита. В частном случае, когда

    формула К.Шеннона переходит в формулу Р.Хартли (докажите это самостоятельно).

    Воспользовавшись данными из таблиц 1.1 и 1.2, по формуле Шеннона можно определить среднюю информативность букв алфавита английского и русского языков. Результаты вычислений для английского языка дают величину 4,09 бит, а для русского – 4,36 бит. При допущении, что все буквы встречаются равновероятно, по формуле Р.Хартли получается для английского языка Hангл=log2(26)=4,70 бит, а для русского языка – Hрус=log2(32)=5 бит. Как видите, учет различия частоты встречаемости букв алфавита приводит к снижению их средней информативности.

    Читайте также:  Описать фильм 3 словами

    Из полученных результатов следует, что и полный информационный объем текста будет разным, если для его вычисления использовать формулы Хартли и Шеннона. Например, текст на русском языке, состоящий из 1000 букв, по Хартли будет содержать 5´1000=5000 бита информации, а по Шеннону: 4,36´1000=4360 бит.

    Вероятность и информация
    Вероятность некоторого результата события измеряется частотой его повторений для большого числа событий (в пределе стремящимся к бесконечности)
    Содержательный подход Алфавитный подход
    P=k/n P – оценка вероятности определенного результата; n – количество повторений события (большое число); k – число повторений данного результата. P=k/n P – частота повторяемости символа в тексте (оценка вероятности); n – размер текста в символах; k – количество вхождений данного символа в текст.
    i = log2(1/P) i (бит) – количество информации в сообщении о результате события, вероятность которого равна P i = log2(1/P) i (бит) – информационный вес символа, частота которого (вероятность) равна P
    Формула Шеннона: H – средняя информативность символа алфавита, Pi – вероятность символа номер i, N – размер алфавита.

    Не нашли то, что искали? Воспользуйтесь поиском:

    Лучшие изречения: Для студентов недели бывают четные, нечетные и зачетные. 9908 — | 7690 — или читать все.

    Содержание урока

    1.6.1. Алфавитный подход к измерению информации

    1.6.1. Алфавитный подход к измерению информации

    Ключевые слова:

    Одно и то же сообщение может нести много информации для одного человека и не нести её совсем для другого человека. При таком подходе количество информации определить однозначно затруднительно.

    Алфавитный подход позволяет измерить информационный объём сообщения, представленного на некотором языке (естественном или формальном), независимо от его содержания.

    Для количественного выражения любой величины необходима, прежде всего, единица измерения. Измерение осуществляется путём сопоставления измеряемой величины с единицей измерения. Сколько раз единица измерения «укладывается» в измеряемой величине, таков и результат измерения.

    При алфавитном подходе считается, что каждый символ некоторого сообщения имеет определённый информационный вес — несёт фиксированное количество информации. Все символы одного алфавита имеют один и тот же вес, зависящий от мощности алфавита. Информационный вес символа двоичного алфавита принят за минимальную единицу измерения информации и называется 1 бит.

    Обратите внимание, что название единицы измерения информации «бит» (bit) происходит от английского словосочетания binary digit — «двоичная цифра».

    За минимальную единицу измерения информации принят 1 бит. Считается, что таков информационный вес символа двоичного алфавита.

    Следующая страница 1.6.2. Информационный вес символа произвольного алфавита

    Ссылка на основную публикацию
    Что делать если взломали сим карту
    Подавляющее большинство современных телефонов оборудовано лотком под сим-карту, вытащить который очень легко с помощью скрепки или иглы. Какие-то телефоны после...
    Чем мобильное приложение лучше сайта
    Согласно последним данным, ежегодный прирост мобильной экономики составляет 10%, и уже около 20% всех продаж через ПК осуществляются после клика...
    Чем можно заменить майл агент
    Альтернативы Mail.Ru Агент Обзоры и новости о Mail.Ru Агент 2015. Mail.Ru Агент уступит место ICQ Оба популярных российских мессенджера Mail.ru...
    Что делать если забыл название игры
    В сообществе Лига Геймеров очень часто всплывают посты "Помогите найти игру". Там их не очень жалуют. Для этого и создано...
    Adblock detector