Что такое мощность алфавита? Как находить мощность алфавита: формула

Понятие алфавита в информатике немного отличается от того, что изучают дети в первом классе. Здесь так называют знаковую систему, при помощи которой может

Вспомним некоторые известные нам факты:
images%20%2814%29.jpg

Множество символов, с помощью которых записывается текст, называется алфавитом

Число символов в алфавите – это его мощность

Формула определения количества информации: N=2 i  ,

где N – мощность алфавита (количество символов),

i – количество бит (информационный вес символа). 

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным

Т.к. 256 = 28, то вес 1 символа – 8 бит. 

Единице измерения 8 бит присвоили название 1 байт: 

1 байт = 8 бит. 

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Задачи:

1) Алфавит содержит 32 буквы. Какое количество информации несет одна буква?

Дано: Мощность алфавита N = 32

0_4e97a_1b06ba0_S.gif

Решение: 

1. 32 = 5, значит вес одного символа i = 5 бит. 

Ответ: одна буква несет 5 бит информации. 

2) Сообщение, записанное буквами из 16 символьного алфавита, содержит 10 символов. Какой объем информации в битах оно несет? 

Дано: Мощность алфавита N = 16 текст состоит из 10 символов.

0_4e97a_1b06ba0_S.gif

Решение: 

1. 16 = 4

2. Всего символов 10, значит объем информации 10 * 4 = 40 бит. 

Ответ: сообщение несет 40 бит информации (8 байт).

3) Информационное сообщение объемом 300 бит содержит 100 символов. Какова мощность алфавита? 

Дано: Объем сообщения = 300 бит текст состоит из 100 символов

0_4e97a_1b06ba0_S.gif

Решение: 

1. Определим вес одного символа: 300 / 100 = 3 бита. 

2. Мощность алфавита определяем по формуле:  = 8

Ответ: мощность алфавита N = 8. 

Описание термина

Понятие мощности алфавита находится в основании изучения информатики. Алфавитом принято называть набор многочисленных символов. Сумма всех их в определённом языке и есть алфавитная мощность. Иными словами, это количество всех символов, входящих в конкретно взятый язык. Сюда входят не только буквы, но и прочие обозначения, в частности:

Понятие мощности алфавита
  • числа;
  • спецсимволы;
  • двоеточия;
  • пробел;
  • скобки;
  • запятые;
  • точки;
  • многоточия и прочее.

Это определение считается обобщённым и не принимает во внимание вычисления информационной составляющей сообщения. Она может содержать в себе числа, знаки препинания и прочее. В этом случае прибегают к использованию другого способа. Его суть основывается на том, что любая буква, цифра или знак обладают собственным информационным объемом данных. Компьютер работает с этим информационным кодом и распознает то, что было написано.

Основным постулатом в информатике является тот факт, что устройство разбирает введённую информацию исключительно в двоичном коде в форме нуля и единицы. В итоге получается, что абсолютно любой символ алфавита может быть успешно закодирован при помощи соответствующего подбора этих двух цифровых символов. Самая маленькая последовательность, применяемая при обозначении какой-либо цифры, буквы или другого знака, состоит из двух элементов.

Информационная масса отдельно взятого символа обычно изображается в форме информационной стандартной измерительной единицы, которая называется «бит». Восемь битов становятся равны одному байту.

Как измеряется информация

Прежде чем приступить к изучению вопроса о том, какова мощность алфавита, и вообще, что это такое, следует начать, так сказать, с азов.

что такое мощность алфавита

Наверняка всем известно, что сегодня существуют специальные системы измерения каких-либо величин, на основе эталонных значений. Например, для расстояний и аналогичных величин это метры, для массы и веса – килограммы, для временных промежутков – секунды и т.д.

Но как же измерить информацию в смысле объема текста? Именно для этого и было введено понятие мощности алфавита.

Что такое мощность алфавита

Под мощностью алфавита мы подразумеваем общее количество символов в нем. Для того чтобы узнать, какова мощность алфавита, необходимо просто посчитать количество символов в нем. Давайте разбираться. Для русского алфавита мощность алфавита равна 33 или же 32 символам, если не использовать “ё”.

Давайте предположим, что все символы в нашем алфавите встречаются с равной вероятностью. Это предположение можно понимать так: допустим, у нас есть мешок с подписанными кубиками. Число кубиков в нем бесконечно, и каждый подписан лишь одним символом. Тогда при равномерном распределении, сколько бы мы кубиков ни доставали из мешка, количество кубиков с разными символами будет одинаково, или будет стремиться к этому при росте числа кубиков, которые мы достаем из мешка.

Принцип алфавитного подхода к оценке количества информации

Алфавитный подход строится на принципе, утверждающем, что любое сообщение можно представить в виде кодов с помощью конечной последовательности символов, содержащейся в любом алфавите. Носители информации содержат любые последовательности символов, которые могут храниться, передаваться и обрабатываться как с помощью человека, так и с помощью технических устройств, в частности компьютера. Этот подход описал А.Н. Колмогоров, согласно которому, информативность, заключающаяся в последовательности символов, не может зависеть от содержания самого сообщения, а может определяться лишь минимальным количеством символов, необходимых для ее кодирования. Подобный подход к оценке количества информации носит объективный характер, так как не зависит от получателя, принимающего сообщения. Смысл же сообщений может учитываться только на этапе выбора алфавита кодирования либо не учитываться совсем.

В основу принципа этого подхода лег подсчет числа символов в сообщении, таким образом, важна только длина сообщения и совсем не учитывается его содержание. Однако на длину сообщения может влиять мощность алфавита используемого языка.

Самый простой способ разобраться в этом – рассмотреть пример любого текста, написанного на каком-нибудь языке. Для нас, конечно же, удобным будет текст на русском языке.

Отображение символов в двоичном коде

Алфавитная мощность может быть использована на практике только при наличии двоичного кода. В качестве примера можно использовать упрощённый алфавит, состоящий всего из четырёх символов. В этом случае разрядность их и информационное представление описываются следующим образом:

  • 1 — 00;
  • 2 — 01;
  • 3 — 10;
  • 4 — 11.
Алфавит в двоичном коде

Из этого списка можно сделать вывод о том, что если алфавитная мощность равняется 4, то масса отдельного единичного символа будет составлять 2 бита. Если же есть алфавит, состоящий из 8 символов, то при подборе двоичного трёхзначного кода для него комбинационное количество будет следующим:

  • 1 — 000;
  • 2 — 001;
  • 3 — 010;
  • 4 — 011;
  • 5 — 100;
  • 6 — 101;
  • 7 — 110;
  • 8 — 111.

Иными словами, если алфавитная мощность равна 8, то вес отдельно взятого символа для двоичного трёхзначного кода составит 3 бита.

Оценка веса информационных сообщений

Почти сто лет назад американский инженер Ральф Хартли вывел формулу, с помощью которой можно оценивать количество информации в сообщении. Его формула работает для равновероятных событий и выглядит так:

i = log2M

Где “i” – количество неделимых информационных атомов (битов) в сообщении, “M” – мощность алфавита. Следуем далее. С помощью математических преобразований можем определить, что мощность алфавита можно вычислять так:

M = 2i

Эта формула в общем виде задает связь между количеством равновероятных событий “M” и количеством информации “i”.

Мощность алфавита и информационная емкость. Формула Хартли

Все множество символов, из которых состоит язык, можно традиционно назвать алфавитом. Как правило, под алфавитом понимаются только буквы, но кроме них при написании текстов используются знаки препинания, цифры, скобки, пробелы, их тоже, в свою очередь, можно включить в алфавит.

Таким образом, алфавит — это множество символов, используемых при записи текста.

Мощность (размер) алфавита — это полное количество символов в алфавите.

Мощность алфавита обозначается буквой $N$.

Например:

  • мощность алфавита, состоящего из русских букв (кириллицы), равна $33$;

  • мощность алфавита, состоящего из латинских букв – $26$;

  • мощность алфавита текста набранного с клавиатуры компьютера равна $256$ (строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, скобки, знаки препинания и т.д.);

  • мощность двоичного алфавита равна $2$.

При алфавитном подходе считают, что каждый символ текста несет в себе определенную информационную емкость, которая, в свою очередь, зависит от мощности алфавита.

Алфавит, с помощью которого записывается сообщение, состоит из $N$ знаков. В самом простом случае при длине кода сообщения, равной одному знаку, отправитель может послать одно из $N$ возможных сообщений, которое будет нести количество информации, равное $I$, согласно формуле:

$N = 2^I$ ,

где $N$ — количество знаков в алфавите знаковой системы,

$I$ — количество информации, которое несет каждый знак.

Данную формулу вывел Р. Хартли, который в $20$-е годы прошлого столетия заложил основы теории информации, в которой определялась мера количества информации при решении некоторых задач.

Хартли утверждал, что на количество информации, содержащейся в сообщении, может влиять фактор неожиданности, который, в свою очередь, зависит от вероятности получения сообщения. Если эта вероятность получения сообщения высокая, а неожиданность при этом низкая, то сообщение будет содержать мало полезной для человека информации.

Замечание 1

Однако при создании своей формулы Р.Хартли полностью исключил фактор неожиданности. Формула Хартли работает только в том случае, когда появление символов равновероятно и они статистически независимы.

Например, с помощью приведенной формулы можно определить количество информации, которое несет знак в двоичной системе счисления:

Рисунок 1.

Информационная емкость знака двоичной системы составляет 1 бит.

Пример 1

Необходимо определить информационную емкость буквы русского алфавита (без учета буквы “ё”).

Решение:

Представим себе, что текст к нам поступает последовательно, по одному знаку, словно бумажная лента, выползающая из телеграфного аппарата. Предположим, что каждый символ, который появляется на ленте, с равной вероятностью может быть любым символом алфавита. В действительности это не совсем так, но для упрощения примем такое предположение.

В каждой очередной позиции текста может появиться любой из $N$ символов. Тогда, согласно известной нам формуле, каждый такой символ несет количество информации равное $I$ бит, которое можно определить из решения уравнения:

Рисунок 2.

Информационная емкость буквы русского алфавита составляет $5$ бит информации.

Таким образом, формула определения $N$ связывает между собой количество возможных событий и количество информации, которое содержит в себе полученное сообщение. В рассматриваемой выше задаче $N$ – это количество знаков в русском алфавите, а $I$ – количество информации, которое несёт одна буква.

Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации.

Количество информации в сообщении можно определить, используя формулу:

$I_c = K cdot I$,

где $I_c$ – количество информации, содержащееся в сообщении;

$I$ – количество информации, которое несет один знак (информационная емкость);

$K$ – количество знаков в сообщении.

Определение информационного объёма в тексте

Почти всегда при наборе текста на компьютерах и других электронных устройствах приходится сталкиваться с написанием различных символов. К ним следует отнести:

  • заглавные и жирные буквы;
  • курсив;
  • скобки;
  • знаки препинания;
  • вычислительные операции и прочее.

По всем расчётам получается, что мощность компьютерного алфавита составляет 256 различных символов и вариантов. В соответствии с формулой Хартли, N = 256, а i — масса любого из значков в клавиатурном алфавите соответствует одному байту, или восьми битам.

Набор текста на компьютерах

Размер любой напечатанной фразы может быть вычислен по формуле V=K ⋅ log2N. В этом случае N обозначает количество всех символов в алфавите, а K — это численность знаков непосредственно в напечатанной фразе. Так, например, имеется произвольный текст объёмом в 25 листов. На каждом из них расположено по 45 строчек текста, содержащих по 58 символов.

Исходя из этого, на любой отдельной странице будет 45*58 = 2610 байт информации. В целом же по всему тексту этот объём будет равен 2610*25 = 65250 байт. Для обозначения мощности алфавита в информатике общепринятым вариантом является буква N из формулы Хартли. Именно ее чаще всего указывают в большинстве учебников и профессиональной литературе.

В кодовой таблице ASCII используют восьмибитную кодировку текстовых сообщений. Она позволяет полностью вместить основной набор символов кириллического и латинского алфавитов как в строчном, так и в прописном вариантах. Также с её помощью можно отобразить знаки препинания, цифры и прочие базовые знаки. Часто пользователям приходится иметь дело с более крупными объёмами, состоящими из триллионов байтов.

Для удобства их всегда переводят в увеличенные величины — кило-, мега-, гигабайты и прочее. Для их упрощённого обозначения используются специальные сокращения: Кб, Мб, Гб и так далее. 1 Кб равняется 1024 байтам (2 байта в десятой степени), 1 Мб составляет 1024 Кб (2 Кб в десятой степени) и так далее. Исходя из этого, 65250 байт будут составлять 63,72 килобайта.

Поскольку один отдельный символ состоит из 8 битов, то устанавливать их кодировку целиком не представляется возможным. Вместо этого предпочтительнее образовать кодировку трёхбитовых комбинаций. Расчёт этого действия проводится по формуле Хартли, где n-ная степень будет равняться трём. В результате получается N, равная 8.

При определении мощности чаще всего используют алфавитный подход. Он говорит о том, что объём информации, заложенной в тексте, зависит исключительно от мощности самого алфавита и размера сообщения (то есть количества символов, содержащихся в нём). Этот показатель не имеет никакой связи со смысловым наполнением для человека.

Примеры расчёта мощности

Как определить информационный объём

От пользователей или обучающихся в задачах часто требуют научиться определять информационный объём какого-либо сообщения, приняв информационный вес символа за один байт. Так, в отрывке из поэмы Н. Н. Некрасова «Крестьянские дети»:

«Однажды, в студеную зимнюю пору,

Я из лесу вышел; был сильный мороз»

будет 67 символов вместе с пробелами, то есть, в соответствии с условиями задания, 67 байт. Их количество умножают на 8 (количество битов в байте), и на выходе получается 536 битов.

Таким образом, зная в теории суть мощности, можно без проблем определять информационный объем различных сообщений.

Примеры расчета мощности

На уроках информатики часто дают задачи на нахождение мощности алфавита, длины сообщения или информационного объема. Вот одна из таких задач:

“Текстовый файл занимает 11 Кбайт дискового пространства и содержит 11264 символа. Определите мощность алфавита данного текстового файла”.

Каким будет решение, можно увидеть на картинке ниже.

алфавит мощностью 256 символов

Таким образом, алфавит мощностью 256 символов несет в себе всего лишь 8 бит информации, что в информатике называют одним байтом. Байт описывает 1 символ таблицы ASCII, что, если задуматься, совсем не много.

Вместо послеловия

В общем и целом, это вкратце и все, что касается рассмотрения вопроса, что такое мощность алфавита. Остается добавить, что в данном описании был использован чисто математический подход. Само собой разумеется, что смысловая нагрузка текста в данном случае не учитывается.

Но, если подходить к вопросам рассмотрения именно с позиции, которая дает человеку что-то для осмысления, набор бессмысленного сочетания или последовательностей символов в этом плане будет иметь нулевую информационную нагрузку, хотя, с точки зрения понятия информационного объема, результат все равно можно вычислить.

В целом же, знания о мощности алфавита и сопутствующих понятиях не так уж и сложны для понимания и элементарно могут применяться в смысле практических действий. При этом любой пользователь практически каждый день сталкивается с этим. Достаточно привести в пример популярный редактор Word или любой другой такого же уровня, в котором используется такая система. Но не путайте его с обычным «Блокнотом». Здесь мощность алфавита ниже, поскольку при наборе текста не используются, скажем, прописные буквы.

Один байт – это много или мало?

Современные хранилища данных вроде дата-центров Google и Facebook содержат не меньше, чем десятки петабайт информации. Точное количество данных, впрочем, трудно будет подсчитать даже им самим, ведь тогда нужно будет остановить все процессы на серверах и закрыть пользователям доступ к записи и редактированию их личной информации.

мощность алфавита 256 сколько

Но чтобы вообразить такие немыслимые объемы данных, необходимо четко понимать, что все складывается из маленьких деталей. Необходимо понимать, чему равна мощность алфавита (256) и сколько бит содержит 1 байт информации (как вы помните, 8).

Рейтинг
( 1 оценка, среднее 5 из 5 )
Загрузка ...