Степень неопределенности состояния объекта (или так называемого источника информации) зависит не только от числа его возможных состояний, но и от вероятности этих состояний. При неравновероятных состояниях свобода выбора для источника ограничивается. Так, если из двух возможных состояний вероятность одного из них равна 0.999, то вероятность другого состояния соответственно равна 1-0.999 = 0.001, и при взаимодействии с таким источником результат практически предрешен.
В общем случае, в соответствии с теорией вероятностей, источник информации однозначно и полно характеризуется ансамблем состояний U = {u
1, u2,..., uN} с вероятностями состояний соответственно {р(u1), р(u2),..., р(uN)} при условии, что сумма вероятностей всех состояний равна 1. Мера количества информации, как неопределенности выбора дискретным источником состояния из ансамбля U, предложена К. Шенноном в 1946 году и получила название энтропии дискретного источника информации или энтропии конечного ансамбля:H(U) = -pn log2 pn. (1.4.2)
Выражение Шеннона совпадает с выражением Больцмана для энтропии физических систем при оценке степени разнообразия их состояний. Мера энтропии Шеннона является обобщением меры Хартли на случай ансамблей с неравновероятными состояниями, в чем нетрудно убедиться, если в выражении (1.4.2) значение p
n заменить значением p=1/N для ансамбля равновероятных состояний. Энтропия конечного ансамбля H(U) характеризует неопределенность, приходящуюся в среднем на одно состояние ансамбля.Учитывая, что в дальнейшем во всех математических выражениях, касающихся энтропии, мы будем использовать только двоичное основание логарифма, индекс 2 основания логарифма в формулах будем подразумевать по умолчанию.
ui |
pi |
ui |
pi |
ui |
pi |
ui |
pi |
ui |
pi |
а |
.064 |
з |
.015 |
о |
.096 |
х |
.009 |
э |
.003 |
б |
.015 |
и |
.064 |
п |
.024 |
ц |
.004 |
ю |
.007 |
в |
.039 |
й |
.010 |
р |
.041 |
ч |
.013 |
я |
.019 |
г |
.014 |
к |
.029 |
с |
.047 |
ш |
.006 |
- |
.124 |
д |
.026 |
л |
.036 |
т |
.056 |
щ |
.003 |
||
е,ё |
.074 |
м |
.026 |
у |
.021 |
ъ,ь |
.015 |
||
ж |
.008 |
н |
.056 |
ф |
.020 |
ы |
.016 |
Пример.
Вычислить энтропию ансамбля 32 букв русского алфавита. Вероятности использования букв приведены в таблице. Сравнить энтропию с неопределенностью, которая была бы у алфавита при равновероятном их использовании.Неопределенность на одну букву при равновероятности использования:
H(u) = log 32 = 5
Энтропия алфавита по ансамблю таблицы:
H(u) = - 0.064 log 0.064 - 0.015 log 0.015 - . . . . . . . . . . . . . . . . . . - 0.143 log 0.143
» 4.42.Таким образом, неравновероятность состояний снижает энтропию источника.