Смысл энтропийных коэффициентов связи
Их формальное выражение
Поскольку понятие энтропии является как бы обратной стороной понятия информации, то энтропийные коэффициенты в литературе нередко называют информационными. Мы эти два термина будем использовать как синонимы.
Переходя к обсуждению конкретных информационных мер связи, прежде всего отметим, что в качестве такой меры может служить I(X, Y). Как мы уже отметили, это - симметричная (значит, - ненаправленная) мера. Из приведенных выше свойств энтропии следуют следующие свойства названной меры:
I(X, Y) ³ 0,
где равенство достигается тогда и только тогда, когда X и Y статистически независимы и
I(X, X) = H(X).
Широко известны и направленные меры связи:
и
Первый из этих коэффициентов можно интерпретировать как относительное приращение информации об X, возникающее за счет знания Y [Миркин, 1980. С. 103]. Относительность возникает в результате соотнесения такого приращения с первоначальной неопределенностью распределения X. Аналогично интерпретируется и второй коэффициент.
Коэффициенты C называют асимметричными коэффициентами неопределенности, коэффициентами нормированной информации [Елисеева, Рукавишников,1977. С. 91]. Нетрудно проверить справедливость следующих соотношений [Елисеева, Рукавишников,1977; Статистические методы ..., 1979]:
0 ≤ CX/Y ≤ 1;
CX/Y = 0 если и только если переменные X и Y независимы; CX/Y =1, если и только если X однозначно определяется значением Y (т.е. если можно говорить о детерминистской зависимости X от Y; о том, что мера разнообразия X определяется мерой разнообразия Y единственным образом, т.е. о полной связи).
Ясно, что аналогичными свойствами обладает и коэффициент CY/X.
Соответствующий симметризованный коэффициент нормированной информации вводится следующим образом [Елисеева, Рукавишников,1977. С. 95]:
Часто используется также коэффициент Райского:
Нетрудно проверить, что он обладает свойствами, аналогичными сформулированным выше свойствам коэффициентов C: заключен в интервале от 0 до 1, в 0 обращается тогда и только тогда, когда признаки статистически независимы, а в 1 – тогда и только тогда, когда признаки полностью детерминируют друг друга.
Введенные информационные меры связи во многом похожи на обычный коэффициент корреляции. Но они имеют одно преимущество перед последним: из того, что коэффициент корреляции равен 0, вообще говоря, не следует статистическая независимость рассматриваемы признаков, а из равенства 0 рассмотренных информационных мер связи – следует.
Описание информационных мер связи можно найти в [Миркин, 1980; Статистические методы ..., 1979; Елисеева, Рукавишников, 1977].