Выборочное уравнение линейной регрессии
Определение информации. Формула для количественного определения информации. Единицы измерения информации.
Информация – сведения об объектах окружающего мира, их параметрах, свойствах и состоянии, которые уменьшают степень неопределенности знаний о них.
Формулу для определения количества информации для событий с различными вероятностями предложил американский ученый К. Шеннон в 1948 г.
где I – количество информации; N – количество возможных событий (сообщений); pi – вероятность отдельных событий (сообщений);
Если вероятность появления отдельных событий одинаковая, то формула (1.1) преобразуется в формулу Р. Хартли:
Количество информации (информационный объем), содержащееся в сообщении, закодированном с помощью знаковой системы и содержащем определенное количество знаков (символов), определяется с помощью формулы:
где V – информационный объем сообщения; / = log2N, информационный объем одного символа (знака); К – количество символов (знаков) в сообщении; N – мощность алфавита (количество знаков в алфавите).
В качестве меры для оценки количества информации , при условии двоичного кодирования, принят один бит. Следующей по величине единицей измерения количества информации является байт, представляющий собой последовательность, составленную из восьми бит, т. е.
1 байт = 23 бит = 8 бит.
В информатике также широко используются кратные байту единицы измерения количества информации, однако в отличие от метрической системы мер, где в качестве множителей кратных единиц применяют коэффициент 10n, где п =3, 6, 9 и т. д., в кратных единицах измерения количества информации используется коэффициент 2n. Выбор этот объясняется тем, что компьютер в основном оперирует числами не в десятичной, а в двоичной системе счисления.
Кратные байту единицы измерения количества информации вводятся следующим образом:
1 Килобайт (Кбайт) = 210 байт = 1024 байт,
1 Мегабайт (Мбайт) = 210 Кбайт = 1024 Кбайт,
1 Гигабайт (Гбайт) = 210 Мбайт = 1024 Мбайт и т.д.
Теорема сложения вероятностей. Условие нормировки. Теорема умножения вероятностей для независимых случайных событий.
Теорема сложения вероятностей: вероятность появления одного (безразлично какого события) из нескольких несовместимых событий равна сумме их вероятностей.
p (А или В) = p(A) + p(B), где p – вероятность появления события; А, В – события.
Условие нормировки - это стандартное условие, которому должна удовлетворять любая плотность вероятности.
Теорема умножения вероятностей: вероятность совместного появления независимых событий равна произведению их вероятностей.
p (A и B) = p(A) * p(B)
Выборочное уравнение линейной регрессии.
Регрессия – изменение функции в зависимости от изменений одного/нескольких аргументов.
Линейная зависимость между переменными x и y описывается уравнением общего вида:
y = a + bx1 + cx2 + dx3 + ... ,
где: а, b, с и d— параметры уравнения, определяющие соотношение между аргументами и функцией. В практике учитываются не все, а лишь некоторые аргументы, в простейшем случае, как при описании линейной регрессии, — всего один:
y = a + bx
В этом уравнении параметр а— свободный член. Параметр bназывается коэффициентом регрессии, который показывает на сколько в среднем величина признака y изменится при изменении на единицу меры другого, корреляционно связанного с y признака x.
Поскольку показатели регрессии выражают корреляционную связь двусторонне, то уравнение регрессии записывают так:
Yx = ayx + byxXиXy = axy + bxyY