Линейные зависимости. Регрессия и корреляция
Среди всего разнообразия вероятностных зависимостей линейные зависимости относятся к одному из наиболее изученных классов. Во многом это объясняется важностью и широким распространением гауссовских моделей, а также тем, что для полного описания таких моделей достаточно лишь линейной теории.
При исследовании линейных зависимостей эффективно используются и корреляционные и регрессионные методы анализа. Ясно, что эти методы имеют много общего и, в то же время, обладают своей спецификой.
Корреляционный анализ позволяет проверить существование и получить количественную оценку линейной взаимосвязи между случайными переменными. Предположим, что наблюдению доступны две случайные величины ξ и η с математическими ожиданиями mξ =M{ ξ }, mη =M{ η } и, соответственно, дисперсиями =M{( ξ-mξ )2 },
=M{( η-mη)2}.
Дляоценки взаимосвязи между ξ и η можно воспользоваться традиционным определением нормированного коэффициента корреляции
(2.9.7)
Такой коэффициент является безразмерной величиной, и его значение может изменяться в диапазоне от -1 до +1. При этом, если
= 0 - величины ξ и η являются некоррелированными,
= ±1 - переменные ξ и η жестко связаны между собой линейной
зависимостью.
Если значение 0<| |<1, то между случайными величинами ξ и η
существует положительная (при > 0) или отрицательная (при < 0)
корреляционная связь. Чем сильнее проявляется эта связь, тем ближе значение приближается к ± 1.
Коэффициент корреляции (7) характеризует лишь линейную связь. Если значение = 0 и исследуемые величины ξ и η некоррелированы, то
это позволяет делать выводы лишь об отсутствии линейной вероятностной зависимости. В общем случае это не является основанием для выводов о независимости случайных величин. Между рассматриваемыми переменными может при этом существовать нелинейная вероятностная или даже нелинейная функциональная связь.
Помимо этого, важно подчеркнуть, что коэффициент корреляции (7)
отражает линейную взаимозависимость между случайными величинами ξ и η. При рассмотрении коэффициента корреляции безразлично какая переменная ξ или η является “независимой”, а какая “зависимой”. Общая структура формулы (7) показывает, что при вычислениях коэффициента корреляции можно поменять местами исследуемые величины ξ и η, и именно поэтому в корреляционном анализе выполняется свойство симметрии = относительно переменных ξ и η.
Регрессионный анализ, в отличие от корреляционного, позволяет описывать одностороннюю вероятностную зависимость. Преимуществом регрессионного анализа является то, что на его основе не только делается вывод о зависимости одной случайной величины от другой, но и исследуется форма этой зависимости. Регрессионные методы дают возможность определить функцию у = f(x), позволяющую по заданным значениям переменной находить среднее значение зависимой переменной η. При этом вид функции у = f(x) может быть не только линейным, она может иметь и нелинейный характер.
Совместное использование корреляционных и регрессионных методов дает наибольшую эффективность при исследованиях гауссовских случайных величин. Объясняется это несколькими причинами:
· гауссовские и совместно гауссовские случайные совокупности полностью описываются в рамках корреляционной теории;
· для гауссовских моделей ξ и η функция регрессии mη|ξ = f(ξ) всегда
является линейной функцией;
· при исследовании гауссовских величин ξ и η коэффициент корреляции имеет наглядную физическую интерпретацию и простую взаимосвязь с регрессией.
Для рассмотрения этих особенностей будем считать, что наблюдаемые случайные величины ξ и η характеризуются совместно гауссовским распределением и имеют, соответственно, некоторые математические ожидания mξ , mη и дисперсии , . Если по формуле (7) для ξ и η определить нормированный коэффициент корреляции , то функция регрессии η на ξ может быть записана в виде:
mη|ξ = mη + ( ξ- mξ ). (2.9.8)
Такая функция, с одной стороны, соответствует общей форме записи функции регрессии (6) для двух совместно гауссовских величин. С другой стороны, выражение (8) показывает, что регрессионная зависимость в данном случае представляет собой простую линейную функцию вида у = а + bх. Иначе говоря, для гауссовских переменных функция регрессии переходит в линию регрессии. Структура выражения (8) наглядно демонстрирует и взаимосвязь корреляционного и регрессионного анализа: при линейной вероятностной зависимости переменных ξ и η коэффициент корреляции характеризует угол наклона линии регрессии.
На практике при решении многих задач условное математическое ожидание mη|ξ используется в качестве оценки значения случайной
величины η при некотором фиксированном значении ξ. В подобных задачах оценку можно обозначить как и переписать уравнение регрессии (8) в несколько ином виде:
(2.9.9)
По своей сути, такое уравнение (9) дает возможность по заданной нормированной случайной величине ξ o =( ξ - mξ )/ơξ и известному
коэффициенту корреляции на основе регрессионной зависимости (8)
определить значение другой нормированной случайной величины
.
Общее уравнение линейной регрессии (8), с учетом выражения (9), может быть представлено еще в более простой и наглядной форме
, , . (2.9.10)
В качестве дополнительной иллюстрации на схеме 4.3.4 показано несколько характерных примеров графического представления линейных регрессионных зависимостей для коррелированных и некоррелированных совокупностей.
5 Расчет экономической эффективности проекта
Резюме
Данная дипломная работа направлена на разработку базы данных автомобилей и других движущихся средств их номер, ФИО владельца, его адрес, марка автомобиля, дата выпуска, объем двигателя, номера двигателя, шасси и кузова, цвет и т.п. а также нести информирующею функцию для автомобилистов а также информировать ГИБДД и другие органы власти о различных нарушениях, неоплаченных штрафах, угоне. В дальнейшем планируется расширение функционала программного продукта, которое позволит подключаться во всех регионах России к данной базе,а также создание доработанной системой оповещение о штрафах на электронную почту. Программный продукт создается для помощи сотрудникам ГИБДД не несет за собой финансовой выгоды, результаты дипломной работы являются свободно распространяемыми в сети Интернет. План маркетинга составлять не требуется.
После составления плана разработки, определения затрат на трудовые и машинные ресурсы и расчета себестоимости проекта можно судить об экономической целесообразности разработки программного продукта.
В данном разделе приведены производственный, организационный и финансовый планы предлагаемых исследований, обусловлена актуальность их проведения.
Научно-технический раздел
Во время подготовки дипломной работы была использована литература, рассматривающая написание программ на языках высокого уровня, а также учебники по MySQL и HTML5. Также за основу разработки были взяты учебники астрономии, а также современные статьи ведущих ученых о проблемах в этой сфере науки.
Патентов на подобную разработку не обнаружено. В сети Интернет встречаются аналогичные технические решения, отвечающие потребностям современной техники, однако уровень реализации не позволяет большому кругу людей пользоваться данной информацией, а также существовала проблема неоптимизированного интерфейса. Имеется большое количество информации по решению задач, связанных с разработкой.
Все ссылки на соответствующие литературу указаны в пояснительной записке к дипломному проекту.