Парный и множественный регрессионный анализ.

Позволяет предсказать значения одной или нескольких переменных в зависимости от другой переменной. Регрессионное уравнение позволяет измерить степень зависимости контролируемого признака от факторных. Для построения прогностических моделей развития политической ситуации, оценки причин социальной напряженности, при проведении теоретических экспериментов. Для изучения влияния на электоральное поведение граждан ряда социально-демографических параметров: пола, возраста, профессии, места проживания, национальности, уровня доходов. Необходимо выбрать взаимно независимые переменные, определяющие значение исследуемого показателя. В основе – представление о форме, направлении и плотности взаимосвязи.

На практике регрессионный используют с корреляционным.

Уравнение регрессии – числовое соотношение между величинами, выраженное в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой.

Для описания взаимосвязи 2 признаков (х и у) в модели парной регрессии используют линейное уравнение.

У = а + bxi + al

Al – случайная величина погрешности уравнения при вариации признаков, т.е. отклонение уравнения от линейности. Для оценки коэффициентов a и b используют метод наименьших квадратов, предполагающий, что сумма квадратов отклонений каждой точки на диаграмме разброса от линии регрессии должна быть минимальной. Графическое изображение уравнения регрессии называется теоретической линией регрессии.

В политической жизни значение изучаемой переменной чаще всего зависит от нескольких признаков. Тогда множественная регрессия.

Y = b1 x il + b2 xi2 + ,…, + bn xin + al

B – частный коэффициент регрессии. Он показывает вклад каждой независимой переменной в определение значений независимой. Если частный коэффициент регрессии близок к 0, то можно сделать вывод, что непосредственной связи между независимыми и зависимой переменными нет.

Множественная регрессии позволяет отразить многофакторность социальных связей и уточнить меру воздействия каждого фактора в отдельности и вместе.

Проблемы построения уравнения множественной регрессии

выбор факторов, включаемых в уравнение регрессии. Факторы, включаемые в анализ, должны как можно меньше коррелировать друг с другом.

выбор формы уравнения множественной регрессии. Сначала надо построить гипотетическую модель влияния нескольких независимых переменных на результирующую.

Модель должна точно соответствовать реальному процессу. Нельзя игнорировать ни одну значимую переменную и включать не имеющую прямого отношения.

Переменные должны быть измерены в интервальных шкалах.

Независимые переменные не должны коррелировать между собой

Погрешности минимальны

Y = bx + a

B – коэффициент регрессии (квадрат коэффициента корреляции r2).

Х – зависимая переменная

А – показатель отклонения от идеальной формулы.

29!. Многомерное шкалирование: понятие, виды, этапы, условия.

бывает сложно проводить измерение характеристик объектов. Но можно оценить степень сходства или различия между парами объектов. Тогда используется многомерное шкалирование.

Развитие классических моделей метрического и неметрического многомерного шкалирования относится к 1950-1960-м годам (Торгерстон, Шепард, Крускал).

В качестве исходных данных для шкалирования могут быть взяты не сами оценки степени сходства объектов, а результаты их ранжирования. Эти методы анализа называют неметрическое шкалирование. Многомерное шкалирование может быть применено при изучении политических деятелей, элит. В этом случае исходными данными могут быть экспертные оценки сходства или различия взглядов политиков по некоторым проблемам.

Совокупность изучаемых объектов в виде некоторого набора точек многомерного пространства, при этом каждому объекту соответствует одна точка. Вводится система координат, число которых определяется количеством признаков, описывающих объект. Это количество задает размерность пространства. Координаты точек интерпретируются как зрения неких характеристик исходных объектов, которые и объясняют их свойства и взаимоотношения.

2 задачи: выделение латентных факторов, представление этих факторов в графическом виде.

- объяснить скопление точек

- дать название осям по 2 крайним точкам

Этот метод позволяет находиться в массиве данных комплексы сходных друг с другом и отличающихся переменны. В геометрическом пространстве сходные переменные (тесно связанные между собой в сознании респондентов) располагаются близок друг от друга. Чем больше сходства зафиксировано у изучаемых переменных, тем ближе находятся точки. Сопоставление значительного числа переменных. Перед анализом преобразование переменных в биноминальные.

Итак, каковы же основные возможности методов многомерного шкалирования?

1. Построение метрического пространства невысокой размерности, в котором наилучшим образом сохраняется структура исходных данных о близости пар объектов. Проектирование объектов на оси полученного пространства определяет их положение на этих осях, т.е. производится процесс шкалирования.

2. Визуализация структуры исходных данных в виде конфигурации точек (объектов) в двух-трехмерном базовом пространстве.

3. Интерпретация полученных осей (базовых характеристик) и конфигурации объектов - конечный результат применения МШ, дающий новое знание об изучаемой структуре (в случае корректного использования метода на всех этапах). Характер конфигурации объектов, а также 'внешние' по отношению к исходным данным сведения позволяют дать содержательную интерпретацию осям и тем самым выявить 'глубинные' мотивы, которыми руководствовались эксперты, упорядочивая пары объектов по степени их близости (в одном случае), или обнаружить 'скрытые' факторы, определяющие структуру сходства и различия объектов (в другом случае). Для методов МШ, как и для других методов анализа данных, слабо разработаны вероятностные модели и аппарат статистического оценивания. Для повышения достоверности получаемых с помощью методов МШ результатов в одном исследовании нередко используют разные методы МШ; кроме того, эти методы применяют совместно с другими методами МСА; кластер-анализом, факторным анализом, множественной регрессией.

31! Факторный анализ.

Факторный анализ основан на измерении доли влияния каждого из выделенных комплексов (независимых) переменных на изменение изучаемых признаков явления.

Факторный анализ может использоваться как разведочный (эксплораторный, служит для анализа уже измеренных переменных с целью их структурирования) и проверочный (конфирматорный, для проверки сформулированной гипотезы).

Исходная задача – компактное и всесторонне описание объекта исследования.

Vi = Ai1F + Ai2 F2 + AikFk + U.

Vi – значение i-й переменной

Aik – регрессионные коэффициенты, показывающие вклад каждого из К факторов в данную переменную

Fik – факторы, общие для всех переменных

U – ошибка

Фактор – гипотетическая латентная переменная, которая одновременно объединяет несколько формально измеренных признаков объекта. Факторная нагрузка – корреляции между факторами, как функциональными целыми, и значениями конкретных переменных, входящих в этот фактор. Факторные нагрузки- не ниже 0,4.

Факторный анализ включает 3 этапа:

сбор данных и подготовка корреляционной матрицы

выделение первоначальных ортогональных (некоррелированных, линейно независимых) факторов

вращение факторной структуры и содержательная интерпретация

на один гипотетический фактор – не менее 3 переменных.

Исходной информацией факторного анализа служит матрица (система чисел, размещенных в прямоугольной таблице в виде n столбцов m строк) парных коэффициентов корреляции всех отобранных переменных. На основе матрицы выявляются скопления переменных, тесно связанных друг с другом. Эти скопления образуют факторы. Целью факторного анализа служит выявление простой структуры (факторной матрицы).Переменные для факторного отбираются в соответствии с определенными критериями. Эти переменные должны быть измерены с помощью интервальной шкалы.

Метод главных компонент.

Каждый исходный признак представляется как линейная комбинация факторов. Коэффициентами служат факторные нагрузки, которые указывают на величину и направленность связи между латентными и явно наблюдаемыми свойствами. Исследователи переходят от пространства высокой размерности, образованного явно наблюдаемыми свойствами, к пространству небольшого числа латентным факторов. Координаты объектов в пространстве латентных факторов называются факторными весами.

Метод максимального правдоподобия.

Позволяет при большой выборке получить статистический критерий значимости полученного факторного решения.

Метод наименьших квадратов.

Минимизация остаточной корреляции после выделения определенного числа факторов. Оценка качества соответствия вычисленных и наблюдаемых коэффициентов корреляции по критерию минимума суммы квадратов отклонений.

После трансформации корреляционной матрицы в факторную происходит анализ каждой из выделенных групп с целью ее сжатия посредством выделения взаимодействий и представления ее в виде одного обобщенного показателя. Метод последовательных разбиений. Разбиение объектов на классы так, что при каждом разбиение получается 2 класса, которые не пересекаются. Процедура заканчивается тогда, когда новый шаг не увеличивает процент объясняемой дисперсии целевого признака. Образовавшиеся в итоге тупиковые классы, не подлежащие дальнейшему разбиению, означают прекращение процедуры. (72-75 %).

Процедура вращения факторной структуры.

Идеальный вариантом вращение считается результат, когда каждая переменная получает максимальное число больших факторных нагрузок по одним факторам и одновременно наибольшее количество минимальных факторных нагрузок по другим факторам.

Ортогональное вращение – при повороте осей угол между факторами остается прямым, т.е остается предположение о некоррелированности факторов

Косоугольное вращение, – при котором первоначальное предположение о некоррелированности факторов снимается.

Интерпретация факторов сводится к анализу величины и знаков факторных нагрузок. Выявив переменные, относящиеся к данному фактору, нужно их проанализировать и придумать название фактору.

32!. Кластерный анализ.

Cluster – пучок, группа. Процедура, позволяющая классифицировать различные объекты. Можно разбить респондентов на группы, сходные по ряду признаков. На дендрограмме дерева признаков признаки соединяются линиями, образуя отдельные пучки. Чем короче линия, связывающая переменные, тем ближе они находятся в пространстве признаков. Перед началом анализа переменные должны быть преобразованы в биноминальные, принимающие значение 1 при наличии признака и 0 при отсутствии признака. Из анализа исключаются «затрудняюсь ответить», «другое» и т.д.

Важную роль играют меры сходства. Кластеры:

- плотность. Близость отдельных точке скопления

- дисперсия – степень рассеяния точек в пространстве относительно центра кластера

Термин кластерный анализ (впервые ввел Tryon, 1939).

Методы кластерного анализа позволяют решать следующие задачи:
• проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;
• проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;
• построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.
Методы кластерного анализа: одиночной, полной, средней связи; метод Уорда. Метод Уорда позволяет создавать кластеры приблизительно равных размеров. Он сначала объединяет самые близкие объекты, затем уже к образованным кластерам присоединяются сходные с ними объекты. Мера сходства – коэффициент корреляции Пирсона.

Кластерный анализ – способ группировки многомерных объектов, основанных на представлении результатов отдельных наблюдений точками с последующими выделением групп как сгустка этих точек.

Цель: выделение в исходных многомерных данных таких подмножеств, чтобы объекты внутри группы были похожи друг на друга.

Задача: выделить в пространстве и визуализировать эти естественные скопления.

2 вида исходных данных: матрица близости и объекты, представленные как точки.

Как научное направление кластерный анализ заявил о себе в середине 60-ых годов.

33!. Критерии выделения типов алгоритмов кластерного анализа.

Основания для кластерных алгоритмов:

характер отношения, который отыскивается как результат классификации

разбиение с непересекающимися классами (отношение эквивалентности). Все объекты внутри класса считаются тождественными, а объекты разных классов нет

Разбиение с пересекающимися классами.

Иерархическое дерево.

Отношение произвольной структуры

степень участия человека в процедуре выделения кластеров машинный способ. Программист задает параметры классификации

чел участвует в процессе разбиения. Программа выдает не классификацию, а информацию. характер априорных сведений для работы алгоритма сведений нет

задано число искомых классов

могут быть заданы пороговые значения величины близости объектов

заданы комбинированные сведения

характер работы алгоритма классификации. В зависимости от порядка просмотра точек

зависящие от порядка просмотра

независящие

34!. Свойства кластеров и методы группировки данных в кластерном анализе.

Плотность, дисперсия, форма, отдельность.

Плотность – близость отдельных точек скопления, позволяющая отличать его от других областей многомерного пространства. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. Отдельность – взаимное расположение скоплений точек в пространстве.

Переменные для кластерного анализа выбираются в соответствии с теорией, которая лежит в основе классификации. Перед началом анализа они должны быть преобразованы в биноминальные, принимающие значение 1 – при наличии признака, 0 – при отсутствии.

Кластер – непрерывные области пространства с относительно высокой плотностью точек, отделенные от других таких же областей. Методы одиночной, полной и средней связи. Метод Уорда позволяет создать кластеры приблизительно равных размеров. Сначала объединяет самые близкие объекты, затем к уже образованным присоединяются сходные с ними объекты. Мера сходства – 1, коэффициент корреляции Пирсона.

На основе анализа содержания переменных, входящих в отдельные кластеры, строится группировка респондентов по признакам, включенным в процесс кластеризации. Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными "цепочками". Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод непригоден. Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные "рощи", однако он работает одинаково хорошо и в случаях протяженных ("цепочного" типа) кластеров. Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров. Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге.

35!. Виды алгоритмов в кластерном анализе.

Иерархические алгоритмы.

рассмотрение каждого объекта как отдельного кластера.

объединяются два ближайших объекта, которые образуют новый класс. Определяется расстояние от этого класса до всех остальных объектов.

далее на каждом шаге повторяется та же процедура, пока все объекты не объединяться в один класс. Если сразу несколько объектов имеют минимальное расстояние, то возможны 2 стратегии: выбор одной случайно пары (восходящая иерархическая классификация) или сразу всех пар (метод ближайших соседей). Ориентировочным критерием для деления совокупности на кластеры может быть резкое увеличение на очередном шаге расстояния между кластерами, что говорит о значительной разнородности объектов.

Упорядочение матрицы расстояний и последовательного формирования кластеров.

Все расстояния условно разбиваются на малые, средние и большие. Вручную осуществляется такая перестановка строк и столбцов, чтобы у диагонали собирались малые и средние расстояния. Выделение кластеров производится визуально.

Процедуры эталонного типа.

Выбираются случайным образом N-точек, объявляемых центрами классов. Стоятся окружности таким образом, чтобы не осталось свободных, неохваченных точек. Затем интерпретируются свойства объектов, объединенных в одной окружности.

Алгоритмы типа разрезанного графа.

Из полносвязанного графа размерность N на N, внутри которого расположены все изучаемые объекты, удаляются последовательно дуги с самыми большими расстояниями, пока граф не распадется на несколько несвязанных подграфов.

Парный и множественный регрессионный анализ. - student2.ru Парный и множественный регрессионный анализ. - student2.ru Парный и множественный регрессионный анализ. - student2.ru

36 Пат-анализ – это способ статистического анализа, которым можно оценить точность таких моделей путем эмпирической оценки прямых и непрямых воздействий одной переменной на другую.

Пат-анализ начинается с построения концептуальной модели, которая выделяет причинные связи.

X1 = р1uRu;
Х2 = p21X1 +p2vRv;
Х3 = p32X2 + p31X1b+ p3wRw.

p в этих уравнениях представляет пат-коэффициенты, которые подытоживают размер или силу воздействия, оказываемого одной переменной на другую при постоянных воздействиях других переменных. Общепринятый способ написания пат-коэффициента – pij, что обозначает направление от переменной j к переменной i. Таким образом, набор данных уравнений говорит о том, что величина X1целиком обусловлена факторами, лежащими за пределами модели, величина X2 обусловлена X1 и факторами вне модели, и величина X3 обусловлена X1, X2 и факторами вне модели. Такие переменные, как X2 и X3, которые хотя бы частично определены другими переменными данной модели, называются зависимыми, а переменные, полностью обусловленные внешними по отношению к модели факторами, называются независимыми.

Модели подразделяются на рекурсивные и нерекурсивные. Модель рекурсивна тогда, когда все задействованные в ней переменные могут быть расположены так, что первая будет определяться только внешними факторами, вторая – только внешними факторами и первой переменной, третья – только внешними факторами и первой и второй переменными и т.д. Короче говоря, все это означает, что все причинные влияния должны осуществляться в одном направлении без “обратной связи”. Если между любыми переменными модели существует обратная связь (взаимная причинность), то она считается нерекурсивной.

Проверка. Если значение любого из пат- коэффициентов (коэффициентов стандартизованной регрессии), полученных при этих расчетах, приближается к 0 или является статистически незначимым, то это свидетельствует о том, что мы неверно построили модель, предположив в ней взаимосвязь, которой на самом деле в данных нет. Кроме этого, можно проверить верность наших предположений относительно отсутствия взаимодействия путем вычисления регрессии между эндогенными переменными и теми, с которыми они, по нашему мнению, не связаны. Если полученные пат- коэффициенты существенно отличны от 0 (>=0,2, например) и статистически значимы, нам придется заключить, что модель (и наша теория о тех явлениях, которые ею представлены) нуждается в пересмотре. Пат-анализ такого типа позволит судить не только о том, связаны ли переменные в нашей модели именно так, как мы предполагали, но и о том, каково относительное влияние каждой переменной на другие переменные в данной модели. Суммарное воздействие одной переменной на другую равно значению или силе прямой связи между ними плюс значение или сила непрямых связей, существующих между ними. Сила непрямой связи измеряется произведением тех прямых связей, из которых она состоит.

Наши рекомендации