Алгоритм кластерного анализа

Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, "сгустков" наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности.

Выбор конкретного метода кластерного анализа зависит от цели классификации.

Кластерный анализ используется при исследовании структуры каких–либо совокупностей.

От матрицы исходных данных

Алгоритм кластерного анализа - student2.ru (16.5)

переходят к матрице нормированных значений Z с элементами:

Алгоритм кластерного анализа - student2.ru , (16.6)

где:

j = 1, 2, 3, 4 – номер показателя, i = 1,2,..., n – номер наблюдения;

Алгоритм кластерного анализа - student2.ru ; (16.7)

Алгоритм кластерного анализа - student2.ru (16.8)

В качестве расстояния между двумя наблюдениями zi и zν используется "взвешенное" евклидово расстояние, определяемое по формуле:

Алгоритм кластерного анализа - student2.ru (16.9)

Полученные значения удобно представить в виде матрицы расстояний:

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru (16.10)

Так как матрица R симметрическая, т.е. Алгоритм кластерного анализа - student2.ru , то достаточно ограничиться записью наддиагональных элементов матрицы.

Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояния между кластерами определяют по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором – между наиболее удаленными друг от друга.

Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга.

На первом шаге алгоритма каждое наблюдение zi (i = 1, 2,..., n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.

Вопросы для самоконтроля

1 В чем принципиальное отличие между дискриминантным и кластерным анализами при отнесении признака к какому-то либо существующему или вновь образующемуся классу?

2 По каким критериям можно выбирать оптимальный способ классификации признака при дискриминантном анализе?

3 Чем отличаются рандомизированные и нерандомизированные решающие правила при дискриминантном анализе?

4 В чем разница между двумя общими методами дискриминантного анализа: стандартного и пошагового?

5 При каком количестве обучающих выборок дискриминантный анализ может дать достаточно достоверную оценку разделения признаков?

6 Что может служить мерой сходства между объектами в кластерном анализе?

7 Чем отличаются методы одиночной, средней и полной связей в кластерном анализе?

8 Какое количество кластеров закладывается на первом этапе классификации n объектов?

Литература

ОСНОВНАЯ

1 Лакин, Г.Ф. Биометрия / Г.Ф. Лакин - М.: «Высшая школа», 1990. – 142 с.

2 Плохинский, Н.А. Биометрия / Н.А. Плохинский - М.: «МГУ», 1970. – 368 с.

3 Свалов, Н.Н. Вариационная статистика / Н.Н. Свалов - М.: «Лесная промышленность», 1977. – 177 с.

4 Рокитский, П.Ф. Биологическая статистика: изд. 3 испр. / П.Ф. Рокитский - Минск: «Вышейшая школа», 1973. – 320 с.

5 Жученко, Ю.М. Статистическая обработка информации с применением персональных компьютеров: практическое руководство для студентов 5 курса / Ю.М Жученко – Гомель: УО ГГУ им.
Ф. Скорины, 2007.– 101 с.

6 Зайцев Г.Н. Математическая статистика в экспериментальной ботанике / Г.Н. Зайцев - М.: «Наука», 1984. –
424 с.

ДОПОЛНИТЕЛЬНАЯ

7 Мюллер, П. Таблицы по математической статистике /
П. Мюллер [и др.] - М.: «Финансы и статистика», 1982. – 64 с.

8 Павловский, З. Введение в математическую статистику /
З. Павловский - М.: «Статистика», 1967. – 285 с.

9 Карасев, А.И. Теория вероятностей и математическая статистика / А.И. Карасев - М.: «Статистика», 1979. – 279 с.

10 Бейли, Н. Математика в биологии и медицине / Н. Бейли - М.: «Мир», 1970. – 167 с.

11 Урбах, В.Ю. Статистический анализ в биологических и медицинских исследованиях / В.Ю. Урбах - М.: «Медицина», 1975. – 321 с.

12 Боровиков, В.П. Популярное введение в программу STATISTICA / В.П. Боровиков - М.: «КомпьютерПресс», 1998. – 69 с.

13 Лапач, С.Н. Статистические методы в медико-биологических исследованиях с использованием Excel / С.Н. Лапач
[и др.] - К.: «МОРИОН», 2000. – 196 с.

14 Реброва, О.Ю. Статистический анализ медицинских данных: применение пакета прикладных программ STATISTICA /
Реброва О.Ю. - М.: «МедиаСфера», 2002. – 84 с.

Приложение. Основные формулы и определения

Алгебраические преобразования

Законы действий над числами

Переместительный закон сложения: Алгоритм кластерного анализа - student2.ru .

Сочетательный закон сложения: Алгоритм кластерного анализа - student2.ru .

Переместительный закон умножения: Алгоритм кластерного анализа - student2.ru .

Сочетательный закон умножения: Алгоритм кластерного анализа - student2.ru .

Распределительный закон умножения относительно сложения:

Алгоритм кластерного анализа - student2.ru

Распределительный закон умножения относительно вычитания:

Алгоритм кластерного анализа - student2.ru

Дробные выражения

Основное свойство дроби: Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru

Действия с дробями (предполагается, что знаменатели дробей отличны от нуля):

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru

Пропорциональность

Пропорция – равенство двух отношений:

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru

(a, d – крайние члены пропорции; b, с – средние члены пропорции).

Основное свойство пропорции: Алгоритм кластерного анализа - student2.ru .

Выражение члена пропорции через остальные:

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru .

Если истинна пропорция Алгоритм кластерного анализа - student2.ru , то истинны и следующие пропорции: Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru .

Прямая пропорциональность – функция, заданная формулой:

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru

где k – коэффициент пропорциональности;

y, x – пропорциональные переменные.

Свойство прямой пропорциональности: Алгоритм кластерного анализа - student2.ru .

Обратная пропорциональность – функция, заданная формулой:

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru

Свойство обратной пропорциональности: Алгоритм кластерного анализа - student2.ru .

Степени и корни

Степень с целым показателем

Алгоритм кластерного анализа - student2.ru (n раз, Алгоритм кластерного анализа - student2.ru ), Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru Алгоритм кластерного анализа - student2.ru .

Свойства:

Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru .

Корень n–й степени

Алгоритм кластерного анализа - student2.ru – арифметический корень n–й степени из числа а, а > 0,

Алгоритм кластерного анализа - student2.ru .

Свойства:

Алгоритм кластерного анализа - student2.ru .

В частности, Алгоритм кластерного анализа - student2.ru – арифметический квадратный корень:

Алгоритм кластерного анализа - student2.ru .

Степень с дробным (рациональным) показателем

Алгоритм кластерного анализа - student2.ru .

Свойства степени с действительным показателем

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru ,

Алгоритм кластерного анализа - student2.ru

Прогрессии

Арифметическая прогрессия

Арифметическая прогрессия – числовая последовательность (an), определяемая условиями: 1) а1= а; 2) an+1 = аn + d, n = 1, 2, ...
(d – разность арифметической прогрессии).

Свойства арифметической прогрессии:

Алгоритм кластерного анализа - student2.ru

Формула n-ro члена: Алгоритм кластерного анализа - student2.ru .

Формулы суммы n первых членов:

Алгоритм кластерного анализа - student2.ru

Геометрическая прогрессия

Геометрическая прогрессия – числовая последовательность (bn), определяемая условиями: Алгоритм кластерного анализа - student2.ru
(q – знаменатель геометрической прогрессии).

Свойства геометрической прогрессии:

Алгоритм кластерного анализа - student2.ru .

Формула n-ro члена: Алгоритм кластерного анализа - student2.ru .

Формулы суммы n первых членов ( Алгоритм кластерного анализа - student2.ru ):

Алгоритм кластерного анализа - student2.ru

Сумма бесконечной геометрической прогрессии:

Алгоритм кластерного анализа - student2.ru .

Формулы сокращенного умножения

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru

Логарифмы

Алгоритм кластерного анализа - student2.ru – логарифм числа b по основанию а.

Основное логарифмическое тождество: Алгоритм кластерного анализа - student2.ru .

Алгоритм кластерного анализа - student2.ru – десятичный логарифм (логарифм по основанию 10): Алгоритм кластерного анализа - student2.ru .

Алгоритм кластерного анализа - student2.ru – натуральный логарифм (логарифм по основанию е): Алгоритм кластерного анализа - student2.ru .

Переход от одного основания к другому:

Алгоритм кластерного анализа - student2.ru

В частности,

Алгоритм кластерного анализа - student2.ru

M – модуль перехода от натуральных логарифмов к десятичным.

Свойства логарифмов (u, v > 0):

Алгоритм кластерного анализа - student2.ru

Алгоритм кластерного анализа - student2.ru ,

Алгоритм кластерного анализа - student2.ru .

Элементы комбинаторики. Формула Ньютона

Перестановки. Размещения. Сочетания

Число перестановок из n элементов:

Алгоритм кластерного анализа - student2.ru (n! – n факториал)

Число размещений из n по m (n ≥ m):

Алгоритм кластерного анализа - student2.ru

Число сочетаний из n по m (n ≥ m):

Алгоритм кластерного анализа - student2.ru

Формула бинома Ньютона

Алгоритм кластерного анализа - student2.ru

Треугольник Паскаля

                   
                 
               
             
           
         
       
     
   
 

Числовые функции

Основные понятия

Область определения (множество задания) функции f: Алгоритм кластерного анализа - student2.ru :

X = D(f).

Множество значений функции f:

Алгоритм кластерного анализа - student2.ru .

График функции:

Алгоритм кластерного анализа - student2.ru .

Четная функция:

Алгоритм кластерного анализа - student2.ru .

Нечетная функция:

Алгоритм кластерного анализа - student2.ru .

Периодическая функция (периода ω):

Алгоритм кластерного анализа - student2.ru .

Линейная функция

Алгоритм кластерного анализа - student2.ru

Функция строго возрастает при а > 0, строго убывает при а < 0.

График функции – прямая линия.

Квадратичная функция: Алгоритм кластерного анализа - student2.ru

1. При а > 0 (рисунок 1–а) функция строго убывает на Алгоритм кластерного анализа - student2.ru и строго возрастает на Алгоритм кластерного анализа - student2.ru . График функции – парабола с осью Алгоритм кластерного анализа - student2.ru , вершиной в точке Алгоритм кластерного анализа - student2.ru и ветвями, направленными вверх.

2. При а < 0(рисунок 1–б) функция строго возрастает на Алгоритм кластерного анализа - student2.ru и строго убывает на Алгоритм кластерного анализа - student2.ru . График функции – парабола с осью Алгоритм кластерного анализа - student2.ru , вершиной в точке Алгоритм кластерного анализа - student2.ru и ветвями, направленными вниз.

а) б)
Рисунок 1 – Квадратичная функция a) Алгоритм кластерного анализа - student2.ru ; б) Алгоритм кластерного анализа - student2.ru

Степенная функция: Алгоритм кластерного анализа - student2.ru

1. Алгоритм кластерного анализа - student2.ru : Алгоритм кластерного анализа - student2.ru . Функция четная, строго возрастает на Алгоритм кластерного анализа - student2.ru и строго убывает на Алгоритм кластерного анализа - student2.ru (рисунок 2–а).

2. Алгоритм кластерного анализа - student2.ru : Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru . Функция нечетная, строго убывает на Алгоритм кластерного анализа - student2.ru и Алгоритм кластерного анализа - student2.ru (рисунок 2–б)

а) б)
Рисунок 2 – Степенная функция: а) Алгоритм кластерного анализа - student2.ru ; б) Алгоритм кластерного анализа - student2.ru

Экспонента: Алгоритм кластерного анализа - student2.ru (рисунок 3–а)

При a > 0 – функция строго возрастает. При a < 0 – функция строго убывает.

Показательная функция: Алгоритм кластерного анализа - student2.ru Алгоритм кластерного анализа - student2.ru (рисунок 3–б)

При 0< а< 1 функция строго убывает, при а >1 строго возрастает.

а) б)
Рисунок 3 – Показательная функция: а) Алгоритм кластерного анализа - student2.ru ; б) Алгоритм кластерного анализа - student2.ru

Логарифмическая функция

Логарифм натуральный: Алгоритм кластерного анализа - student2.ru .

Функция строго возрастает (рисунок 4–а).

Логарифм с основанием а: Алгоритм кластерного анализа - student2.ru ,

Алгоритм кластерного анализа - student2.ru

При 0 < а < 1 функция строго убывает, при а > 1 строго возрастает (рисунок 4–б).

а) б)
Рисунок 4 – Логарифмическая функция: а) Алгоритм кластерного анализа - student2.ru ; б) Алгоритм кластерного анализа - student2.ru

Логистическая функция

Уравнение Ферхюльтса: Алгоритм кластерного анализа - student2.ru , Алгоритм кластерного анализа - student2.ru

При a ≥ 0 и b ≤ 0 функция строго возрастает (рисунок 5–а).

При a ≤ 0 и b ≥ 0 функция строго убывает (рисунок 5–б).

а) б)
Рисунок 5 – Логистическая функция: а) Алгоритм кластерного анализа - student2.ru , a>0, b<0; б) Алгоритм кластерного анализа - student2.ru , a<0, b>0

Учебное издание

Жученко Юрий Михайлович

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В БИОЛОГИИ И ХИМИИ

Учебное пособие

для студентов вузов, обучающихся
по специальности 1-31 01 01 «Биология»

Редактор

Корректор

Лицензия _________________________

Подписано в печать . Формат 60х84 1/16.

Бумага писчая №1. Гарнитура «Таймс». Усл. п. л.

Уч.- изд. л. Тираж 100 экз. Заказ № .

Отпечатано с оригинала-макета на ризографе

учреждения образования

«Гомельский государственный университет

имени Франциска Скорины»

Лицензия _________________

246019, г. Гомель, ул. Советская, 104

Наши рекомендации