Классификация данных для порядковых о номинальных шкал измерений

Классификация - одна из самых естественных вещей, которые делают люди. Даже самые заурядные вещи подвергаются классификации. Используемые нами классификации приводят людей, места и вещи некоторую систему, которая дает нам понимание того, как они функционируют: подобно другим членам своих групп и отлично от членов других групп. В этом - суть классификации. Число возможных методов классификации и переклассификации бесконечно. Все они сильно зависят от потребностей пользователя, как и работа всей ГИС в целом. Очень часто (особенно если данные получены из внешнего источника) мы работаем с уже классифицированными кем-то данными. И нашу работу можно охарактеризовать как переклассификацию полученных данных. Точки, линии и полигоны могут быть переклассифицированы простым перекодированием атрибутов в их таблицах или перекодированием значений ячеек растра для создания новых наборов данных. В этом простом процессе пользователь меняет сами атрибуты и не более того. В случае растрового набора данных, вы просто меняете числа кодов или имена атрибутов для этих ячеек растра. Таким образом, переклассификация на растре означает просто замену входных значений ячеек новыми выходными значениями. Существует множество различных целей переклассификации данных.Наиболее распространенные из них:Замена значений на основе новой информации.Переклассификацию полезно использовать, когда вы хотите заменить значения во входном растре новыми значениями. Это может потребоваться, если вы выяснили, что значение одной или нескольких ячеек в действительности должно быть другим.Группировка значений.Вам может потребоваться упростить информацию в растре. Например, вы можете объединить различные типы лесов в один класс лесов.Переклассификация значений в наборе растров по единой шкале.Другая причина для переклассификации - присвоение растру значений предпочтительности, чувствительности, приоритета или другого аналогичного критерия. Эту операцию можно выполнить с одним растром (растру типов землепользования можно присвоить значения 1–10, отражающие вероятность эрозии), или с несколькими растрами, чтобы привести их к общей шкале значений. Например, при поиске склонов, на которых наиболее велика опасность появления лавины, исходными данными должны быть уклон, тип почв и растительность.Замена определенных значений на “нет данных” или замена “Нет данных” на значение.Иногда вам нужно исключить определенные данные из анализа, например, если на некоторые типы почв (например, на болота)наложены ограничения, не позволяющие вести на них строительство. В таких случаях вы можете заменить эти значения на “Нет данных”, чтобы исключить их из дальнейшего анализа. В других случаях может потребоваться заменить “Нет данных”на значение, например, если появились данные для ячеек, ранее помеченных, как “Нет данных”.

В векторных системах процесс переклассификации требует как изменения атрибутов, так и геометрии объектов. Во-первых, надо удалить все линии, которые разделяютклассы, которые должны быть объединены. Эта операция называется растворением границ. Затем в атрибутивной таблице нужно записать новые значения атрибутов вновь образованных объектов. На практике эту операцию проще сделать наоборот: создать новое поле, на основе которого будет проходить объединение векторных объектов, и задать векторным объектам одного класса один и тот же атрибут. Возможно, такое поле уже в таблице существует. Затем воспользоваться функций Dissolve (Слияние), которая создаст новый векторный набор данных, представляющий векторные объекты с одинаковым значением выбранного атрибута как один объект.

И в растровой, и в векторной переклассификации полигонов имеется интересная особенность. В обоих случаях по окончании мы имеем меньшее число категорий, чем имели вначале. Этот результат называется агрегированием данных.

35. Переклассификация поверхностей: уклон.

Наиболее широко используются следующие преобразования поверхностей: расчет уклона поверхности, азимута (или экспозиции склона), отмывка рельефа, взаимная видимость, расчет объемов и площадей.

Наиболее просто переклассификация поверхностей выполняется на моделях TIN, так как для треугольников TIN их местоположение и ориентация в трехмерном пространстве определяется однозначно. И более того, элементы ориентирования каждой грани записаны в структуре TIN, и, следовательно, не требуют расчета. Для модели TIN уклон (θ ) будет представлять собой угол между гранью и горизонтальной плоскостью. Угол φ - азимут уклона или экспозицию склона.

Для модели GRID (или другого растра) расчет уклона и экспозиции требует дополнительных вычислительных затрат. В этом случае обычный метод вычисления уклона состоит в том, чтобы провести наиболее подходящую плоскую поверхность через соседние точки и измерить отношение изменения высоты на единицу расстояния.

Функция Уклон вычисляет максимальную скорость изменения значения между соседними ячейками. Каждой ячейке выходного растра присваивается значение уклона. Чем меньше значения уклона, тем ровнее территория; чем больше значение уклона, тем круче склоны..

Когда угол уклона равен 45 градусам, на единицу подъема приходится единица по горизонтали. При выражении в форме процента такой угол уклона равен 100 процентам. По мере приближения уклона к вертикальному (90°), процент уклона приближается к бесконечности.

Переклассификация поверхностей: экспозиция:

Экспозиция указывает направление наиболее крутого уклона от каждой ячейки к соседним. Ее можно считать направлением уклона или направлением по компасу, куда обращен склон холма.

Экспозиция измеряется в градусах против часовой стрелки от 0 (направление на север) до 360 (опять на север, сделав полный круг).

Значение каждой ячейки в наборе данных экспозиции указывает направление склона в данной ячейке. Плоские участки не имеют направления, и им присваивается значение «-1».

С помощью функции Экспозиции мы можем:

• Найти на горе все склоны, направленные на север,

• Выяснить освещенность солнцем каждой точки территории

• Найти все южные склоны в гористом районе, чтобы определить, где в первую очередь будет таять снег, при изучении опасности затопления жилых районов паводком

• Определить плоские участки при поиске места для аварийной посадки самолета.

Переклассификация поверхностей: отмывка рельефа:

Функция Отмывки рельефа создает эффект искусственного освещения поверхности, определяя значения освещенности в каждой ячейке растра.

Параметры отмывки рельефа:

Азимут - это угловое направление расположения солнца, измеряемое от севера против часовой стрелки, в градусах от 0 до 360. По умолчанию установлено значение 315 (северо-запад).

Высота - это угол высоты источника освещения над горизонтом: от 0 (горизонт) до 90 градусов (зенит). По умолчанию установлено значение 45 градусов.

Переклассификация поверхностей: видимость:

Взаимная видимость показывает, что если мы расположены в определенной точке топографической поверхности, то одни области рельефа будут нам видны (области видимости), а другие нет.

Функция Видимости может учитывать кривизну земной поверхности и распределение лучей света при прохождении сквозь атмосферу, если для входной поверхности определена проекция.

Переклассификация поверхностей: расчет объемов:

Функция Насыпей/Выемок показывает площади и объемы изменений между двумя поверхностями. Она указывает площадь и объем поверхности, в которой произошли изменения, связанные с добавлением или удалением вещества поверхности.

Отрицательные значения объема указывают области, где количество вещества выросло, а положительные значения указывают области, где оно убыло.

При помощи функции Насыпей/Выемок:

• Определить области эрозии и отложений в речной долине.

• Вычислить объемы и площади вещества поверхности, которые необходимо изъять или насыпать до определенного уровня строительного участка.

• Определить области, которые часто засыпает во время оползней при поиске безопасных участков для строительства домов.

Буферы.

Буфер - это полигон, с границей на определенном удалении от точки, линии или границы области. Буфер, обычно создается как отдельный объект и хранится в отдельном классе векторных объектов.

При анализе данных может быть понадобиться построить второй буфер вокруг первого, третий - вокруг второго и т.д., которые вместе называются многослойным буфером. Процедура его построения относительно проста, так как каждый новый слой буфера - всего лишь новый буфер вокруг предыдущего слоя.

Некоторые буферы показывают, что вокруг объекта, на неизвестное расстояние простирается регион, который требует защиты, исследования, охраны или иного особого обращения. Многие буферные зоны в реальном мире так же произвольны, как и те, что мы устанавливаем в наших ГИС. Строители обычно сами создают буфер вокруг стройплощадки, чтобы защитить прохожих от тяжелых машин и падающего строительного мусора. Границы областей, загрязненных ядовитыми газами, радиоактивными материалами, разливами опасных жидкостей обычно устанавливаются правительственными агентствами или правоохранительными органами. Но довольно часто эти зоны устанавливаются лишь предположительно, это произвольные буферы.

Размеры буфера могут также основываться на любой процедуре измерения или переклассификации. Например, мы могли бы создать буфер, основанный на функциональном расстоянии от объекта. Это был бы мотивированный буфер. Допустим, что мы создаем буфер вдоль реки, чтобы показать возможность загрязнения почвы по обеим ее сторонам. И мы знаем, что с одной стороны реки почва глинистая, в то время как на другой - песчаная. Поскольку загрязняющие вещества проникают через песок быстрее, чем через глину, буфер должен строиться на основе фрикционных свойств глинистой почвы. В результате буфер будет менее широким со стороны глины, нежели со стороны песка, отражая различия в проницаемости почв разных типов.

Размер буфера может быть выбран по результатам изменения какого-либо явления, или, например, на мерах взаимной видимости. В этом случае мы получим измеримый буфер.

Существует еще четвертый вид буферов — нормативный, когда буферизация определяется нормативными актами. Например, нам говорят, насколько близко к пожарному гидранту мы можем парковать машину, и какая часть палисадника в действительности принадлежит местному сообществу. Строительные нормы указывают расстояния вокруг объектов коммунальных служб и между зданиями; природоохранные организации создают защитные полосы.

Независимо от типа буфера (произвольный, мотивированный, измеримый или нормативный) всегда есть вероятность того, что буфер не будет иметь одинаковую ширину вдоль всего линейного объекта или со всех сторон полигона. Такие различия, проиллюстрированные примером буфера разной ширины вдоль реки в зависимости от типа почвы, создают класс буферов, называемых варьируемыми. Варьируемый буфер может определяться барьерами или любой другой функцией окрестности

Анализ квадратов

Равномерные точечные распределения определяются на основе отношений между одинаковыми подобластями, называемыми квадратами. Если каждый квадрат содержит примерно одинаковое число точек, то распределение является равномерным. Равномерные распределения редко встречаются среди биологических явлений, так как живым организмам свойственно мигрировать в сторону большей концентрации питательных веществ и т.д. Если распределение действительно равномерное, то мы можем предположить, что нет существенного механизма, управляющего расположением объектов.

В стандартном методе анализа квадратов используется нулевая гипотеза о равномерности распределения: мы предполагаем, что примерно одно и тоже число объектов будет находится в каждой подобласти, равное общему числу объектов, поделённому на количество подобластей. Для проверки равномерности распределения может использоваться относительно простой статистический показатель, который называется критерием x2 (хи-квадрат) и выражается формулой:

x2=Σ [(Q-E)/E],

где Q - наблюдаемое число точек в квадрате, Е – ожидаемое (т.е. среднее) число точек в квадрате, суммирование проводится по всем квадратам. Если полученное число незначительно отличается от ожидаемого, то распределение является равномерным; заметное отличие говорит о некоторой неравномерности, что может означать, наличие какого-то процесса, формирующего эту неравномерность. Чаще всего наблюдаемые нами точечные распределения связаны с другими показателями (покрытиями) карты той же области исследования. Эти возможно связанные покрытия могут быть и точечными, и площадными, и линейными.

Помимо информации о равномерном распределении анализ квадратов может дать отношение дисперсии к среднему (математическому ожиданию). Здесь также используется критерий x2, который вычисляется как произведение отношения дисперсии к среднему на число подобластей за вычетом одной. Высокие значения x2 указывают на большой разброс между числом точек в каждой области и средним для всей области, то есть на то, что мы имеем кластерное (групповое) распределение. И наоборот, малые значения x2 означают, что распределение более равномерное. Промежуточные значения указывают на то, что распределение более тесно связано с некоторым случайным процессом, где некоторые квадраты имеют несколько большее, а другие - несколько меньшее число, чем среднее

x2 = (n-1) d2/#,

d2 – дисперсия, #-среднее, n- число квадратов.

Анализ ближайшего соседа.

Нужно рассмотреть локальные отношения внутри пар точек. Чаще всего это делается методом анализа точечных распределений - анализом ближайшего соседа, общепринятой процедурой определения расстояния от каждой точки до ее ближайшего соседа (РБС) и сравнения этой величины со средним расстоянием между соседями.

Как и в анализе квадратов, мы можем сравнить среднее РБС с тремя возможными распределениями — регулярным, случайным и кластерным. Этот метод может быть описан в общем для каждого из этих случаев как вычисление индекса, с которым вы можете сравнить свои результаты:

Индекс случайного распределения - 1/[2×(n/S)½],

Индекс максимальной рассеянности – 1.07453/(n/S)½ ,

n – число точек, S- площадь, n/S – плотность точек.

Наконец, для критерия максимальной сгруппированности мы можем принять РБС = 0, когда точки расположены одна под другой.

Простое сравнение рассчитанного РБС с тремя индексами даст вам понятие о том, каково это распределение.

Полигоны Тиссена.

Точечные распределения характеризуются с помощью полигонов Тиссена. Они основаны на том, что мы можем нарастить полигоны вокруг точек, чтобы показать их возможные зоны влияния.

Создание полигонов Тиссена довольно просто, но может стать запутанным, если количество точек велико. Чтобы понять, как их строить, давайте вначале разберемся, что эти фигуры должны представлять. Если у нас есть несколько точечных объектов, мы можем представить себе, что каждая точка окружена одиночным неправильным многоугольником. Но многоугольник имеет одно важное свойство - любая точка внутри него находится ближе к очерченной точке, чем любая другая точка покрытия. И наоборот, каждая точка вне полигона ближе к некоторой иной, нежели к очерченной. Другими словами, граница каждого полигона дает окружаемой точке наименьшую возможную область влияния. Каждая точка покрытия будет иметь свой собственный полигон Тиссена, показывающий область исключительно ее влияния. Теперь давайте подумаем, как мы могли бы сделать это.

Возьмем простой набор точек (рисунок в верхней части слайда). Образование полигонов Тиссена можно представить как результат роста мыльных пузырей с центром в каждой из точек. В конце концов границы пузырей превращаются в прямые линии, а сами пузыри - в многоугольники. Стороны этих многоугольников ориентированы перпендикулярно линиям, соединяющим соседние точки. Причем длины двух отрезков, получившихся с обеих сторон границы одинаковы.

Полигоны Тиссена названы в честь климатолога Тиссена (А.Н. Thiessen), который пытался проинтерполировать сильно неравномерные распределения климатических данных. Иначе говоря, он пытался описывать и анализировать точечные данные с помощью площадных символов и аналитических методов. Таким образом, если у нас есть несколько разбросанных точек, и мы хотим охарактеризовать регионы, основанные на этих точках, то используем полигоны Тиссена. Поскольку мы считаем, что в каждом полигоне влияние очерченной точки абсолютно мы можем обращаться с этими данными как с полигональным покрытием.

Распределения полигонов.

Мы можем начать анализировать распределения областей через определение плотности полигонов на единицу площади нашей области изучения. Помимо плотности полигонов, нас может интересовать расположение и формы распределений, создаваемые группами полигонов, которые могут подсказать причины таких расположений. Кроме этого, площадные объекты могут быть соединены друг с другом, или удалены на некоторые определимое расстояние.

Статистик соединений. Вид распределения, образуемого полигонами, можно также оценивать с помощью статистического показателя (статистика) соединений (общих границ).

Соединение - это общая граница двух смежных полигонов. Статистик соединений подсчитывает количество соединений в полигональном распределении и характеризует структуру соединений каждого покрытия.

Распределение соединений также можно оценивать с помощью критерия x2. Но этот показатель подразумевает, что мы знаем, каким должно быть ожидаемое распределение в условиях случайности. Если бы мы знали подобные распределения для полигонов (на основе числа соединений), то могли бы сравнивать их точно таким же способом.

41. Методы анализа пространственных распределения линий: плотность линий.

Рассмотрим плотность линий:

Мы определили плотность безразмерных точек как отношения их числа к занимаемой ими площади. Плотность двухмерных полигонов определялась как отношение суммарной площади класса к площади всей карты. Подобным же образом, для определения плотности одномерных линий мы будем использовать отношение суммы их длин к площади покрытия. Выражаться оно может в метрах на гектар или километрах на квадратный километр.

Расчет плотности линий аналогичен расчету плотности точек. Плотность линейных объектов – это растровый набор данных. Значение в каждой ячейки растра является отношением длины линейных объектов пределах в некоторой окрестности ячейки к площади этой окрестности.

Другой способ изучения распределений линейных объектов основан на расчете интервалов между линиями и вo многом подобен анализу ближайшего соседа в точечных распределениях. Выбрать центр каждой линии и провести анализ ближайшего соседа для этих точек просто. Однако, вследствие того, что линии имеют различные длины, эта процедура не даст нам правдивой картины распределения самих линий. С точки зрения статистики часто считается полезным делать случайную выборку. Существует несколько подходов к получению случайной выборки.

1. Для анализа ближайших соседей среди линейных объектов на каждой линии выбираем случайную точку. Далее, опускается перпендикуляр из этой точки к ближайшей линии. Затем измеряем эти расстояния и подсчитываем среднее РБС. Как со всеми РБС, мы должны иметь возможность оценить эту величину по отношению к случайному. Как и в случае точек используем статистический критерий. Этот критерий работает для большинства распределений линий, будь линии прямыми или изогнутыми, но имеет и некоторые ограничения. Если линии очень извилисты, этот подход - менее чем успешен. Кроме того, чтобы критерий был полезен, линии должны быть, по меньшей мере, в полтора раза длиннее среднего расстояния между ними.

2. Методы пересечения линий являются альтернативой при анализе распределения линий. Один простой подход состоит в том, чтобы преобразовать двухмерный паттерн в одномерную последовательность прочерчиванием выборочной линии через карту и учетом пересечений этой линии с линиями покрытия. Существуют, по меньшей мере, два способа создания таких линий. Первый - случайно выбрать пару точек и соединить их линией. Второй метод состоит в проведении луча из случайной точки под случайным углом. После того, как линия проведена, может быть рассмотрено распределение интервалов между пересечениями ее с линиями покрытия с использованием стандартных статистических методов анализа данных.

Вместо одиночной можно провести зигзагообразную линию, которая пересекает покрытие два или три раза. Зигзагообразный путь, часто называемый случайным обходом, также создаст серию пересечений, расстояния между которыми могут быть проанализированы статистическим методами.

Наши рекомендации