Непрерывные и дискретные величины

Использование дискретных или непрерывных переменных не привязано к типу шкалы Измерения всегда дискретны — из-за ограниченной точности, — но независимо от способа измерения атрибуты могут быть как дискретными, так и непрерывными. Температура является непрерывной величиной, и то, что мы часто ограничиваем ее значения целыми градусами, говорит не о ее дискретности, а о том, что большая точность нам не нужна. Но с точки зрения квантовой механики наша Вселенная в основе своей дискретна, так что некоторые атрибуты, привычно считаемые непрерывными, могут на поверку оказаться дискретными. Шкалы наименований обычно применяются к дискретным атрибутам. Для непрерывных атрибутов шкалы наименований можно смоделировать, но делается это редко.

Диапазон
Диапазон и градуировка характеризуют способ проведения измерения. Поскольку вносимые в БД числа подчинены определенным ограничениям, эти свойства важны для разработчика. Диапазон определяет верхний и нижний пределы шкалы, то есть максимально и минимально допустимые значения атрибута Как верхний, так и нижний предел могут быть как конечными, так и бесконечными. Выход значения атрибута за пределы допустимого диапазона является ошибкой.
Ресурсы в распоряжении разработчика БД конечны, так что диапазон приходится вводить даже тогда, когда формальных ограничений на атрибут нет. Например, немного найдется компьютерных календарей, охватывающих геологические периоды времени. С другой стороны, и в коммерческих делах такие промежутки встречаются нечасто, так что мы от этой ограниченности особо не страдаем.

Градуировка, погрешность и точность

Сравните обычную линейку со штангенциркулем. Оба предназначены для измерения длины, оба работают в одной системе единиц — но есть важное различие. Штангенциркуль обладает большей точностью благодаря более тонкой градуировке. Градуировка представляет собой свойство шкалы, зависящее, например, от размера минимального деления на линейке. В Европе на линейках используются миллиметровые деления, в США — деления в 1/32 дюйма.
Погрешность определяет близость измеренного значения к реальной величине. От точности зависит воспроизводимость измерения. И погрешность, и точность зависят от градуировки, но они отличаются друг от друга. Попробую объяснить разницу на примере со стрелковыми мишенями, которые представляют собой ни что иное как шкалы для оценки меткости стрелка. У большой мишени диапазон больше, чем у маленькой. Чем больше колец на мишени, тем выше ее разрешение. Начинаем стрелять. Чем ближе попадания к центру мишени (к желаемой цели), тем ниже погрешность. Чем ближе они друг к другу, тем выше точность (воспроизводимость результата). Разница между точностью и погрешностью очевидна: если я хороший стрелок, но у моей винтовки сбит прицел, выстрелы лягут кучно, но в стороне от “яблочка”.
Говоря о точности и погрешности, не стоит предаваться самообману. Исследования говорят, что впечатление от числа пропорционально квадрату количества цифр после запятой. Компьютер провоцирует многих людей на использование длинных десятичных “хвостов”, хотя бы это и не имело никакого смысла. Например, при строительстве дорог в США в качестве минимальной единицы измерения используется десятая доля фута. Более высокая точность просто не нужна, но сколько студентов инженерных специальностей сдает свои работы с размерами, указанными с точностью до десятитысячной доли фута? Ну не прикладывают штангенциркуль к асфальту!
Впрочем, базы данных, как правило, при многих вычислениях задавать точность просто не позволяют. На самом деле, стандарт SQL допускает разное количество цифр после запятой в результатах многих арифметических операций в зависимости от конкретной реализации.

Виды шкал

Необходимые для решаемой задачи точность и погрешность определяют выбор шкалы. Шкалы бывают количественными и качественными. Как правило, говоря об измерениях, большинство людей подразумевает именно количественные шкалы, выражаемые числами и допускающие проведение вычислений. В качественных шкалах возможно упорядочение атрибутов, но в них не допускаются вычисления — только сравнения.

Шкалы наименований

Шкала наименований — простейшая из шкал. В ней каждому элементу измеряемого множества назначается уникальный символ — обычно номер или имя. Например, список городов представляет собой шкалу наименований. Конечно, с философской точки зрения многие люди не сочтут составление списка измерением. Поскольку невозможно четко сказать, какое свойство измеряется, не должно быть и шкалы, скажут они.
У множества (в математическом смысле этого слова) нет естественной точки отсчета, а значит, нет и упорядоченности. Мы, как правило, выстраиваем имена в алфавитном порядке, но с тем же успехом могли бы выстраивать их по длине, или по частоте встречаемости, или еще по какому-нибудь атрибуту. Единственная осмысленная операция со шкалой наименований — сравнение. Можно задать вопрос: “Этот город — Нью-Йорк?” Возможные варианты ответа — “да”, “нет”, “неизвестно”. В базах данных шкалы наименований встречаются очень часто, поскольку их применяют в качестве уникальных идентификаторов.

Шкалы категорий

Шкала категорий, пожалуй, следующая по простоте. В ней сущность приписана к некой категории, которой назначен уникальный символ — опять же, номер или имя. Например, животные разделяются на рептилий, млекопитающих и пр. Чтобы категории имели смысл, они должны попадать в пределы одного класса.
Многие не считают измерением и разделение на категории. Отнесение к той или иной категории может определяться большим набором свойств, с чем связаны две потенциальные проблемы. Во-первых, сущность может попадать в несколько категорий. Например, утконос представляет собой теплокровное, яйцекладущее животное с мехом. Млекопитающие являются живородящими, теплокровными и мехом обладают далеко не всегда. Во-вторых, сущность может не попасть ни в одну из имеющихся категорий. Вот найдем мы на Марсе создание с мехом и хлорофиллом, и готовой категории для него не окажется.
Напрашиваются два решения: создать новую категорию (отряд однопроходных для утконосов и ехидн) или разрешить сущности относиться к нескольким категориям. В собрании подмножеств нет естественного начала отсчета и упорядочения. Единственная осмысленная операция со шкалой категорий — проверка принадлежности к множеству: “Это млекопитающее?” — с возможными вариантами ответа “да”, “нет”, “неизвестно”.

Абсолютные шкалы

Абсолютная шкала представляет собой количество элементов множества. Ее естественное начало отсчета — ноль, или пустое множество. Порядок также существует — множество из пяти элементов больше множества из трех элементов. Допускаются сложение и вычитание. Элементы множеств считаются идентичными и взаимозаменяемыми. Например, в десятке яиц высшего сорта все яйца равны между собой. Абсолютные шкалы широко применяются в БД в качестве меры количества.

Порядковые шкалы

В порядковых шкалах имеется упорядоченность, но нет начала отсчета и допустимых операций. Например, геологи применяют для обозначения твердости минерала шкалу Mooca (Moh's Scale for Hardness, MSH), основанную на упорядоченном наборе стандартных минералов: тальк имеет твердость 1, гипс — 2, кальцит — 3, флюорит — 4, апатит — 5, ортоклаз — 6, кварц — 7, топаз — 8, корунд — 9, алмаз — 10.
Чтобы определить твердость неизвестного минерала, нужно попробовать провести им черту по отшлифованной поверхности одного из стандартных минералов; если на поверхности остается царапина, исследуемый минерал тверже. Обратите внимание, что можно получить один и тот же результат для двух минералов, твердости которых близки, но не одинаковы, а также что возможны минералы мягче нижнего предела или тверже верхнего. У шкалы Мооса нет начала отсчета, и операции с ней невозможны (сложив 10 тальковых единиц, мы все равно не получим алмаз).
Вероятно, чаще всего в наши дни приходится встречаться с порядковыми шкалами в различных опросах, когда вам представляют некое утверждение и предлагают выразить степень согласия или несогласия с ним. Возможные варианты обычно даются в виде ответов, варьирующихся от “совершенно согласен” до “совершенно не согласен”.
Рассмотрим еще один пример — попарный выбор сортов мороженого. Сказав, что шоколадное мороженное вкуснее ванильного, вы можете считать, что изрекаете непреложную истину, но выразить эту непреложность в виде числа у вас не получится. Отсутствие числовой меры означает, что результаты подобных опросов бессмысленно усреднять; все, что вы можете сделать — это представить их в виде гистограммы с количеством респондентов в каждой категории.
Еще один недостаток порядковых шкал — возможное отсутствие транзитивности. Транзитивностью называется следующее свойство отношений: если верны утверждения R(a, b) и R(b, с), то верно и утверждение R(a, с). Например, если а тяжелее b и b тяжелее с, то а тяжелее с. В реальном мире, где имеются отношения “тяжелее”, “старше” и т.п., это свойство кажется неизбежным. Однако в случае с мороженым все не так очевидно. Если в кафе не оказалось шоколадного мороженого, его посетители могут предпочесть ванильное — банановому, банановое — ореховому, ореховое — ванильному. Различия начинают приобретать философский оттенок, из-за чего многие люди отказываются признать шкалой отношения, лишенные транзитивности.

Шкалы ранга

У шкал ранга есть начальная точка и упорядоченность, но с ними невозможны операции. Наиболее очевидный пример — воинские звания. На самой низкой ступени находится рядовой, и именно с этого звания начинается военная карьера. Объединив трех рядовых, вы все равно не получите сержанта.
Шкалы ранга обладают транзитивностью: сержант может отдавать приказы рядовому, офицер может отдавать приказы сержанту и, следовательно, может отдавать приказы рядовому. В книгах шкалы ранга и порядковые шкалы часто объединяют, если автор не признает возможности существования нетранзитивных порядковых шкал. К сожалению, иногда приходится видеть, как люди пытаются навести на эти шкалы какую-то статистику.

Шкалы интервалов

У интервальных шкал есть метрика, упорядоченность, допустимые операции с единицами, но нет начала отсчета. Лучший пример интервальной шкалы — календарь. В качестве календарного начала отсчета принято некое произвольное историческое событие, а все измерения выполняются относительно него в идентичных интервальных единицах.
Метрикой является число дней между двумя датами. Проверим три метрических свойства. (1) М(а, а) = 0: количество дней между сегодня и сегодня равно нулю”. (2) M(a, b) = M(b, a): от сегодняшнего дня до следующего понедельника столько же дней, сколько от следующего понедельника до сегодняшнего дня. (3)M(a, b) + M(b, c) = M(a, c): сумма дней от сегодняшнего дня до следующего понедельника и от следующего понедельника до Нового года равна количеству дней от сегодняшнего дня до Нового года. Порядок дней естественен и неизменен: 1 июля 1900 г. было раньше 1 июля 1993 г. Возможно произвольное объединение базовых единиц (дней) в другие единицы (недели, месяцы, годы).
Не думайте, что в метрике можно применять только арифметическое сложение. Существуют также и логарифмические шкалы, в которых сложение заменяется умножением, а вычитание — делением. Например, логарифмическими являются шкала звездных величин, шкала Рихтера оценки мощности землетрясений, шкала интенсивности звука (децибелы).

Шкалы отношений

Именно о шкалах отношений думает большинство людей, когда речь идет об измерениях. У этих шкал есть начало отсчета (обычно математический ноль), упорядоченность и сопоставленный с ними набор арифметических операций. Их называют шкалами отношений, поскольку все измерения выражаются относительно эталонной единицы или интервала.
Примером шкал отношений могут служить длина, масса и объем. Выбор единицы измерения произволен: масса мешка с песком одна и та же, будь она выражена хоть в килограммах, хоть в фунтах. Другое полезное свойство шкал отношений — независимость единиц от измеряемой сущности: килограмм пуха весит столько же, сколько килограмм железа.

Применение шкал

Абсолютные шкалы и шкалы отношений называют также экстенсивными, поскольку они имеют дело с количественными различиями. Остальные шкалы называют интенсивными, поскольку они имеют дело с качественными различиями. К числам применимы математические операции, а к качествам — нет. Основные свойства различных шкал обобщены в табл. 4.1.

Табл. 4.1. Свойства шкал

Шкала Упорядоченность Начало отсчета Математические операции Пример
Наименований Нет Нет Нет Названия населенных пунктов (“Звенигород”)
Категорий Нет Нет Нет Семейства животных (псовые, кошачьи)
Абсолютная Да Да Да Десяток яиц
Порядковая Да Нет Нет Опросы (степени согласия)
Рангов Да Да Нет Соревнования (места)
Интервалов Да Нет Да Время (часы, минуты)
Отношений Да Да Да Длина (метры), масса (граммы)

Не все, конечно, просто со шкалами. Возьмем, например, привычную температурную шкалу. У нее есть начало отсчета, есть упорядоченность, но операция сложения к температуре неприменима.

Преобразование шкал

Шкалы можно выстроить в некую логическую последовательность, опираясь на то, какие операции с ними возможны.

Непрерывные и дискретные величины - student2.ru

Конкретный атрибут не обязан безусловно принадлежать к одной из этих шкал. Например, в опросных листах часто смешивают порядковые и интервальные шкалы, считая, что измеряемый атрибут представляет собой гладкую непрерывную функцию. Иными словами, при статистической обработке предполагается, что варианты “совершенно согласен”, “согласен”,... “совершенно не согласен” разделены примерно равными интервалами, хотя в реальности никаких интервалов между ними нет. Шкалу, содержащую только значения “да” и “нет”, можно считать как крайним случаем интервальной шкалы, так и крайним случаем абсолютной шкалы.
Важный принцип теории измерений состоит в том, что шкалы можно преобразовывать друг в друга, если они принадлежат к одному типу и применяются для измерения одного атрибута. Абсолютные шкалы преобразованию не поддаются — потому и называются абсолютными. Пять яблок — это пять яблок, как бы вы их ни пересчитывали или раскладывали на столе. Шкалы наименований преобразуются друг в друга при наличии между ними соответствия. Допустим, вооружившись словарем, названия городов можно легко перевести с английского на польский. Проблемы возникают, когда соответствие между шкалами не является взаимно однозначным. Во многих европейских языках имеется слово “кузен”, которым обозначаются дети братьев и сестер родителей. С точки зрения традиций, никаких различий между взаимоотношениями кузенов нет. Иное дело — Китай. Там кузены обозначаются различными словами в зависимости от того, являются ли они детьми брата или сестры одного из родителей. Не меньшее значение имеет и возраст. Скажем, старший сын старшего брата вашего отца обозначается особым словом и является специфическим видом кузена, перед которым у вас есть специфические социальные обязательства. Трудности перевода, однако.
Порядковые шкалы преобразуются в порядковые шкалы посредством монотонных функций, то есть, при преобразовании сохраняется упорядоченность. Скажем, для шкалы Мооса можно выбрать другой набор минералов, металлов, керамики, но если один камень мягче другого, то это отношение не изменится при переходе от одной шкалы к другой. Конечно, и тут возможны проблемы с однозначностью преобразования. Например, может оказаться, что новая шкала способна выявить различия в твердости, которых шкала Мооса не показывала.
Преобразование шкал рангов также осуществляется с помощью монотонных функций, и с той же потенциальной неоднозначностью. Обобщая проблемы преобразования порядковых шкал и шкал наименований, можно сказать так: сущности, которые согласно одной шкале кажутся одинаковыми, в другой шкале оказываются различными. Это связано с различиями в диапазонах и градуировке.
Одну интервальную шкалу можно получить из другой с помощью линейного преобразования, имеющего вид у = а* х + b. Оно сохраняет порядок, но смещает начальную точку. Например, градусы Цельсия превращаются в градусы Фаренгейта по формуле F = 9,0 / 5,0 * С + 32.
Шкалы отношений преобразуются друг в друга посредством умножения на постоянный множитель, поскольку порядок и начало отсчета у них одинаковые. Допустим, чтобы превратить массу из килограммов в фунты, нужно воспользоваться формулой p = 0,4536 * k.

Производные единицы

Во многих используемых нами шкалах применяются не основные, а производные единицы, которые составляются из основных: километры в час (время и расстояние) или квадратные километры (расстояние и расстояние). Для создания производных единиц годятся только шкалы отношений и интервалов. Результатом комбинирования абсолютной шкалы со шкалой отношений или интервалов является не измерение, а статистический параметр. Например, объединив вес (шкала отношений) и количество жителей Нью-Йорка (абсолютная шкала), мы можем вычислить средний вес ньюйоркца, что является статистической характеристикой, а не измерением.
Система единиц СИ основана на семи основных единицах (метр — длина, килограмм — масса, секунда — время, ампер -- сила тока, градус Кельвина — температура, моль — количество вещества, кандела — сила света). В стандарте ISO 2955 (“Information processing — Representation of SI and other units for use in systems with limited character sets”) описаны обозначения единиц СИ в символах ASCII. В эти обозначения включены скобки, пробелы, символы умножения (точка посреди строки), деления (косая черта) и возведения в степень (верхний индекс). У большинства распространенных производных единиц также имеются собственные имена. Например, 10 кг • м / с2 — это 10 ньютонов (единиц силы).

Наши рекомендации