Схема 3. Различные типы данных
Все переменные и результирующие показатели можно подразделить на два типа: категориальные и количественные. Дата и время представляют собой не абсолютно формализованную, но необходимую информацию, которая в зависимости от масштабов оценки может служить источником переменных различных типов. Поэтому в структуре типов данных дата и время будут располагаться вне рассматриваемой классификации.
Схема 4. Типы данных
Категориальные (качественные) данныевстречаются, когда объект изучения может принадлежать лишь к одной из взаимоисключающих (альтернативных) категорий.
· Порядковые данные — это категориальные данные, поддающиеся логическому упорядочению.
· Номинальные данные — это категориальные данные, не поддающиеся логическому упорядочению.
а) Бинарные данные — это номинальные данные, которые можно описать с использованием одной из двух альтернативных категорий.
Количественные данные — это данные, которые можно описать с использованием числового значения.
· Дискретные данные — это количественные данные, которые можно описать с идеальной точностью.
· Непрерывные данные — это количественные данные, которые можно описать с точностью, которая была достигнута при измерении на непрерывной шкале.
а) Интервальные данные — это непрерывные данные о величинах, имеющих физический смысл.
б) Относительные данные— это непрерывные данные о безразмерных величинах.
Следует отметить, что определение типов данных для переменных следует проводить до начала сбора информации об изучаемых системах, объектах или явлениях. Это позволяет улучшить дизайн исследования, что значительно снижает вероятность возникновения систематических ошибок. Кроме того, при разработке и внедрении масштабных медицинских технологий, работа осуществляется с гигантскими массивами данных, хранение и анализ которых требуют значительных вычислительных
Номинальные переменные
Номинальные переменные используются только для классификации по признаку категорий. Это означает, что такие переменные могут быть измерены только в терминах принадлежности к различным классам. При этом исследователь не может влиять на количество этих классов и упорядочивать их. Измерения в этой шкале строятся только на принципе эквивалентности. Например, в результатах исследования можно указать, что в случайной выборке оказалось 212 пациентов, различимых в рамках переменной А (национальность): русских – 150, татар – 50, немцев – 10, армянин – 1, грузин – 1 (пациенты принадлежат к разным национальностям). Типичные примеры номинальных переменных: пол, национальность, цвет, населенный пункт и т.д. Номинальные переменные иногда называют категорийными.
Частным случаем номинальных признаков являются бинарные (дихотомические) признаки, представляющие собой признаки с двумя градациями, например, мужской и женский пол, вакцинированные и невакцинированные, масса тела пациента выше среднего или ниже, симптом болезни есть или нет. Наличие или отсутствие признака иногда кодируют цифрами: «нет» – 0, «да» – 1.
Часто начинающие исследователи ошибочно воспринимают их как обычные числовые значения. Однако эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. Единственный способ описания категорийных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно определить, какая доля от общего числа единиц измерения приходится на то или иное значение. Такими данными можно характеризовать структуру явления и представлять их в виде таблиц или диаграмм.
Порядковые переменные
Порядковые переменные позволяют ранжировать (упорядочить) единицы наблюдения, указав, какие из них в большей или меньшей степени обладают качеством, соответствующим данной переменной. Однако они не позволяют установить различие между ними (нельзя определить, на сколько больше или меньше). Порядковые переменные иногда называют ординальными. Типичные примеры порядковой переменной: состояние больного (тяжелое, средней тяжести, удовлетворительное); выраженность боли (сильная, умеренная, слабая, отсутствие боли). Широко известны диагностические инструменты: шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско–Василенко–Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), визуальная шкала боли и т.д. Все эти шкалы построены по схеме: болезни нет; первая стадия болезни; вторая стадия; третья стадия и т.д. Иногда стадии кодируют так: 1, 2а, 2б, 3 и т.д. Каждая стадия имеет свойственную только ей медицинскую характеристику [9].
С градациями этой переменной нельзя производить арифметические действия (складывать, вычитать, делить и т.д.). Понятно, что между тяжелым состоянием одного больного и состоянием средней тяжести другого больного есть разница, однако между этими состояниями нельзя установить разницу, скажем, в 18%. В данном случае градация порядковой переменной характеризуется последовательностью, в то время как номинальные переменные предназначены исключительно для различения категорий. Порядковые переменные играют ключевую роль в оценивании. Иногда признак (переменная) может иметь большое число градации. В связи с этим для сокращения записи таким переменным иногда присваивают определенный балл (от франц. Balle – шар) – условная единица для оценки интенсивности (насыщенности) явления по определенной шкале.