Преобразование формы информации

В таблицу целесообразно внести все интересующие вас признаки в форме десятичного числа, т.е. предварительно пересчитать минуты в десятичные доли часа, секунды — в десятичные доли минуты, количество месяцев — в десятичную долю года и т.д. Это необходимо, поскольку формат данных для большинства используемых сейчас компьютерных программ накладывает свои ограничения.

В виде чисел в таблицу можно вписать информацию и о тех параметрах выборки, которые предположительно могут оказаться значимыми факторами, но имеются у вас в качественных показателях. Наиболее простыми операциями могут быть: числовое кодирование (мужчины — 1, женщины — 2; прошедшие обучение — 1, не прошедшие — 2 и т.п.) и перевод качественных показателей в ранги. Число 0 для кодирования лучше не использовать, поскольку некоторые статистические компьютерные программы не смогут обработать такие данные. Это не значит, что в таблицу вообще не могут быть записаны нулевые значения. Имеются в виду те случаи, когда в сформированной рабочей подвыборке какой-либо признак имеет только нулевые значения.

Уровень образования, ранжируя, можно следующим образом перевести в числа (см. табл. 9).

Таблица 9. Ранжирование уровней образования

Ранг Уровень образования
Менее 5 классов школы
5-8 классов или училище с дипломом о неполном среднем образовании
9-11 классов или училище с дипломом о полном среднем образовании
Техникум или колледж, или 1-2 курса вуза
3-6 курсов вуза без диплома о высшем образовании
Вуз с дипломом
Аспирантура, ординатура, или другие формы постдипломного образования со сроком обучения 2 года и более

Для перевода в числа должностного уровня можно принять градации, приведенные в таблице 10.

Разумеется, включая в обработку полученные таким образом числовые величины, мы не всегда обнаруживаем ясно, выраженную зависимость этих параметров от остальных. Тем не менее, мы получаем возможность хотя бы приблизительной оценки взаимосвязей. Эту оценку можно сделать и другими способами. Например, при компьютерной обработке и использовании системы управления базой данных можно формировать подвыборки по разным основаниям деления, в том числе и по уровню образования или должностному статусу, и проверять различия между отдельными категориями выборки.

Таблица 10. Ранжирование должностного статуса

Ранг Должностной статус, категория
Подсобные рабочие, технические исполнители
Квалифицированные рабочие, вспомогательный персонал среднего уровня квалификации
Инженерно-технические работники, специалисты со средним специальным и высшим образованием
Работники нижнего руководящего звена (бригадиры, начальники участков и т.п.), руководители подразделений, имеющие в подчинении исполнителей, специалисты высокой квалификации, преподаватели, имеющие ученую степень
Работники среднего руководящего звена (начальники цехов, отделов и т.д.), руководители основных структурных подразделений, имеющих в своем составе подразделения нижнего уровня, заместители руководителей предприятий, ведущие специалисты
Работники верхнего руководящего звена (руководители предприятий, учреждений и организаций, их первые заместители, главные специалисты)

Описанное числовое кодирование полезно для предварительного (разведочного) анализа — немного шансов выявить отчетливые закономерности, но проделать эту работу полезно. Включение, например, в корреляционный анализ таких числовых величин может обнаружить существование или отсутствие взаимосвязей с другими параметрами, позволит не тратить время на более сложные процедуры.

Проверка данных

После создания таблицы на бумаге или компьютере необходимо проверить качество полученных данных. Для этого часто достаточно внимательно осмотреть массив данных. Начать проверку следует с выявления ошибок (описок), которые заключаются в том, что неправильно написан порядок числа. Например, 100 написано вместо 10, 9.4 — вместо 94 и т.п. При внимательном просмотре по столбцам это легко обнаружить, поскольку сравнительно редко встречаются параметры, которые сильно варьируют. Чаще всего значения одного параметра имеют один порядок или ближайшие порядки. При наборе данных на компьютере важно соблюдать требования к формату данных в используемой статистической программе. Прежде всего, это относится к знаку, который должен отделять в десятичном числе целую часть от дробной (точка или запятая).

Затем массив данных надо проверить на наличие "выскакивающих" вариант — выделяющихся значений, которые могли быть получены в результате неточных измерений, ошибок в записях, отвлечения внимания испытуемого и т.д. Если обнаружены "подозрительные" значения, то принять обоснованное решение об их выбраковке, используя достаточно мощный параметрический критерий t. Он рассчитывается по следующей формуле:

V - M

t = ------- > t ,

s

где t - критерий выпада; V — выпадающее значение признака; M — средняя величина признака для всей группы, включающей артефакт; t — стандартные значения критерия выпадов, определяемые для трех уровней доверительной вероятности по таблице приложения 1. Смысл критерия в том, чтобы определить, находится ли данная варианта в интервале, характерном для большинства членов выборки, или же вне его.

Допустим, нами принят уровень значимости 0.05 (доверительная вероятность 0.95), а значение критерия составило 1.5. Поскольку 95% вариант лежат в пределах M ± 1.96 s (1.5 меньше 1.96), то, следовательно, и данная варианта лежит в указанном интервале. Если же значение критерия больше, например, 2.4, то это означает, что данное значение не относится к анализируемой совокупности (выборке), включающей 95% вариант, а есть проявление иных закономерностей, ошибок и пр. и поэтому должно быть исключено из рассмотрения.

Например, в эксперименте вы предлагаете решать мыслительные задачи и регистрируете в числе других параметров время решения. При просмотре данных обнаруживаете, что у одного из испытуемых время решения заметно больше, чем у остальных. Это бывает связано с тем, что вместо решения очередной задачи испытуемый начинает "искать закономерность более широкого плана", "выводить общий принцип" или нечто подобное. Об этом он может сообщить, но может и не сообщить экспериментатору. Понятно, что время решения конкретной задачи при этом может сильно отличаться от средней величины. Если у вас есть предположение, что результаты какого-либо опыта, пробы обусловлены влиянием, которое вы не можете оценить или его оценка не входит в ваши планы, то вы окажетесь перед необходимостью принять обоснованное решение — включать полученное численное значение в дальнейшую обработку или нет.

Предположим, в эксперименте были получены следующие значения некоторого параметра: 10, 20, 20, 30, 30, 40, 40, 50, 210. Следовательно, n=9. Вычислили: M=50, s =61. Можно ли считать значение 210 выпадающим?

210 - 50

t = ----------- = 2.6; t (по табл.) =2.4 (для P=0.95)

Следовательно, значение 210 может считаться выпадающим и должно быть исключено из дальнейшей обработки.

После исключения выпадающих значений первичные статистические параметры вычисляются заново.

Наши рекомендации