Подготовка данных к анализу
Качество статистических результатов напрямую зависит от того, насколько тщательно и аккуратно данные готовились к анализу (рис. 19).
Рис. 19. Процесс подготовки данных к анализу
Подготовка данных начинается по мере поступления анкет, в то время как полевые работы еще продолжаются. Если возникнут проблемы, ход полевых работ можно скорректировать в нужном направлении.
Проверка и редактирование анкет
По мере поступления анкеты проверяются на полноту заполнения, качество интервью, соответствие определенным квотам.
Если в ходе проверки установлено, что: 1) не заполнены отдельные части анкеты; 2) респондент не понял вопросов; 3) ответы не варьируются, например, респондент отметил одни пятерки в серии семибалльных рейтинговых шкал, даже не обратив внимания, что некоторые позиции выражали негативное, а некоторые позитивное отношение респондентов; 4) анкеты неполные – отсутствуют страницы; 5) ответы даны респондентом, не входящим в группу, выделенную для участия в исследовании, то такие анкеты не принимаются.
Редактирование – это обработка анкет, повышающая точность и аккуратность представленной в них информации. Оно заключается в просмотре анкет и выявлении нечитабельных, неполных, логически непоследовательных или неоднозначных ответов.
Редактирование может выполняться в две стадии: полевое редактирование и централизованное офисное редактирование.
Полевое редактирование выполняется руководителем полевых работ сразу же после заполнения анкеты, пока конкретные контакты еще свежи в памяти проводивших опрос.
Централизованное офисное редактирование – это более полная и точная проверка и коррекция собранных ответов. Для этой работы нужен опытный сотрудник, обладающий острым глазом. Чтобы повысить качество проверки, все анкеты предоставляются одному человеку. Если объем велик и работу нужно делить между несколькими людьми, то лучше делить по частям анкеты, а не по респондентам: один редактор редактирует часть «А» всех анкет, а другой – часть «В».
Ответы на неструктурированные вопросы могут быть неразборчивыми, а чтобы правильно закодировать данные, они должны быть читабельными.
Ответы на неструктурированные вопросы могут быть неоднозначны, в результате их сложно интерпретировать. Даже в структурированных ответах респондент может отметить больше одного варианта ответа на вопрос, по которому необходимо дать однозначный ответ.
Что делать с анкетами неудовлетворительного качества? Их обычно отправляют обратно на место сбора данных для уточнения, либо назначаются пропущенные значения, либо анкеты отбраковываются и не включаются в анализ.
Возврат анкет для уточнения возможен, если выборки небольших размеров и можно идентифицировать респондентов, предоставивших ответы низкого качества.
Назначение пропущенных значений. Если анкету невозможно вернуть для уточнения данных, исследователь может самостоятельно присвоить пропущенные значения. Это возможно в следующих случаях: если количество анкет с неудовлетворительными ответами невелико; доля ответов неудовлетворительного качества в анкете незначительна; переменные по неудовлетворительным ответам не основные.
Некачественные анкеты отбраковываются и не включаются в анализ. Этот способ эффективен в следующих случаях: доля некачественных анкет меньше 10%; размер выборки велик; если «неудовлетворительные» респонденты явно не отличаются от «удовлетворительных» (например, по демографическим признакам, по характеристикам использования товара); доля неудовлетворительных ответов в одной анкете велика; если пропущены ответы по основным переменным. Но бывают случаи когда «неудовлетворительные» респонденты отличаются от «удовлетворительных». В этих случаях использование данного метода повлечет за собой искажение данных. Если принимается решение отбраковать анкеты, то исследователь должен пояснить на основании чего это делается.
Кодирование
Это процедура присвоения цифрового кода каждому возможному варианту ответа по каждому вопросу.
Если анкета включает только структурированные вопросы или небольшое количество неструктурированных вопросов, она кодируется заранее во время разработки.
Если же анкета содержит в основном неструктурированные вопросы, коды присваиваются после того, как заполненные анкеты возвращаются с места сбора данных. Исследователь составляет список наиболее часто повторяющихся вариантов ответов на неструктурированные вопросы, определяет категории, подлежащие кодированию. Категории должны быть взаимоисключающими и взаимоисчерпывающими. Затем для них разрабатываются коды, которые и присваиваются конкретным ответам. Категории считаются взаимоисчерпывающими, если каждый ответ соответствует одному из кодов. Этого можно достичь введением дополнительного кода категории, например, «другое», «ни один из предложенных вариантов», но в такие категории должна войти незначительная часть ответов (не более 10 %).
По наиболее важным вопросам коды категорий должны присваиваться даже в том случае, если нет ни одного ответа респондентов. Иногда важно знать именно то, что никто из отвечающих не дал тот или иной вариант ответа.
Кроме присвоения цифровых кодов вопросам и ответам, при процедуре кодирования необходимо выполнять следующие рекомендации:
- кодировать каждую анкету (респондента);
- для каждого респондента следует включать дополнительные коды: код проекта, код даты и времени.
Исследователю необходимо подготовить кодировочную книгу – инструкцию по кодированию переменных. Она помогает правильно определять и располагать переменные. Даже если анкета закодирована заранее, следует подготовить формальную кодировочную книгу.
Преобразование данных
Преобразование данныхзаключается в переносе закодированных данных из анкеты в компьютер. Данные вводятся через клавиатуру или оптическим сканированием. Пример – преобразование штрих-кода при считывании его в кассах супермаркетов.
При вводе ответов через клавиатуру возможны ошибки, поэтому необходимо проверять введенные массивы данных. Обычно проверяется 20–25 % данных. Второй оператор повторно вводит данные из анкет. Любое расхождение между двумя комплектами преобразованных данных исследуется, чтобы выявить и исправить ошибки ввода данных с клавиатуры. Опытные операторы работают практически без ошибок.
Очищение данных
Очищение данных заключается в проверке состоятельности собранных данных и работе с пропущенными ответами.
Предварительная проверка состоятельности собранных данных проводится на этапе редактирования, но на этом этапе она точнее и тщательнее, так как проводится с использованием компьютерной техники. Проверка состоятельности данных позволяет выявить:
- данные, выходящие за пределы определенного диапазона;
- логически непоследовательные ответы;
- экстремальные значения.
Если обнаружены данные с такими ошибками, их нельзя использовать в анализе, тогда по возможности, их исправляют.
Работа с пропущенными ответами связана с рядом проблем, особенно, если доля таких ответом превышает 10 %. Существует несколько методов работы с пропущенными ответами.
1. Замена пропущенного значения нейтральным (средним). Среднее значение остается неизменным, а другие статистические показатели искажаются незначительно.
2. Замена пропущенного значения условным (вменение значений). Используется, если по структуре ответов на другие вопросы можно определить или вычислить ответы на пропущенные. Очень трудоемок и нередко серьезно искажает данные.
3. Исключение объекта целиком. Анкеты с пропущенными ответами исключаются из анализа. Исключение большого количества данных нежелательно, т.к. респонденты с пропущенными значениями систематически отличаются от респондентов, ответивших на все вопросы, поэтому исключение может значительно исказить ответы.
4. Попарное исключение переменных. Анкеты с пропущенными значениями не отбраковываются автоматически. В вычислениях учитываются вопросы, по которым есть полные ответы; в результате разные вычисления в ходе анализа основываются на разных размерах выборок. Такая процедура обычно применяется в следующих случаях: если размеры выборки велики, если количество пропущенных ответов незначительно, если переменные не сильно взаимосвязаны.
Статистическая корректировка данных
Статистическая корректировка данных включает взвешивание, преобразование переменной и преобразование шкалы. Все эти корректировки необязательны, но их применение может значительно повысить качество анализа.
Взвешивание. Каждому респонденту присваивается весовой коэффициент, отражающий степень его значимости по сравнению с другими. Значение 1 применяется для обозначения респондента с отсутствием весового коэффициента. Цель взвешивания – увеличить или уменьшить в выборке количество наблюдений с определенными характеристиками:
- повысить значимость респондентов, по опросам которых были собраны данные более высокого качества, чем по другим;
- повысить значимость ответов респондентов, которые чаще других используют продукцию. Это достигается присвоением весового коэффициента 3 тем покупателям, которые покупают товар чаще всех, коэффициента 2 – тем, кто пользуется им в средних пределах, 1 – тем, кто приобретает редко.
Метод следует применять с огромной осторожностью, поскольку он разрушает саму природу самовзвешенности любого выборочного обследования. Если метод используется, то процедура взвешивания тщательно документируется и составляется соответствующая часть отчета.
Переопределение переменной. Преобразование данных для создания новых переменных или изменения существующих с тем, чтобы они точнее соответствовали основным задачам исследования. Например: изначально переменной был показатель использования продукции по 10 переменным: пользуюсь ежедневно, 5 раз в неделю, 2–3 раза в неделю, 3–4 раза в месяц, 2 раза в месяц, 1 раз в месяц, 5 раз в год, 2 раза в год, 1 раз в год, никогда не пользуюсь. На этом этапе их можно сократить до четырех категорий: пользуюсь часто, средне, редко и никогда.
Можно воспользоваться коэффициентом соотношения переменных. Если измеряется количество покупок в магазине (Х1) и количество покупок в кредит (Х2), то доля покупок в кредит может стать новой переменной после вычисления соотношения двух исходных переменных (Х1/Х2).
Преобразование шкалы измерений. Манипулирование значениями шкалы для того, чтобы иметь возможность сравнивать ее с другими шкалами.
Базовый анализ данных
Базовый анализ данных заключается в отображении полученных по итогам исследования результатов с помощью таблиц и графиков. Многие маркетинговые исследования не выходят за рамки базового анализа данных. Результаты базового анализа ценны сами по себе и, кроме того, показывают направления для последующего многомерного анализа.
Полученные при анкетном опросе материалы содержат данные об отдельных единицах изучаемой совокупности. Дальнейшая задача состоит в том, чтобы получить общие характеристики совокупности в целом. Это осуществляется с помощью сводки и группировки. Результаты статистической сводки оформляются в таблицах. Значение таблиц в том, что они представляют собой форму наиболее рационального, наглядного и систематизированного изложения результатов разработки статистических данных.
Если в ходе анализа необходимо получить информацию об одной переменной, то изучают распределение частот значений переменной, или вариационный ряд(простая табуляция).
Если нужны данные о связи этой переменной с другими переменными, строятся таблицы сопряженности признаков (перекрестные, комбинационные, сложные таблицы).
В вариационном ряду количественно изменяющийся признак носит название варьирующего, а отдельные его количественные выражения называются вариантами. Числа, показывающие, как часто встречается тот или иной вариант в составе данного ряда, носят название частот. Ряд, в котором сопоставлены варианты и соответствующие этим вариантам частоты и который, следовательно, показывает распределение изучаемой совокупности по величине какого-либо варьирующего признака, носит название вариационного ряда (распределение потребителей по отношению к фирме, марок товаров по предпочтениям и т.п.).
Например, анкета содержит такой вопрос:
«Почему Вы купили эти товары в городе?»
1) покупал попутно, будучи в городе по другим делам;
2) в городе более широкий выбор;
3) в силу обычая привозить из города подарки;
4) в сельских магазинах не было нужных товаров.
5) другие причины (укажите)________________________.
Макет простой таблицы в этом случае будет выглядеть следующим образом (табл.8):
Таблица 8