Постановка задач исследования
ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ
Исследование проводилось в два этапа, получивших следующие условные названия: 1-й этап — "Разработка ассоциативного словаря"; 2-й этап — "Разработка ассоциативного тезауруса".
На первом этапе осуществлялся ассоциативный эксперимент и первичная обработка полученных данных. Основными результатами работ этого этапа являются: разработанный программный комплекс поддержки процедур и операций эксперимента, анкеты проведенного опроса, заполненная база данных эксперимента и полученные на основе ее обработки материалы Ассоциативного словаря информационных технологий (АСИТ).
Задачи первого этапа: определение списка слов-стимулов, генерация анкет, подготовка их к печати и печать, создание базы данных исследования, проведение анкетирования, ввод и формальный контроль данных анкетного опроса, заполнение базы данных исследования, статистический анализ базы данных, формирование статей ассоциативного словаря, подготовка ассоциативного словаря к печати.
На втором этапе был разработан и апробирован инструментарий для проведения кластерного анализа результатов ассоциативного эксперимента, построена базовая (феноменологическая) модель связей "стимул — стимул" Ассоциативного тезауруса информационных технологий (АТИТ).
Задачи второго этапа: обзор методов кластерного анализа, разработка интерфейса базы данных исследования и программного модуля построения тезауруса, разработка меры оценки силы связи между словами-стимулами и инструментария ее оценки, подготовка данных к кластерному анализу (корректировка нулевых значений меры связи, преобразование значений силы связи в расстояния), кластерный анализ множества слов-стимулов на основе матрицы расстояний.
Рассмотрим более подробно постановку некоторых задач исследования.
Разработка ассоциативного словаря
Генерация анкет
При проведении анкетирования важным является получение на каждое из слов-стимулов одинакового количества слов-реакций. Кроме этого нужно стремиться к исключению внешних организационных факторов, влияющих на ответы респондента.
Два основных фактора оказывают влияние на количество ответов (слов-реакций) опрашиваемых: во-первых, неравномерность представления слов-стимулов в анкетах — в некоторых анкетах какие-то слова-стимулы могут повторяться или отсутствовать; во-вторых, отсутствие слов-реакций на некоторые слова-стимулы — по условию эксперимента респонденты в своей анкете могут не указать слово-реакцию на какое-то слово-стимул.
В числе внешних факторов отметим: а) факторы формы анкеты, влияющие на удобство работы с ней респондентов — геометрические размеры, формат и шрифт текста и др.; б) факторы содержания анкеты — количество слов-стимулов и порядок их расположения, особые сочетания слов-стимулов.
Некоторые сочетания слов-стимулов могут определять ответы опрашиваемых или оказывать влияние на них. Например, при имеющейся в анкете последовательности
стимул1... реакция1
стимул2... реакция2
можно обнаружить, что реакция2 является реакцией не на слово стимул2, а на совокупность слов (стимул1, реакция1, стимул2) целиком, так как предыдущая строка и, следовательно, предыдущая мысль остались в памяти испытуемого.
Замечено, что при ручном способе составления анкет, когда сам исследователь выбирает слова-стимулы, неравномерное распределение их по анкетам и появление особых и повторяющихся сочетаний весьма частое явление. При таком способе из-за значительной трудоемкости нереальными являются какие-либо замены в уже сформированных анкетах слов-стимулов, а также поиск и устранение их особых или часто встречающихся сочетаний.
Забота о качестве результатов эксперимента заставляет исследователя стремиться к тому, чтобы, во-первых, конкретные сочетания слов-стимулов встречались с наименьшей вероятностью, а во-вторых, они были бы наиболее разнообразными, так чтобы их влияние было неоднозначным. Такого результата можно добиться при использовании формальных (статистических) методик генерации анкет, основанных на методах случайной выборки слов-стимулов из их общего списка. Сформулируем задачу генерации анкет исследования в следующем виде:
Необходимо из общего списка слов-стимулов, расположенных в случайном порядке, сгенерировать множество подсписков, для которого разброс частот появления каждого слова-стимула в этом множестве был меньше некоторой первоначально заданной величины.
Формальное описание.
Обозначим:
N — общее количество стимулов;
n — количество анкет;
m — количество слов-стимулов, представленных в анкете.
Пусть А — массив анкет.
где для
Суть задачи генерации анкет заключается в выполнении следующих двух требований:
1. Запрещается повтор любого стимула wijв одной анкете i, т.е.:
2. Максимальный разброс частоты fkпроявления стимула k ограничен: он должен быть как можно ниже. Идеальным считается случай, когда частоты имеют либо наперед заданное значение F, либо значение F+1, т.е.
Подготовка анкет к печати
Анкета должна содержать следующие поля: номер анкеты; возраст, пол, специальность и родной язык респондента; дату, время начала и конца заполнения анкеты; список стимулов; титул.
В анкете в списке стимулов слева от каждого слова-стимула должен присутствовать его код, справа — свободное место, куда респондент записывает свое слово-реакцию. Код стимула используется в технологии клавиатурного ввода данных, в ней набирается не само слово-стимул, а его код.
Титул анкеты должен представлять собой один из следующих текстов: "Ассоциативный эксперимент — май-июнь 1999 г. — руководитель: к.т.н., доц.Филиппович Ю.Н." — для опроса русскоязычных респондентов; "Expérience linguistique associative —sept.1999 — MGTU/ECL — Dr. Pr. Iouri N. Philippovitch / Denis Dhelft" — для опроса франкоязычных респондентов.
Анкета должна иметь вид бумажного документа формата А4, примеры представлены на рис. 1.
В результате заполнения анкеты получаются значения следующих полей: возраст (v); пол (p); специальность (q); родной язык (y); дата (d); время начала (t0); время конца (t1); множество реакций (rj)j, где rjявляется словом-реакцией на слово-стимул sj.
Методы кластерного анализа.
Все методы можно условно разделить на три типа:
1) эвристический: задается точное определение требуемого "образа" кластеров (например, однородные точки должны находиться внутри гиперсферы радиуса R и некоего "центра тяжести"). К недостаткам этого подхода относится то, что определение типичного образа однородных групп может оказаться слишком строгим, т. е. принципиально допустимые кластеры, вид которых не соответствует критерию, отклоняются;
2) оптимизационный: требуемое разбиение соответствует минимуму заданного функционала качества. Этот подход интересен тем, что он дает чисто математическую постановку задачи классификации. Но тогда проблема заключается в выборе и выражении функционала, что чаще всего оказывается нетривиальным (не говоря о самом процессе нахождения экстремума);
3) аппроксимационный: отыскивается такое преобразование (представление) множества данных, которое раскрывает его структуру как состоящую из отдельных областей.
Эти три типа кластеризации связаны тем, что они все носят оптимизационный характер, ведь можно сформулировать первый и третий подходы (а в общем, любой подход: речь идет о математическом формализме) в виде минимизации некоего функционала. Одни методы первого типа рассматривают проблему только на уровне кластера, предполагая то, что "качественная" группировка исключительно обусловлена формированием "качественных" кластеров.
ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ
Исследование проводилось в два этапа, получивших следующие условные названия: 1-й этап — "Разработка ассоциативного словаря"; 2-й этап — "Разработка ассоциативного тезауруса".
На первом этапе осуществлялся ассоциативный эксперимент и первичная обработка полученных данных. Основными результатами работ этого этапа являются: разработанный программный комплекс поддержки процедур и операций эксперимента, анкеты проведенного опроса, заполненная база данных эксперимента и полученные на основе ее обработки материалы Ассоциативного словаря информационных технологий (АСИТ).
Задачи первого этапа: определение списка слов-стимулов, генерация анкет, подготовка их к печати и печать, создание базы данных исследования, проведение анкетирования, ввод и формальный контроль данных анкетного опроса, заполнение базы данных исследования, статистический анализ базы данных, формирование статей ассоциативного словаря, подготовка ассоциативного словаря к печати.
На втором этапе был разработан и апробирован инструментарий для проведения кластерного анализа результатов ассоциативного эксперимента, построена базовая (феноменологическая) модель связей "стимул — стимул" Ассоциативного тезауруса информационных технологий (АТИТ).
Задачи второго этапа: обзор методов кластерного анализа, разработка интерфейса базы данных исследования и программного модуля построения тезауруса, разработка меры оценки силы связи между словами-стимулами и инструментария ее оценки, подготовка данных к кластерному анализу (корректировка нулевых значений меры связи, преобразование значений силы связи в расстояния), кластерный анализ множества слов-стимулов на основе матрицы расстояний.
Рассмотрим более подробно постановку некоторых задач исследования.