Применение однофакторного дисперсионного анализа

В процессе исследования 5 элементов по отдельности внедрялись в игру разработчиком. Подключение элемента занимало полчаса и происходило в 23:30 каждое воскресенье, на протяжении 5ти недель. В пятницу, с помощью сервиса Яндекс-метрика, внедренного в сайт игры, подсчитывались средние показатели времени игры в секундах за каждые из четырех суток и записывались в одну таблицу. В другую записывались уже известные данные, по четырем дням среднего времени игры без изменений. На рисунке 6 изображена статистика в программе Microsoft Excel, по двум неделям [12].

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 6. Статистика по двум неделям

Данные для задач однофакторного дисперсионного анализа обычно записывают в виде прямоугольной таблицы, каждые строка или столбец которой содержит значения, полученные в разных экспериментах, и соответствует определенному уровню фактора. Запишем статистику по двум видам игр в две строки, в соответствии с рисунком 7.

Применение однофакторного дисперсионного анализа - student2.ru
Рисунок 7. Запись в две строки

Сформулируем нулевую гипотезу о том, что математические ожидания для разных уровней фактора одинаковы.

Если нулевая гипотеза принимается, то фактор не влияет на изменчивость. В противном случае – влияет.

Приступим к анализу F-статистики.

Пакет анализа Excel позволяет провести анализ F-статистики одним кликом. Пройдите по меню Данные → Анализ данных, и выберите строку Однофакторный дисперсионный анализ. Если такая команда отсутствует в меню Сервис, то необходимо установить в Microsoft Excel пакет анализа данных.

В диалоговом окне режима, в соответствии с рисунком 8, указываем входной интервал, способ группирования, выходной интервал, метки в первой строке или столбце и альфа (уровень значимости).

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 8. Диалоговое окно однофакторного дисперсионного анализа

Входной интервал – это ссылка на ячейки, содержащие анализируемые данные. Ссылка должна состоять как минимум из двух смежных диапазонов данных, организованных в виде столбцов или строк (в нашем случае строк). Входной интервал можно задать при помощи мыши, или набрать на клавиатуре. Задаем входной интервал, выделяя ячейки содержащие значения среднего времени и заголовки уровней фактора, как показано на рисунке 9.

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 9. Задание входного интервала

Способ группирования можно указать «по столбцам» или «по строкам» в зависимости от расположения данных во входном диапазоне. В данном случае следует указать по строкам.

Затем нужно установить переключатель в положение «Метки в первой строке», если первая строка во входном диапазоне содержит названия столбцов или в положение «Метки в первом столбце», если названия строк находятся в первом столбце входного диапазона. Если входной диапазон не содержит меток, то необходимые заголовки в выходном диапазоне будут созданы автоматически. В данном случае следует поставить галочку в «Метки в первом столбце», в соответствии с рисунком 9.

Есть три варианта вывода. Если нужно вывести результаты на этом же листе, следует выбрать «Выходной диапазон». Далее нужно установить ссылку на ячейку, расположенную в левом верхнем углу выходного диапазона. Размеры выходной области будут рассчитаны автоматически, и соответствующее сообщение появится на экране в том случае, если выходной диапазон занимает место существующих данных или его размеры превышают размеры листа.

Если нужно вывести результаты на новом листе, следует установить переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки А1. Если в этом есть необходимость, следует ввести имя нового листа в поле, расположенном напротив соответствующего положения переключателя.

Если требуется вывести результаты в новой книге, нужно установить переключатель, чтобы открыть новую книгу и вставить результаты анализа в ячейку А1 на первом листе в этой книге.

В данном случае следует выбрать пункт «Выходной интервал» и указать ячейку A17, как показано на рисунке 9. После чего нажать кнопку ОК.

Появятся две таблицы с вычислениями, в соответствии с рисунком 10, которые следует проанализировать.

В этом случае было проведено исследование о влиянии внедрения только одного элемента «Рейтинг». Чтобы проверить влияние остальных элементов, можно просто вписывать данные для каждого внедренного элемента в готовую таблицу и после проводить однофакторный дисперсионный анализ, по той же схеме. Удобно то, что произведенные настройки и выбор диапазона данных сохраняются в окне, поэтому не придется постоянно вводить их снова, достаточно лишь изменить ячейку выходного интервала, перенеся ее в пустое место рабочего листа [13].

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 10. Результаты однофакторного дисперсионного анализа

Таблица «Итоги» содержит статистики для разных уровней фактора (по строкам). В столбце «Счет» вычисляется количество повторений по каждому уровню фактора. В столбце «Сумма» отображена сумма показателей по строкам. Столбец «Дисперсия» содержит частные дисперсии показателя.

Таблица дисперсионный анализ представляет результаты дисперсионного анализа однофакторного комплекса, в котором первая колонка «Источник вариации» содержит наименование дисперсий. В графе «SS» отображена сумма квадратов отклонений, «df» – степень свободы, графа «MS» – средний квадрат, «F» – критерий фактического F-распределения. «P-значение» – вероятность того, что дисперсия, воспроизводимая уравнением, равна дисперсии остатков. Определяет вероятность того, что полученная количественная определенность взаимосвязи между факторами и результатом может считаться случайной. «F-критическое» – это значение F-теоретического, которое впоследствии сравнивается с F-фактическим.

Если фактическое значение F больше F-критического, то с доверительной вероятностью 0,95, следует принять альтернативу – математические ожидания различны.

Иначе, следует принять нулевую гипотезу и можно сделать вывод о том, что математические ожидания равны.

В данном случае Fфакт > Fкритич (7,599 > 5,987), математические ожидания различны, а значит, внедрения данного элемента влияет на среднесуточное время, проводимое пользователями за игрой.

В этом случае было проведено исследование о влиянии внедрения только одного элемента «Рейтинг». Чтобы проверить влияние остальных элементов, можно просто вписывать данные для каждого внедренного элемента в готовую таблицу и после проводить однофакторный дисперсионный анализ, по той же схеме. Удобно то, что произведенные настройки и выбор диапазона данных сохраняются в окне, поэтому не придется постоянно вводить их снова, достаточно лишь изменить ячейку выходного интервала, перенеся ее в пустое место рабочего листа.

Ниже приведены результаты с выводами для каждого внедренного элемента.

С итогами исследования влияния внедрения элемента «Озвучка» можно ознакомиться на рисунке 11.

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 11. Результаты анализа для элемента «Озвучка»

В данном случае Fфакт > Fкритич (14,409 > 5,987), математические ожидания различны, а значит, внедрения элемента «Озвучка» влияет на среднесуточное время, проводимое пользователями за игрой.

С итогами исследования влияния внедрения элемента «Аватар» можно ознакомиться на рисунке 12.

Применение однофакторного дисперсионного анализа - student2.ru
Рисунок 12. Результаты анализа для элемента «Аватар»

В данном случае Fфакт > Fкритич (8,258 > 5,987), математические ожидания различны, а значит, внедрения элемента «Аватар» влияет на среднесуточное время, проводимое пользователями за игрой.

С итогами исследования влияния внедрения элемента «ЛК» можно ознакомиться на рисунке 13.

Применение однофакторного дисперсионного анализа - student2.ru
Рисунок 13. Результаты анализа для элемента «ЛК»

В данном случае Fфакт > Fкритич (18,341 > 5,987), математические ожидания различны, а значит, внедрения элемента «ЛК» влияет на среднесуточное время, проводимое пользователями за игрой.

С итогами исследования влияния внедрения элемента «Анимация» можно ознакомиться на рисунке 14.

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 14. Результаты анализа для элемента «Анимация»

В данном случае Fфакт > Fкритич (12,268 > 5,987), математические ожидания различны, а значит, внедрения элемента «Анимация» влияет на среднесуточное время, проводимое пользователями за игрой [14].

Задача оптимизации

Итак, было выяснено, что все отобранные элементы влияют на среднесуточное время, проводимое пользователями за игрой, а значит можно приступать к следующему шагу – определению наиболее оптимального и эффективного набора элементов.

Известны размеры каждого элемента в мегабайтах, теперь следует узнать, на сколько секунд увеличилось среднее за неделю время, проводимое пользователями за игрой после внедрения каждого из элементов. Эти данные можно взять из таблицы, генерируемой при исследовании с помощью однофакторного дисперсионного анализа. Для в этой таблице нужно найти столбец с наименованием «Среднее», в соответствии с рисунком 15, который характеризует среднее за неделю время, проводимое пользователями за игрой до внедрения элемента и после. После чего нужно от нижнего значения отнять верхнее, полученное значение и будет представлять собой величину изменения среднего за неделю времени.

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 15. Столбец «Среднее»

Для дальнейшего исследования необходимо создать новую таблицу с наименованиями элементов и, соответствующими им, размерами в мегабайтах и величинами изменения среднего за неделю времени, в соответствии с рисунком 16.

Применение однофакторного дисперсионного анализа - student2.ru
Рисунок 16. Таблица с элементами

Задача состоит в том, чтобы выбрать такой набор элементов, который будет давать наибольшее увеличение среднего за неделю времени, проводимого пользователями за игрой, и в то же время уложиться в рамки ограничения размерности выбранного набора 5 мегабайт.

Для удобства дальнейшего исследования нужно отсортировать строки по возрастанию размерности в мегабайтах.

Так как количество комбинаций при заданных условиях небольшое, можно перебрать их вручную, используя некоторые простейшие функции Microsoft Excel.

Сначала следует определить максимально возможное число элементов, которое можно внедрить. Для этого начиная с конца столбика «Размер» нужно складывать значения до тех пор, пока сумма не станет больше 5. Количество элементов, которое в сумме даст число больше 5, нужно отнять один. Это и будет число, характеризующее максимальное количество элементов, которое можно будет внедрить. В данном случае максимально возможное количество элементов 3.

На основе этих данных нужно составить таблицу, в соответствии с рисунком 17, в которую затем следует вписывать значения размеров элементов, которые, различаются в строке, без учета порядка. В столбце «Сумма» будет подсчитываться суммарное количество мегабайт комбинации элементов строки.

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 17. Начальная таблица

Начать следует с максимально большого по размеру элемента, записав его размер в мегабайтах, в данном случае 3,5, в первую ячейку. Затем справа от него нужно записать размер элемента, такой, чтобы в сумме с предыдущим он не превышал 5. Если такой элемент существует, то следует записать его значение, и перейти в ячейку справа от него. Затем справа от него нужно записать размер элемента, такой, чтобы в сумме с предыдущими двумя он не превышал 5. Если такой элемент существует, то следует записать его значение, если нет, то оставить ячейку пустой. В любом случае, после нужно перейти на новую строчку в первую ячейку.

Если существуют еще такие элементы, который имеют размеры, такие чтобы в сумме давали менее 5 с элементом, записанным в ячейке выше, то записываем в ячейку 3,5 повторно. А затем, нужно записать справа от него значение элемента, такого чтобы он не повторялся с элементов выше. Если такого элемента не существует, тогда нужно стереть предыдущее значение элемента 3,5 и заменить его на значение элемента поменьше, в данном случае 2,8. Итерации повторяются до тех пор, пока не закончатся элементы.

Должно получиться в соответствии с рисунком 18.

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 18. Заполненная таблица

Далее нужно создать вторую таблицу, одинаковой размерности с этой, в которой в ячейках заполнить числа, характеризующие увеличение среднего за неделю времени, проводимого пользователями за игрой, для каждого элемента, в соответствии с таблицей на рисунке 18.

Полученная таблица должна выглядеть в соответствии с рисунком 19.

Применение однофакторного дисперсионного анализа - student2.ru

Рисунок 19. Таблица с характеристиками времени.

По полученной таблице можно определить, что максимально эффективной комбинацией элементов является комбинация четвертой строки таблицы, которой соответствуют элементы «Рейтинг», «Анимация» и «Аватар», так как они дают наибольшее увеличение среднего за неделю времени, проводимого пользователями на сайте игры, на 108 секунд, и в тоже время удовлетворяют условию, соблюдения размерности не более чем 5
мегабайт [15].

ЗАКЛЮЧЕНИЕ

В данной курсовой работе с помощью тестов на уровне значимости 0,05 было выяснено, что наиболее эффективными элементами, внедряемыми в игру, которые влияют на среднесуточное время, проводимое пользователями на сайте игры, являются «Рейтинг», «Анимация» и «Аватар».

На основании проведенного исследования в игру Монополия разработчиком были внедрены элементы, позволившие увеличить среднесуточное время, проводимое пользователями на сайте игры, что является причиной повышения интереса к игре, а также в последствии приведет к повышению позиций в поисковой выдаче Яндекса и Google, а значит приведет к увеличению посещаемости сайта.

С помощью построенной модели в исследовании можно с достаточным уровнем достоверности производить тестирование влияния внедрения различных элементов и функций в онлайн-игры, а также эффективно внедрять их в игру при заданных ограничениях.

Разработанные модели решения в данной курсовой работе могут использоваться для аналогичных исследований, в которых нужно выяснить, является ли фактор причиной изменчивости случайной величины.


Наши рекомендации