Описание метода совместного анализа
Обоснование выбора метода
Методом получения ответа на вопрос о предполагаемом росте аудитории канала могла быть регрессионная модель. Однако реализация подобного метода связана с большим количеством трудностей.
Первая и самая главная проблема связана с получением данных для построения временных рядов. Поскольку вся статистическая информация предоставляемая сервисом YouTube Analytics является закрытой, то есть доступной только владельцу канала, то эти данные (в том числе количество подписчиков) значение которых должно было стать зависимой переменной в предполагаемой модели, можно получить только с личного согласия владельца канала.
Данные Analytics предоставляются в динамическом виде, то есть существует возможность узнать конкретное значение интересуемого параметра в любой момент времени с момента создания канала. Но крайне неудобный формат предоставления этих данных, а так же закрытый доступ к информации затрудняет возможность перевода показателей во временные ряды.
И даже те данные, которые могут находиться в открытом доступе (например, количество просмотров) доступны только на текущий момент, что вызвало бы необходимость длительных наблюдений для получения информации и невозможность углубится в прошлое. Это является еще одним препятствием для построения регрессионной модели.
С сокрытием данных, со стороны владельца канала, связано множество трудностей, поскольку автор может ограничить доступ, практически ко всему, например, к комментариям, или оценкам нравится, не нравится, помимо числа подписчиков. Тем самым, возможность частично или полностью скрывать информацию о канале и видеозаписях затрудняет сбор данных.
Так же встал вопрос об определении предикторов, т.е. независимых переменных. Какие именно характеристики могут влиять на предполагаемый рост, стагнацию или убывание аудитории канала, а так же численное выражение этих характеристик в формате временного ряда. Перевод иных характеристик (например, количество положительных или отрицательных комментариев) имеющих субъективный характер во все те же временные ряды выглядит трудоемкой задачей. То есть если мы имеем ситуацию, когда комментирующий прямо пишет – «это видео мне понравилось» или «это видео мне не понравилось» оценить характер данного замечания не составляет труда. Однако часто можно встретить ситуацию, когда наполнение комментария может быть неверно истолковано исследователем. Это прямо повлияет на точность проводимого анализа. Другими словами, неявное выражение предпочтений пользователем оставившим комментарий, должно быть проигнорировано для составления потенциальной оценки.
Однако, существуют сервисы способные работать с данными находящимися в открытом доступе.
Первый такой сервис называется «SocialBlade».
Этот сервис работает по принципу «трекера». Поскольку сервис не запрашивает никаких данных и не требует авторизации Google аккаунта, для работы с API YouTube Analytics, то данные собираются следующим образом: после первого обращения, любым пользователем, к конкретному каналу, сервис начинает собирать данные о канале. Сервис снимает текущие значения количества подписчиков, просмотров видео и загруженных видео, то есть работает с открытыми данными, однако, как уже было сказано, эти данные могут быть и не доступны для общего пользования. Так же на основании внутренних алгоритмов делается вывод о предполагаемых доходах этого канала. Как именно делается вывод о доходах, не раскрывается, однако можно предположить, что существуют некоторые средние константы, на которые умножается число просмотров, всех за время существования канала или за период, обычно это месяц. После первого обращения канал появляется в базе данных сервиса, и записывает данные о канале каждый день, по сути, проделывая формальное наблюдение.
Так же сервис предоставляет услугу построения прогнозных значений о росте числа подписчиков, так же, не раскрывая работу внутренних алгоритмов и методов построения этих прогнозов. Однако на основании представленных данных о сборе информации можно сделать предположение, что из собранных данных, о числе подписчиков, выстраивается временной ряд, а прогнозные значения строятся методом линейного тренда.
Это лишь предположения о работе сервиса, построенное с учетом явной линейности предоставляемых прогнозных значений.
Однако этот сервис не является решением проблемы, поскольку ему присущи все вышеизложенные недостатки:
1. Данные о канале начинают собираться, только с момента первого обращения к этому каналу при помощи данного сервиса.
2. Явная простота и линейность вычислений прогнозных значений, которые, скорее всего, не будут соответствовать действительности, поскольку динамика роста аудитории YouTube канала далеко не всегда подчиняется линейным законам.
Второй сервис называется «vidIQ».
Этот сервис работает с внутренними данными канала, требуя авторизации Google аккаунта, и работает с API YouTube Analytics. Однако результат обработки этих данных доступны только владельцу канала, но у этого сервиса существует приложения для веб-браузера Google Chrome, которое показывает дополнительную информацию о канале, на его веб-странице, или конкретном видео. Скорее всего, менеджера партнерской сети будет интересовать всего несколько разделов этой информации, а именно:
1. Средний прирост количества подписчиков в день.
2. Просмотры и подписчики за последний месяц. По мимо абсолютных значений, приводятся и относительные показатели.
3. Среднее количество просмотров в день.
Проанализировав данные предоставляемые двумя сервисами с личным опытом, возможно, менеджер сможет сделать какие-то выводы, однако этой информации недостаточно для принятия аргументированного решения о подключении канала.
Недостатки этих сервисов и трудности связанные со сбором данных приводят к использованию метода совместного анализа.