Системы поддержки нетипового анализа числовых данных
Нетиповой анализ (ad-hoc analysis) - нестандартный, нерегулярный, неформализованный и потому не автоматизированный анализ больших массивов числовых данных. Цель нетипового анализа - визуальное обнаружение закономерностей и отклонений. Системы поддержки нетипового анализа обеспечивают легко варьируемые представления больших массивов числовых данных, оперативно или с малой задержкой извлекаемых из баз данных.
Нетиповой анализ реализуется в системах так называемой "оперативной аналитической обработки" данных (online analytical рrocessing - OLAP). Суть технологии OLAP - в быстром получении удобно представленных многомерных данных (исходных, выборочных, интегрированных), извлекаемых из базы данных сообразно заранее сформулированным или текущим требованиям пользователя.
В OLAP-системах используется двумерная или многомерная модель данных.
При использовании многомерной модели основная единица данных - многомерная переменная: массив размерности N (то есть имеющий N измерений). На экране компьютера многомерная переменная демонстрируется в виде того или иного двумерного среза, оформленного примерно следующим образом:
"край колонок"
"край -------+ +-----------------------------+
страниц" =========== ================== ===========
+---------+ | | | | |
|---------+ | | | | |
=========== | | | | |
+- ============|=======|=======| ==|========|
| +-----------+-------+-------+- -+--------+
| +-----------+-------+-------+- -+--------+
"край | +-----------+-------+-------+ --+--------+
рядов"| +-----------+-------+-------+- -+--------+
|
| +-----------+-------+-------+ --+--------+
+- ============================== ===========
На "крае страниц" представляются все измерения многомерной переменной, не попавшие в отображаемый срез.
Многомерная модель данных считается наиболее подходящей для отображения экономической информации - обычно группируемой по трем-четырем характеристикам одновременно, к примеру, по дате, подразделениям, продуктам, показателям.
Операции в системе анализа многомерных данных:
1. Поворот "многомерного куба": к примеру, на экране колонки становятся строками, строки - колонками.
2. Переход к другому срезу данных (на другую "страницу").
3. Перераспределение измерений многомерной переменной между краями таблицы (в одном крае можно демонстрировать одно или несколько измерений).
4. Переход к другому уровню интеграции данных.
5. Агрегирование данных (устранение одного или нескольких измерений).
6. Изменение состава и порядка следования колонок, строк, страниц.
7. Создание выборки колонок, строк, страниц по указанному признаку.
8. Демонстрация в одной таблице нескольких многомерных переменных, имеющих одинаковые измерения.
9. Отключение показа строк, в которых имеются только нули и/или неопределенные значения.
10. Выделение цветом тех ячеек, значения которых больше указанного верхнего порога, меньше указанного нижнего порога.
11. Представление данных графиком некоторого типа. Быстрая смена типа графика.
Системы для контент-анализа
Назначение программной системы для контент-анализа - получение числовых характеристик содержания текста или набора текстов, например, подсчет количества упоминаний некоторых ключевых слов, количества публикаций на некоторую тему.
Мангейм Дж. Б., Рич. Р. К.: "Нас может интересовать, например, сколько времени или печатного пространства уделено интересующему нас предмету в том или ином источнике. Сколько слов или газетных столбцов было уделено каждому из кандидатов во время определенной избирательной кампании? Сколько статей или страниц бывает ежегодно посвящено в американских политологических журналах анализу государственно-политических проблем Африки?" ("Политология: методы исследования", стр. 283)
Привлекательность контент-анализа - в легкости осуществления собственно подсчета при условии использования компьютеров, опасность - в возможных последствиях недостаточного учета контекста.
Мангейм, Рич: "Возможная ошибка, связанная с грубо прямолинейным подсчетом слов, состоит в том, что одно и то же слово может употребляться в самых разных контекстах, изменяющих его значение." (там же, стр. 274) Чтобы избежать такой ошибки, следует анализировать контекст. Это может делать оператор либо (с худшим качеством, но быстрее) компьютерная программа. "Прежде всего необходимо учитывать, что сообщения публикуются и соответствующим образом составляются не просто так, а с какой-то определенной целью - информирования, описания, призыва, предписания, самозащиты или даже дезинформации." (стр. 285) "Если мы должны дать адекватную оценку значимости некоторого сообщения, нам зачастую надо для этого знать, кому оно адресуется и как распространяется." (стр. 286)