Главное, чтобы алгоритмы были ясными и относящимися хотя бы каким-то боком к содержанию данных текстов.

Для такого анализа, пацаны, нам нужно определиться с пятью параметрами.

Во-первых, нужна четкая и короткая фиксация поисковой категории (принцип формализации), то есть – вразумительная формулировка вопроса, ответ на который мы ищем.

Мы должны четко представлять себе (а при компьютерной обработке материалов это должна представлять себе и поисковая система), что хотим узнать: дату вступления грузинских отрядов на территорию Абхазии, готовность ростовчан покупать в течение недели исключительно карамель "Ростов-Папа" или степень решительности нового генпрокурора засадить следующего проказливого богатея-губернатора, вдосталь попившего народной кровушки, в тюрягу.

Во-вторых,надо, чтобы материал содержал в себе достаточно информации для анализа (принцип статистической значимости).

При анкетировании тут все всегда в ажуре.

А вот у дипломатов с содержанием информации ситуация – тихий ужас.

Берешь пухлую распечатку двухчасового брифинга – и медленно, но верно сходишь с ума из-за отсутствия там не только нужной тебе информации, но и вообще каких-либо мало-мальски ценных сведений.

В-третьих, надо, чтобы анализ данных, требующих итоговое заключение специалиста, эти специалисты и проводили (принцип компетентности).

Например, нам для рекламы туристических путевок нужно составить по результатам анкетирования психопатологический портрет дурика-клиента, коему легче всего впарить путешествие по пыльным дорогам Афганистана или Ирака.

Так вот, должна делать все это не молоденькая туроператорша, а профессор-психиатр, знающий, куда надо вставлять клизму шизофреникам.

В-четвертых, надо определиться с точностью исследования (принцип погрешности).

Если нам надо вычислить дату Конца Света с точностью до миллиардной доли секунды, то придется задействовать в расчетах все вменяемое население земного шара. А исследования эти продолжаться как раз до самого этого Конца.

И кому тогда, пацаны, будут нужны их результаты?

А вот если мы введем в наш анализ погрешность в плюс-минус миллион лет, то любой гимназист-двоешник за пару минут рассчитает, что Конец Света наступит через 1146 лет 3 месяца и 2 дня. В пятницу. Прямо после показа 666-го по счету римейка неувядающего "Влада Дракулы".

В-пятых, после того, как материал проверен на вшивость, цели сформулированы, погрешности установлены, начальству налито кофе с коньяком, необходимо выбрать соответствующие единицы анализа.

Именно их мы будем считать, именно с их изменениями в разных текстах мы будем составлять диаграммы и графики, именно с ними будут связаны наши бессонные ночи и выкрики "Эврика!" с пахнущей мочой хронического оборотня койки психиатрической лечебницы.

В простейших же случаях, например в наших с вами, дорогие мои, рекламных делах, вообще – можно полностью отдать все компьютерным мозгам, а самим пить виски и танцевать твист в обществе жриц любви.

Тут, правда, необходимо установить единицу счета - количественную меру взаимосвязи текстовых и внетекстовых явлений.

Кроме уже упомянутых в случае с газом чисто подтекстуальных, основанных на нелинейной семантике единиц, есть еще целая куча гораздо более простых и совершенно линейных, рассчитанных на однозначное толкование единиц счета.

Наиболее употребительны единицы счета, связанные с количеством людей и денег, со временем и пространством (число покупателей, газетных строк или площадей в квадратных сантиметрах, читателей журнала, время и продолжительность вещания рекламного ролика и прочая херня).

Тут, пацаны, не так все просто.

Важен выбор необходимых источников, подвергаемых контент-анализу.

Конечно, самое простое – выкрасть нужную информацию из чужого сейфа.

Но столь пошлая вещь не для такой правильной братвы, коей мы с вами, орлы и орлицы, имеем честь являться.

Во-первых, зачастую нужной нам информации нет даже в хранилищах Гохрана.

А во-вторых, из открытых источников сведения получаешь гораздо быстрее, чем из закрытых (таков парадокс современного постиндустриального информационного общества).

При работе с открытыми источниками (периодическая печать, телек и все такое) возникает проблема выборки – на каком количестве сообщений остановится и с какой по какую дату их изучать.

Чем больше будет всякой байды, тем больше времени потребуется для того, чтобы загнать всю эту смурную шнягу в нутро компьютера.

Эти параметры выборки определяются задачами и масштабами исследования.

Необходимым его условием является разработка таблицы-вопросника - основного рабочего документа, с помощью которого проводится исследование.

Без нее контентолог – никто и ничто, без папки с этими таблицами его надо гнать из приличного общества пинками по колышущемуся, аки медуза-гигант на борту попавшей в шторм рыболовецкой шхуны, пухлому заду.

Такая таблица внешне напоминает анкету: каждый вопрос предполагает ряд признаков (ответов), по которым садистки-жестоко дербанится содержание текста.

Для регистрации же единиц анализа составляется другая таблица - кодировальная матрица.

Если объем выборки достаточно велик (свыше 100 единиц), то кодировщик, как правило, работает с толстой пачкой матричных листов, заляпанных разводами приднестровского портвейна, измазанных волынским салом и покрытый кусочками мелко нашинкованного кубанского лука.

Процедура подсчета при количественном контент-анализе проста, как бином Ньютона.

Возьмем, к примеру, формулу вычисления коэффициента некоего Яниса (не путать с Янусом и с анусом!), предназначенную для того, чтобы узнать соотношение положительных и отрицательных оценок товара, который мы отрекламировали по полной программе, вкатив в рекламную кампанию немыслимое количество бабок.

В случае, когда число положительных оценок товаров или услуг после рекламы превышает число отрицательных, считаем так: С=(a2-ab)/de.

Тут "a" – это число положительных оценок; "b" - число отрицательных оценок; "d" - объем содержания текста, имеющего прямое отношение к изучаемой проблеме; "e" - общий объем анализируемого текста.

В случае, когда число положительных оценок меньше, чем отрицательных, считаем иначе: С=(ab-b2)/de.

Построенная на изменении полученных чисел диаграмма больше, чем все горластые рекламщики, покажет клиенту, каким же он был идиотом, поведясь на увещевания акул из агентства.

Есть и более простые способы измерения.

К примеру, удельный вес той или иной ключевой для нас фразы (слова) можно вычислить с помощью формулы: Е=f/g, где f – число единиц анализа, фиксирующих данную категорию, а g - общее количество единиц анализа.

А теперь 6 бесплатных советов по контент-анализу, открытых мне одним контентологом под страшными пытками:

№1. Качественный или количественный анализ нам нужен?

Количественный контент-анализ в первую очередь интересуется частотой появления в тексте определенных характеристик (переменных) содержания.

Например, нам нужно узнать, чем интересуется немецкая пресса, чьи читатели – пивуны-привереды (в смысле – любят пиво качественного разлива).

И чего мы делаем? Мы берем первую сотню наиболее часто упоминаемых в этой прессе словечек. Отсеиваем к чертовой бабушке всякую байду вроде: "Биттэ-дриттэ, хенде-хох!", "Хитлер капут, русише швайне!" и прочие "данкешоны". Оставляем только то, что связано с предпочтением тех или иных сортов пива и закуси к нему (это прозвучит дико, но так оно и есть на самом деле: несчастная немчура не знает вкуса сушеной воблы, не умеет правильно разбавлять пиво шнапсом и поэтому уже какой век мечется в поисках лучшей выпивки и закуски). И считаем-считаем-считаем...

И вот таким банальным способом мы, дорогие мои братцы и сестрицы, и вылавливаем еще не окученный конкурентами сегмент на рынке пивных услуг.

Качественный же контент-анализ позволяет делать выводы даже на основе единственного присутствия или отсутствия определенной характеристики содержания.

№2. Что такое простые частоты?

Это подсчет частот появления в текстах различных слов или тем.

Например, если мы видим в статье "наш любимый Василь Василич Пупкин", значит, это статья на его бабки.

Если - просто "уважаемый всем народом лидер", значит - на бабки его спонсоров.

Если же без пиетета - "Пупкин" или "политический деятель", значит - на бабки органов местного самоуправления.

Если "душитель свободы" и "кровавый бандит" значит, на членские взносы радикально-оппозиционной антипупкинской партии.

№3. А что есть относительные частоты?

Однако просто частота появления того или иного слова или темы мало что говорят. Гораздо более информативны не абсолютные, а относительные частоты, которые вычисляются как отношение абсолютной частоты к длине анализируемого текста.

В зависимости от того, что является переменной содержания, под длиной текста может пониматься количество слов в нем, количество предложений, абзацев и пр.

№4. Надо ли применять базовые частоты?

Естественно!

Например, депутаты Госдумы ругают Правительство.

Это мода такая.

И если нам поступил заказ, проверить, насколько удачны пиар-действия лоббистов по свержению нынешнего кабинета министров, то глупо браться за тексты выступлений депутатов и оценивать по их агрессивности скорость роспуска команды премьера.

Надо взять в качестве образца тексты (изготовить, так сказать, "частотные словарики") прежних депутатских выступлений. И сделать на их основе таблицу с базовыми частотами употребления приготовленных нами для исследований единиц анализа (например, криков: "Долой!" или "В отставку раздолбаев!").

И тогда – сравнивая результаты теперешних выступлений с базовыми, мы поймем насколько они действительны агрессивны.

Отклонение частот вычисляют по формуле: h-j/i.

Тут у нас: h - количество слов данной категории, реально встретившихся в тексте, j - ожидаемое число вхождений слов данной категории в текст, а i - стандартное отклонение.

Величина j вычисляется путем умножения нормальной частоты категории на число слов в анализируемом тексте.

Представим, что мы хотим оценить степень агрессивности выступления не депутата, а профессионального военного.

Очевидно, что норма для него будет отличаться от нормы для среднего человека.

Поэтому для оценки уровня агрессивности профессионального военного требуются другие нормы, которые могут быть получены путем дополнительной статистической обработки представительной выборки текстов, характерных для контуженных солдафонов и отчаянных рубак-тыловиков.

№5. Как связать нужный веник из разных категорий?

Представьте, что нам нужно из сведений, почерпнутых из строк залитой кровью странички (исповеди покупателя клюшек для гольфа, забитого продавцами данных клюшек насмерть этими же самыми распроклятыми клюшками), сделать далеко идущие выводу по поводу потребления в Намибии русских дубленок из турецкой кожи.

Такая задача по плечу только самым ушлым из контентологов.

Решая ее, они обращают внимание на совместную встречаемость слов различных категорий.

Может оказаться, что для некоторых категорий наблюдается тенденция их совместного употребления, а для других - наоборот.

В качестве гипотетического примера можно привести газетную статью, в которой наблюдается совместное употребление категорий "сволочи", "водка" и "чиновники".

Путем несложных вычислений легко понять, что газетная заказуха была проплачена водочными баронами, недовольными повышением госакцизов на спиртное и скоро во властных коридорах начнутся петушиные бои между водочными и винными лоббистами.

№6. Что такое контекст и подтекст?

Иногда различают слова "бэкграунд" и "контекст". Я же считаю, что такое различение не имеет смысла.

Бэкграунд, на мой взгляд, это и есть контекст. Просто "бэкграунд" слово настолько красивое, что его все чаще и употребляют, где не попадя.

А подтекст – он подтекст и есть. Бывает его обзовут каким-нибудь лишайным "сollocations". Но наш русский подтекст, он всем подтекстам подтекст. В нем столько всего для сердца русского слилось, что какой-нибудь турок с ума сойдет и начнет кидаться апельсинами в полицейских, а так и не разгадает нашей российской многосмысленности непроизносенного.

То есть: текст – это то, что написано; подтекст – то, что подразумевается в тексте, но прямо не называется; контекст – то информационное поле, которое отражается в тексте и предшествует ему(контекстная реклама, например, размещается на интернет-странице, информационная среда которой наиболее подходит к содержанию рекламного объявления).

Глава 3. Как устроено рекламное агентство?

Прежде чем обрушить в следующей главе на ваши, друзья мои, несчастные головы массу различных терминов по средствам наглядной агитации, считаю нужным дать читателям как можно более полное представление об ударном корпусе многомиллионной армии рекламщиков – о рекламном агентстве.

Но сначала – пару слов о фигуре, странной, загадочной и даже мистической.

В официальном общефедеральном образце должностной инструкции этого таинственного существа написано следующее:

"Менеджер по рекламе:

1. Организует работу по рекламированию производимой продукции или выполняемых услуг с целью их продвижения на рынки сбыта, информируя потребителей о преимуществах качества и отличительных свойствах рекламируемых товаров или услуг.

2. Осуществляет руководство, планирование и координацию работ по проведению рекламных кампаний.

3. Разрабатывает планы рекламных мероприятий по одному виду или группе товаров (услуг) и определяет затраты на их проведение.

4. Участвует в формировании рекламной стратегии, основанной на перспективных направлениях дальнейшего организационного развития, инновационной и инвестиционной деятельности.

5. Осуществляет выбор форм и методов рекламы в средствах массовой информации, их текстового, цветового и музыкального оформления.

6. Определяет конкретные носители рекламы (газеты, журналы, рекламные ролики и др.) и их оптимальное сочетание.

7. Изучает рынок сбыта и покупательский спрос с целью определения наилучшего времени и места размещения рекламы, масштабов и сроков проведения рекламных кампаний, круга лиц, на которые должна быть направлена реклама, ориентируя ее на целевые группы по профессии, возрасту, покупательской способности, полу.

8. Организует разработку рекламных текстов, плакатов, проспектов, каталогов, буклетов, контролирует их качество, обеспечивая наглядность и доступность рекламы, соблюдение норм общественной морали, не допуская нарушений правил конкурентной борьбы.

9. Осуществляет контроль за разработкой правил конкурентной борьбы.

10. Осуществляет контроль за разработкой и реализацией договоров и контрактов по рекламированию продукции или услуг.

11. Организует связи с деловыми партнерами, систему сбора необходимой информации и расширение внешних связей в целях совершенствования рекламной деятельности.

12. Анализирует мотивацию спроса на производимую продукцию или оказываемые услуги, организует изучение потребностей покупателей и определяет направленность проведения рекламных кампаний.

13. Поддерживает необходимые связи с другими структурными подразделениями предприятия в процессе разработки и проведения рекламных кампаний, привлекает к решению поставленных задач консультантов и экспертов, приглашает к участию в рекламе широко известных и популярных лиц, заключая с ними договоры на коммерческой основе".

Эта и им подобные инструкции пытаются загнать нашего многоликого рекламщика в какие-то узкопрофессиональные рамки и сделать из него кладбищенского фантома!

Профессия же живого рекламщика имеет множество ипостасей, совершенно друг на друга не похожих.

В качестве примера я приведу развеселую гоп-компашку фраеров из нормального (без каких-либо лишних наворотов вроде застрелившегося начальника отдела кадров, уборщиц шестого разряда, одноногих мулатов краснодеревщиков, одноруких расклейщиков афиш и слепых секретарш с пышущими раскаленным паром кофеварками) рекламного агентства.

Сверху (в хорошем смысле слова) – гендиректор.

Под ним ходят 3 зама: зам по финансам, зам-администратор и арт-директор (для понта его иногда называют "креативным").

Наши рекомендации