Компьютерная лингвистика: нестандартные применения

 

Определение языка сообщения

В живых языках буквы в текстах встречаются с разной часто­той, другими словами, можно построить диаграммы распреде­ления частот символов, характерные для каждого языка. Произ­водится так называемая частотная селекция, текст сообщения анализируется как поток символов и высчитывается частота встречаемости (вес) каждого символа. Иногда таблицу для удоб­ства нормализуют: веса делят на общее количество символов в обработанном сообщении. При анализе можно абстрагировать­ся от букв и их семантической нагрузки, взяв только номера символов и рассчитывая таблицу частот по номерам. Это позво­лит обойти наличие нескольких, временами несовместимых ко­дировок. Для принятия решения полученная таблица распреде-

ления сравнивается с эталонными таблицами и по близости к тому или иному распределению делается предположительный вывод о языке сообщения. Для анализа минимальная длина текста должна равняться длине трех алфавитов, что для русско­го языка составляет около сотни символов.

Таблица встречаемости букв в распространенных европейских языках
Английский Французский Немецкий Испанский Итальянский
Е 12,86 Е 17,76 Е 19,18 Е 14,15 I 12,04
Т 9,72 S 8,23 N 10,20 А 12,90 Е 11,63
А 7,96 А 7,68 I 8,21 О 8,84 А 11,12
7,77 N 7,61 S 7,07 S 7,64 О 8,92
N 7,51 Т 7,30 R 7,01 I 7,01 N 7,68
R 7,03 I 7,23 Т 5,68 R 6,95 Т 7,07

Взлом шифров

Вычисление статистических весов одиночных символов можно применить для взлома шифров однозначной замены. Здесь априори должен быть известен язык сообщения. Для по­добного взлома сначала вычисляется частота встречаемости каждого символа зашифрованного сообщения и сравнивается с эталонной диаграммой. Если «веса» близки, можно сделать предположение о том, что это и есть та или иная буква. Далее исследуются слова, состоящие из двух или трех букв. Если в них есть уже открытые буквы, то, допуская, что это предлоги, можно определить недостающие, закрытые, буквы. Криптоаналитик должен хорошо владеть языком и быть подкованным в литера­туре языка оригинала.

Для взлома более сложных шифров анализ усложняется. Рас­сматривается предыстория символа, т.е. зависимость частоты по­явления от предыстории. Анализируются цепочки символов, по два символа (биграмма), по три (триграмма) и т.д. Для анализа биграмм вычисляется вероятность Pij появления символа j при



условии, что перед ним находится знак i. Это также носит назва­ние марковости первого порядка — по фамилии петербургского математика XIX в., предложившего данный метод анализа.

Такие системы лингвистического анализа применяются для взлома сложных шифров методом грубой силы, или, как еще это называют, методом полного перебора паролей. Программа перебирает все возможные пароли из заданного диапазона и проводит автоматический анализ полученных текстов на ос­мысленность. Осмысленные варианты расшифрованных тек­стов выводятся для анализа человеком.

Установление авторства

Компьютерная лингвистика находит применение в крими­налистике и при проведении оперативно-розыскных меропри­ятий. Каждый человек имеет свой характерный набор слов, идиом и словесных штампов. Следовательно, в принципе, воз­можно построение марковской матрицы для отдельного челове­ка, уникальной и выделяющей его лексикон, а также характер­ные орфографические и пунктуационные ошибки. Далее, сопо­ставляя полученную при анализе текста матрицу с эталонной, необходимо сделать более или менее достоверный вывод о том, мог испытуемый быть автором данного сообщения или нет. Другими словами, провести экспертизу, аналогичную иденти­фикации отпечатков пальцев. Решение обратной задачи позво­ляет сделать предположение о том, кому из людей, матрицы ко­торых хранятся в банке данных, принадлежит данное сообще­ние, и установить авторство или найти затерявшегося человека.

Наши рекомендации