Прикладная и математическая лингвистика. Квантитативно-системный подход в науке о языке.
09.02.16
Владимир Аркадьевич Долинский
Квантитативная лингвистика и новые ИТ
Основные понятия квантитативной лингвистики
Случайная величина (СВ) – величина, которая не имеет постоянного значения и в процессе производства опыта под влиянием неучитываемых факторов может изменяться. Заранее нельзя предсказать, какие значения она будет принимать.
Каждому отдельному значению СВ соответствует некоторая вероятность. Ее значения колеблются в определенных пределах. Напр, при анализе публицистических текстов выбраны отрывки примерно по 1000 словоупотреблений, и это количество колеблется в диапазоне от 32 до 62. Это и есть пределы колебаний СВ.
СВ может принимать значения, которые изменяются скачкообразно (дискретные, прерывные значения) или которые отличаются на бесконечно малую величину (непрерывные, континуальные).
Дискретность:
A<B, между A и B не может находиться другой величины. Напр, А – зима, B – весна, между ними нельзя поставить другое время года.
Континуальность:
Если A<B, всегда есть такое C, которое больше А, но меньше B. Например, между 15:21 и 15:22 существуют величины, которые мы можем измерить в секундах, миллисекундах и т.д.
Две СВ называются независимыми, если реализация одной из них не влияет на вероятность реализации другой. Номер этажа, на котором живет бабушка, никак не влияет на ее возраст :D
Событие – явление, которое может произойти или не произойти.
Абсолютная частота события – количество реализаций данного события в процессе производства опыта (напр., в 100 000 словоупотреблений найдено 3918 неличных глагольных форм). Т.е., это количество раз.
Относительная частота события – отношение абсолютной частоты к числу произведенных опытов или к числу единиц в обследованном массиве (напр., 3918/100 000 = 0,039). ОЧС еще называют долей.
Размер текста называют длиной или объемом.
Высокая частота явления обеспечивается его сосредоточенностью в небольшом отрывке под действием экстралингвистических факторов. В таком случае, нужно учитывать не только частоту, но и распространенность.
Распространенность – отношение числа отрывком, где хотя бы один раз встретилось данное явление, к общему числу отрывков.
Вероятность – более вероятными событиями считаются те, которые реализуются чаще в процессе производства опыта. Менее вероятные – те, частота которых низка. Мерой вероятности может служить ОЧС (доля). Чем обширнее исследованный массив, тем точнее истинная вероятность определяется наблюденной относительной частотой.
Вероятность, как и доля, может принимать значение от 0 до 1 (0 – невозможные события, 1 – достоверные события).
Относительная частота еще называется статистической вероятностью. Именно ей чаще пользуются лингвисты, так как истинная вероятность чаще всего остается неизвестной, потому что для того, чтобы узнать ее, потребовалось бы обследовать все имеющиеся тексты (все публицистические, например). Чаще всего это невозможно.
Закон распределения случайной величины (distribution) – соотношение между возможными значениями СВ и их вероятностями. Напр, мы можем расположить буквы русского алфавита в порядке убывания количества слов, начинающихся на эту букву.
Этот закон может задаваться 3 основными способами:
1) в форме таблицы (значение в одном столбце, вероятность – в другом); ее еще называют статистическим или вариационным рядом.
2) в виде графика
3) математической формулой
Множество явлений, объединенных по определенным признакам (качественным или количественным) – совокупность. Совокупность бывает:
1) генеральная (напр, при изучении языка Толстого – все произведения Толстого)
2) выборочная (выборка) – некоторая часть всего множества
Выборка бывает структурной или неструктурная. Структурная состоит из ряда подвыборок. Неструктурная на подвыборки не разбивается.
Репрезентативная выборка наиболее точно моделирует свойства генеральной совокупности, как в отношении самих признаков, так и в отношении их вероятностей. Чем ниже частота изучаемого явления, тем больше должен быть объем репрезентативной выборки. Выборку можно построить случайным отбором (жребий) или механическим отбором.
Корпус (60-е годы) – коллекция текстов, собранных по определенным принципам. Изначально – любое собрание текстов, объединенных по общему признаку. Признаки: язык, жанр, автор, период создания, и т.д.
Чем хороши корпусы:
1) представление лингвистических данных в реальном контексте
2) большая представленность данных
3) возможность многократного использования для решения различных задач
В каждом корпусе осуществляется 2 этапа разметки:
- токенизация – разбиение элементов текста на словоупотребление, графические слова
- лемматизация – приведение словоформ к словарной форме
Стемминг – процесс нахождения основы слова для заданной словоформы.
Парсинг – тут запись обрывается, но инет говорит, что это «линейное сопоставление последовательности слов с правилами языка», что бы это ни значило. (текст преобразуется в структуру данных, обычно — в дерево, которое отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.)
29.03.
Длина слова.
Распределение слов по длине: важный прогностический критерий.
Длина слова – важный количественный показатель структуры словаря и текста.
Длина связана с характерами слова:
- частотностью;
- полисемантичностью;
- возрастом.
В тексте за основу берется словоупотребление, а в словаре – словоформы.
Типы единиц измерения длины слова:
1. графические
2. фонетические
3. семантические
Графический:
Буквы; в иероглифических языках – другие символы.
Фонетический:
Звуки, фонемы и слоги.
Разница между количеством букв и фонем.
Семантический:
По морфемам. Их количество можно установить с помощью фиксированного набора критериев.
Слоги, буквы - самые простые единицы изменения длины.
___________ ( здесь заканчиваются типы единиц измерения)
Проблема источников данных: до сих пор использовались тексты и подсчитывалась длина словоформ.
Длина слова может быть измерена по словарям.
Данные из текстов, обычных словарей, частотных словарей.
Закон Менцерата: существует отрицательная корреляция между длиной слов, измеренной в слогах, и длиной слогов, измеренной в фонемах.
Полисемия слова
семантический объем слова
Лексическая подсистема
Каково распределение лексических единиц о их семантическому объему? как связано с частотой\употребительностью слова?
Значение - понятие расплывчатое. Как тогда говорить о многозначности?
Лексикографы описывали значение отдельных слов, стоя на разных теоретических позициях. Несмотря на это, результаты их трудов довольно схожи.
Толковый словарь:
значение, оттенки значений,
ссылки
Членение слова на значения опирантся на интуицию лексикографа.
Как значение связано с употребительностью?
Части толкований могут равноправными, могут быть подчиненные фрагменты: подзначения, оттенки.
19.04. 2016
Стилистика
Квантитативная лингвистика применяется для выработки объективных методов оценки текстов.
Критерии:
· Лексическое богатство текста – отношение числа слов к объёму текста.
· Объем словаря – количество различных слов в тексте.
Индекс лексического богатства – отношение количества разных словоформ или лексем к объёму текста. Обозначается TTR – token/type relation (ratio) и выводится по формуле L\N (L – лексемы, N – объем текста).
Прямое сравнение индексов двух текстов возможно только при условии их одинакового объёма. Индекс не является эстетическим критерием.
mF – число слов с F частотой встречаемости.
Отличия текстов гуманитарной направленности от технических:
· неточность, размытость понятий
· преобладание качественных характеристик объектов
· ограниченность возможности проведения экспертизы
· большой объем исходной информации
Идиостиль – представление о системе смыслов художественного текста, отражающей концептуальный мир автора; система способов репрезентации доминантных смыслов концептуальной картины мира автора.
В задачи автоматической обработки текста входят:
· машинный перевод
· автоматизированное реферирование текста
· информационный поиск
Задача лингвиста состоит в формализации текстового анализа.
При исследовании стилистики статистические методы позволяют:
1. свести до минимума субъективизм исследователя, количественно оценить результат и определить его достоверность;
2. чем больше объем текста – тем объективнее результат анализа;
- низкая повторяемость элементов увеличивает статистический прогресс
- при создании большого текста труднее подменить авторство, вероятность стилизации уменьшается
3. количественное исследование текста становится более объективным, если оно имеет сравнительный характер.
Лексические универсалии
Суммарный лингвистический портрет автора.
26.04.16
09.02.16
Владимир Аркадьевич Долинский
Квантитативная лингвистика и новые ИТ
Прикладная и математическая лингвистика. Квантитативно-системный подход в науке о языке.
1) Развитие лингвистики требует введения всё более точных методов изучения языкового материала
2) Расширяются контакты языкознания с другими науками: прикладная лингвистика, физиология, высшая нервная деятельность, акустика (использование математич. Я: обладает общностью и универсальностью), кибернетика.
Математизация лингвистики
Диалог человек – машина
Языкознание и математика – знаковые системы передачи инфо.
Различие в построении Я и математич. знака:
1) Я знак
a) Имя
b) Десигнат (понятие)
c) Денотат (предмет)
d) Коннотат (комплекс чувственно-оценочных оттенков значения)
Математич.знак: имя & десигнат
2) Лингв. знак многозначен
Матем. Знак имеет 1 значение
3) Я знак потенциально метафоричен
Значения каждого матем.знака можно представить в виде совокупности элементов.
Естественный язык – система, используемая человеком интуитивно.
Расчленение сложной лингвистической проблемы на более простые алгоритмизуемые матем. задачи – Математическая экспликация лингвистического объекта (анализ/ синтез устной речи, перевод и т.д.)
Структурно-математическая
Структурная лингвистика 50-60 гг.
Порождающая грамматика
ð Теория множеств
ð Математическая логика
ð Теория алгоритмов }комбинаторная ( неколичественная) математика
Квантитативная М:
- теория вероятностей
- теория информации
- статистика
Яз. направления: комбинаторная лингвистика, квантитативная лингвистика.
Вся проблематика психолингвистики находится за пределами матем.+история яз, стилистика.
Лингвисты склонны отрицать квантитативность языка.
Трубецкой: Язык лежит вне меры и числа.
Ничто из существующего в пространстве и времени не может быть вне меры и числа.
Измерение – процесс определения отношения измеряемой величины к другой однородной величине, принимаемой за единицу.
Числовые системы, с помощью которых производятся измерения – шкалы.
4 типа шкал:
1. Шкала наименования (номинальная)
2. Ш порядка
3. Ш интервала
4.Ш отношений
I. Объекты относятся к классам, которым задается имя. 2 объекта под номером 1 не дают объекта под номером 2.
Равенство/ неравенство
II. Свойства шкалы наименований + степени интенсивности признака/ свойства ранжировка единиц по степени проявленности признака.
Операция: Равенство/ неравенство, больше/ меньше.
III. Единица измерения (между единицами равные расстояния)
Кол-во единиц измерения=кол-ву свойства
Операции: равенство/ неравенство, больше/ меньше, рав./нерав. Интервалов
IV. Непроизвольность нулевой точки (должна быть задана)
Ноль – полное отсутствие измеряемого свойства.
Реализует все арифметические операции
Все предыдущие операции + равенство отношений
16.02. Квантитативно-системный подход к науке о языке.
Поиск связей между количественными и качественными свойствами языка - основная задача квантитативной лингвистики.
Исследуется словарный запас (wordstock).
Слово может рассматриваться с разных точек зрения:
· - слово как единица языка
· - слово как единица текста,
· - слово как элемент словаря
· - хар-ки формы и значения слова в языке и речи (количественные).
Квантитативная и комбинаторная лингвистика - две стороны математической лингвистики.
Характерная черта новейших исследований в квантитативной лингвистике - стремление разработать теор основы квантитативной типологии текста, лингв синергетики, общей теории систем, искусств интеллекта.
Применение квантитативных методов в изучении языка и речи или текста, их основание - объективная присущность языку количественных признаков, квантитативных характеристик. (повторяемость, периодичность, рекуррентность единиц, их воспроизведение в различных текстах)
Квантитативный подход позволит охватить лишь опред аспект языка и речи.
Недостаток качественного анализа - нередко субъективные, произвольные интерпретации.
Квантитативное исследование словаря или текста может вестись в плане динамики, статики или взаимосвязи. Выявление, например, частотных хар-к, установление связей и др.
Конечная цель квантит системных исследований - синтетический, интегральный подход к изучению речевой деят-ти в неразрывном единстве квантит анализа с качественной интерпретацией.
(explanation - no description)
Изучение взаимозависимостей, установление закономерностей - важный аспект квантит исследования.
Во всей истории языкознания можно проследить как зарождались, развивались и т.д.идеи квантит-системного подхода в науке о языке.
· Вильгельм фон Гумбольдт 1767-1835 родоначальник психологического направления в науке о языке
· Френсис ГАльтон 1822-1911 англ психолог, антрополог. Основоположник биометрии, дактилоскопии, евгеники, френологии и др. Впервые провел ассоциативный эксперимент.
· Александр Афанасьевчи ПотебнЯ 1835-1891 автор термина «внутренняя форма слова»
· Бодуэн де Куртенэ 1845-1929 основатель Казанской школы, ввел термин «фонема»
· Эдуард СепИр 1884-1939 теория лингвистической относительности
· Людвиг Витгенштейн 1889-1951 лингвистическая философия
· Норберг ВИнер 1894-1964 амер математик
· Бенджамин Ли Уорф 1897-1941
· Ганс-Георг ГадАмер 1900-2002 герменевтика
· Джордж Кингсли Ципф 1902-1950 называют часто родоначальником квантитативной лингвистики
· Василий Васильевич Налимов 1910-1997 автор вероятностной концепции языка и сознания
· Джордж Арбитраж Миллер 1920-2012 один из основоположников когнитивной лингв-ки
· Раймонд Генрихович Пиотровский 1922-2009 лингв синергетика
· Бенуа Мандельброт 1924-2010 амер математик
Основные понятия квантитативной лингвистики
Случайная величина (СВ) – величина, которая не имеет постоянного значения и в процессе производства опыта под влиянием неучитываемых факторов может изменяться. Заранее нельзя предсказать, какие значения она будет принимать.
Каждому отдельному значению СВ соответствует некоторая вероятность. Ее значения колеблются в определенных пределах. Напр, при анализе публицистических текстов выбраны отрывки примерно по 1000 словоупотреблений, и это количество колеблется в диапазоне от 32 до 62. Это и есть пределы колебаний СВ.
СВ может принимать значения, которые изменяются скачкообразно (дискретные, прерывные значения) или которые отличаются на бесконечно малую величину (непрерывные, континуальные).
Дискретность:
A<B, между A и B не может находиться другой величины. Напр, А – зима, B – весна, между ними нельзя поставить другое время года.
Континуальность:
Если A<B, всегда есть такое C, которое больше А, но меньше B. Например, между 15:21 и 15:22 существуют величины, которые мы можем измерить в секундах, миллисекундах и т.д.
Две СВ называются независимыми, если реализация одной из них не влияет на вероятность реализации другой. Номер этажа, на котором живет бабушка, никак не влияет на ее возраст :D
Событие – явление, которое может произойти или не произойти.
Абсолютная частота события – количество реализаций данного события в процессе производства опыта (напр., в 100 000 словоупотреблений найдено 3918 неличных глагольных форм). Т.е., это количество раз.
Относительная частота события – отношение абсолютной частоты к числу произведенных опытов или к числу единиц в обследованном массиве (напр., 3918/100 000 = 0,039). ОЧС еще называют долей.
Размер текста называют длиной или объемом.
Высокая частота явления обеспечивается его сосредоточенностью в небольшом отрывке под действием экстралингвистических факторов. В таком случае, нужно учитывать не только частоту, но и распространенность.
Распространенность – отношение числа отрывком, где хотя бы один раз встретилось данное явление, к общему числу отрывков.
Вероятность – более вероятными событиями считаются те, которые реализуются чаще в процессе производства опыта. Менее вероятные – те, частота которых низка. Мерой вероятности может служить ОЧС (доля). Чем обширнее исследованный массив, тем точнее истинная вероятность определяется наблюденной относительной частотой.
Вероятность, как и доля, может принимать значение от 0 до 1 (0 – невозможные события, 1 – достоверные события).
Относительная частота еще называется статистической вероятностью. Именно ей чаще пользуются лингвисты, так как истинная вероятность чаще всего остается неизвестной, потому что для того, чтобы узнать ее, потребовалось бы обследовать все имеющиеся тексты (все публицистические, например). Чаще всего это невозможно.
Закон распределения случайной величины (distribution) – соотношение между возможными значениями СВ и их вероятностями. Напр, мы можем расположить буквы русского алфавита в порядке убывания количества слов, начинающихся на эту букву.
Этот закон может задаваться 3 основными способами:
1) в форме таблицы (значение в одном столбце, вероятность – в другом); ее еще называют статистическим или вариационным рядом.
2) в виде графика
3) математической формулой
Множество явлений, объединенных по определенным признакам (качественным или количественным) – совокупность. Совокупность бывает:
1) генеральная (напр, при изучении языка Толстого – все произведения Толстого)
2) выборочная (выборка) – некоторая часть всего множества
Выборка бывает структурной или неструктурная. Структурная состоит из ряда подвыборок. Неструктурная на подвыборки не разбивается.
Репрезентативная выборка наиболее точно моделирует свойства генеральной совокупности, как в отношении самих признаков, так и в отношении их вероятностей. Чем ниже частота изучаемого явления, тем больше должен быть объем репрезентативной выборки. Выборку можно построить случайным отбором (жребий) или механическим отбором.
Корпус (60-е годы) – коллекция текстов, собранных по определенным принципам. Изначально – любое собрание текстов, объединенных по общему признаку. Признаки: язык, жанр, автор, период создания, и т.д.
Чем хороши корпусы:
1) представление лингвистических данных в реальном контексте
2) большая представленность данных
3) возможность многократного использования для решения различных задач
В каждом корпусе осуществляется 2 этапа разметки:
- токенизация – разбиение элементов текста на словоупотребление, графические слова
- лемматизация – приведение словоформ к словарной форме
Стемминг – процесс нахождения основы слова для заданной словоформы.
Парсинг – тут запись обрывается, но инет говорит, что это «линейное сопоставление последовательности слов с правилами языка», что бы это ни значило. (текст преобразуется в структуру данных, обычно — в дерево, которое отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.)