Закон Ципра. Частотно — ранговое распределение лексем.
В 1916 году ученый Эсту составил частотный словарь (слова в порядке убывания). Для него правая колонка (числа) представляла больший интерес, чем колонка со словами.
Если частоту слова умножить на ранг ( порядковый номер в общем частотном списке), то произведения меняются незначительно (это величина постоянная).
Помимо того, что график убывает, наблюдается связь между рангом и частотой (закон Цифра)
(Пояснение: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее)
1940- выходит основная работа Цифра
Ядро частот словаря и хвост.
Между ними — зона среднечастотных единиц.
Закон Цифра действует для выборок объемом 22000. Если больше, то точно не столь высока
Длина слова.
Распределение слов по длине: важный прогностический критерий.
Длина слова – важный количественный показатель структуры словаря и текста.
Длина связана с характерами слова:
- частотностью;
- полисемантичностью;
- возрастом.
В тексте за основу берется словоупотребление, а в словаре – словоформы.
Типы единиц измерения длины слова:
1. графические
2. фонетические
3. семантические
Графический:
Буквы; в иероглифических языках – другие символы.
Фонетический:
Звуки, фонемы и слоги.
Разница между количеством букв и фонем.
Семантический:
По морфемам. Их количество можно установить с помощью фиксированного набора критериев.
Слоги, буквы - самые простые единицы изменения длины.
___________ ( здесь заканчиваются типы единиц измерения)
Проблема источников данных: до сих пор использовались тексты и подсчитывалась длина словоформ.
Длина слова может быть измерена по словарям.
Данные из текстов, обычных словарей, частотных словарей.
Закон Менцерата: существует отрицательная корреляция между длиной слов, измеренной в слогах, и длиной слогов, измеренной в фонемах.
Полисемия слова
семантический объем слова
Лексическая подсистема
Каково распределение лексических единиц о их семантическому объему? как связано с частотой\употребительностью слова?
Значение - понятие расплывчатое. Как тогда говорить о многозначности?
Лексикографы описывали значение отдельных слов, стоя на разных теоретических позициях. Несмотря на это, результаты их трудов довольно схожи.
Толковый словарь:
значение, оттенки значений,
ссылки
Членение слова на значения опирантся на интуицию лексикографа.
Как значение связано с употребительностью?
Части толкований могут равноправными, могут быть подчиненные фрагменты: подзначения, оттенки.
19.04. 2016
Языковая диахрония и стилистика в квантитативном измерении
Закономерности в языке могут быть синхронические и диахронические.
Синхрония — изучение отношений между единицами языка в одну эпоху. Например, в русском языке на конце слова звонкие согласные чередуются с глухими.
Диахрония — изучение процессов, исторически присущих языку. Например, в русском языке все звонкие согласные на конце слова превратились в глухие (согласные [з], [д] изначально произносились звонко, но медленно шёл процесс оглушения).
Альтман
Course – направленность
Все процессы носят стохастический характер.
Предмет рассмотрения языковой диахронии – всё, что изменяется в языке.
Язык текста остаётся неизменным, но сам язык может изменяться! Меняется лексика языка, лексика неуклонно растёт.
Стилистика
Квантитативная лингвистика применяется для выработки объективных методов оценки текстов.
Критерии:
· Лексическое богатство текста – отношение числа слов к объёму текста.
· Объем словаря – количество различных слов в тексте.
Индекс лексического богатства – отношение количества разных словоформ или лексем к объёму текста. Обозначается TTR – token/type relation (ratio) и выводится по формуле L\N (L – лексемы, N – объем текста).
Прямое сравнение индексов двух текстов возможно только при условии их одинакового объёма. Индекс не является эстетическим критерием.
mF – число слов с F частотой встречаемости.
Отличия текстов гуманитарной направленности от технических:
· неточность, размытость понятий
· преобладание качественных характеристик объектов
· ограниченность возможности проведения экспертизы
· большой объем исходной информации
Идиостиль – представление о системе смыслов художественного текста, отражающей концептуальный мир автора; система способов репрезентации доминантных смыслов концептуальной картины мира автора.
В задачи автоматической обработки текста входят:
· машинный перевод
· автоматизированное реферирование текста
· информационный поиск
Задача лингвиста состоит в формализации текстового анализа.
При исследовании стилистики статистические методы позволяют:
1. свести до минимума субъективизм исследователя, количественно оценить результат и определить его достоверность;
2. чем больше объем текста – тем объективнее результат анализа;
- низкая повторяемость элементов увеличивает статистический прогресс
- при создании большого текста труднее подменить авторство, вероятность стилизации уменьшается
3. количественное исследование текста становится более объективным, если оно имеет сравнительный характер.
Лексические универсалии
Суммарный лингвистический портрет автора.
26.04.16