Закон Ципра. Частотно — ранговое распределение лексем.

В 1916 году ученый Эсту составил частотный словарь (слова в порядке убывания). Для него правая колонка (числа) представляла больший интерес, чем колонка со словами.

Если частоту слова умножить на ранг ( порядковый номер в общем частотном списке), то произведения меняются незначительно (это величина постоянная).

Помимо того, что график убывает, наблюдается связь между рангом и частотой (закон Цифра)

(Пояснение: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее)

1940- выходит основная работа Цифра

Ядро частот словаря и хвост.

Между ними — зона среднечастотных единиц.

Закон Цифра действует для выборок объемом 22000. Если больше, то точно не столь высока

Длина слова.

Распределение слов по длине: важный прогностический критерий.

Длина слова – важный количественный показатель структуры словаря и текста.

Длина связана с характерами слова:

- частотностью;

- полисемантичностью;

- возрастом.

В тексте за основу берется словоупотребление, а в словаре – словоформы.

Типы единиц измерения длины слова:
1. графические

2. фонетические

3. семантические

Графический:

Буквы; в иероглифических языках – другие символы.

Фонетический:

Звуки, фонемы и слоги.

Разница между количеством букв и фонем.

Семантический:

По морфемам. Их количество можно установить с помощью фиксированного набора критериев.

Слоги, буквы - самые простые единицы изменения длины.

___________ ( здесь заканчиваются типы единиц измерения)

Проблема источников данных: до сих пор использовались тексты и подсчитывалась длина словоформ.

Длина слова может быть измерена по словарям.

Данные из текстов, обычных словарей, частотных словарей.

Закон Менцерата: существует отрицательная корреляция между длиной слов, измеренной в слогах, и длиной слогов, измеренной в фонемах.

Полисемия слова

семантический объем слова

Лексическая подсистема

Каково распределение лексических единиц о их семантическому объему? как связано с частотой\употребительностью слова?

Значение - понятие расплывчатое. Как тогда говорить о многозначности?

Лексикографы описывали значение отдельных слов, стоя на разных теоретических позициях. Несмотря на это, результаты их трудов довольно схожи.

Толковый словарь:

значение, оттенки значений,

ссылки

Членение слова на значения опирантся на интуицию лексикографа.

Как значение связано с употребительностью?

Части толкований могут равноправными, могут быть подчиненные фрагменты: подзначения, оттенки.

19.04. 2016

Языковая диахрония и стилистика в квантитативном измерении

Закономерности в языке могут быть синхронические и диахронические.

Синхрония — изучение отношений между единицами языка в одну эпоху. Например, в русском языке на конце слова звонкие согласные чередуются с глухими.

Диахрония — изучение процессов, исторически присущих языку. Например, в русском языке все звонкие согласные на конце слова превратились в глухие (согласные [з], [д] изначально произносились звонко, но медленно шёл процесс оглушения).

Альтман

Course – направленность

Все процессы носят стохастический характер.

Предмет рассмотрения языковой диахронии – всё, что изменяется в языке.

Язык текста остаётся неизменным, но сам язык может изменяться! Меняется лексика языка, лексика неуклонно растёт.

Стилистика

Квантитативная лингвистика применяется для выработки объективных методов оценки текстов.

Критерии:

· Лексическое богатство текста – отношение числа слов к объёму текста.

· Объем словаря – количество различных слов в тексте.

Индекс лексического богатства – отношение количества разных словоформ или лексем к объёму текста. Обозначается TTR – token/type relation (ratio) и выводится по формуле L\N (L – лексемы, N – объем текста).

Прямое сравнение индексов двух текстов возможно только при условии их одинакового объёма. Индекс не является эстетическим критерием.

mF – число слов с F частотой встречаемости.

Отличия текстов гуманитарной направленности от технических:

· неточность, размытость понятий

· преобладание качественных характеристик объектов

· ограниченность возможности проведения экспертизы

· большой объем исходной информации

Идиостиль – представление о системе смыслов художественного текста, отражающей концептуальный мир автора; система способов репрезентации доминантных смыслов концептуальной картины мира автора.

В задачи автоматической обработки текста входят:

· машинный перевод

· автоматизированное реферирование текста

· информационный поиск

Задача лингвиста состоит в формализации текстового анализа.

При исследовании стилистики статистические методы позволяют:

1. свести до минимума субъективизм исследователя, количественно оценить результат и определить его достоверность;

2. чем больше объем текста – тем объективнее результат анализа;

- низкая повторяемость элементов увеличивает статистический прогресс

- при создании большого текста труднее подменить авторство, вероятность стилизации уменьшается

3. количественное исследование текста становится более объективным, если оно имеет сравнительный характер.

Лексические универсалии

Суммарный лингвистический портрет автора.

26.04.16

Наши рекомендации