Прикладная и математическая лингвистика. Лексикостатистика.

Прикладная и математическая лингвистика. Лексикостатистика.

Прикладна́я лингви́стика (прикладное языкознание - applied linguistics) — наряду с теоретической лингвистикой является частью науки, занимающейся языком. Специализируется на решении практических задач, связанных с изучением языка, а также на практическом использовании лингвистической теории в других областях.

Термин прикладная лингвистика появился в конце 20 гг. 20 в., когда была осознана необходимость строгого научного решения прикладных задач с использованием методов формального лингвистического анализа письменных и акустико-лингвистического анализа устных сообщений.

За рубежом под ПЛ часто понимают совершенствование методов преподавания языка (дидактическая лингвистика). В нашей стране ПЛ понимают как компьютерную лингвистику, которая становится сейчас все более широкой дисциплиной почти синонимом ПЛ.

Основные направления ПЛ, связанные с изучением языка:

· лексикография — теория и практика составления словарей;

· лингводидактика — наука о разработках методик обучения иностранному языку;

· усвоение второго языка — наука о процессе усвоения языка (в отличие от лингводидактики — с точки зрения обучаемого);

· терминоведение — наука об упорядочении и стандартизации научно-технической терминологии;

· переводоведение — теория перевода.

Основные направления ПЛ, связанные с практическими приложениями:

· Компьютерная лингвистика (англ. computational linguistics):

· Машинный перевод

· Автоматическое распознавание символов (англ. OCR)

· Автоматическое распознавание речи (англ. ASR)

· Автоматическое извлечение данных (англ. Data Mining)

· Информационный поиск

· Извлечение информации

· Автоматическое реферирование текстов

· Построение систем управления знаниями

· Создание электронных словарей, тезаурусов, онтологий

· Корпусная лингвистика, создание и использование электронных корпусов текстов

· Лингвистическая экспертиза (например, в судебной практике)

Эти и другие приложения традиционной лингвистики в машинных средах - задачи компьютерной лингвистики, которая помогает разрабатывать вычислительные алгоритмы и программы на основе формальных языковых моделей, созданных в рамках математической лингвистики.

Математи́ческая лингви́стика (также вычисли́тельная или компью́терная лингви́стика) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики».

Лексикостатистика – квантитативный подход к исторической лингвистике, предложенный в середине XX века американским лингвистом Сводешем и основанный на той гипотезе, что имеется набор базовых понятий, слова для которых существуют во всех языках мира и наименее подвержены изменению с течением времени. Наиболее употребителен список из 100 слов, составленный Сводешем и включающий такие слова, как личные местоимения, обозначения частей тела, основных природных явлений, и проч. Основная идея лексикостатистики состоит в том, что степень родства пары языков определяется тем, какая доля слов из этого списка имеет в этих языках общее происхождение. Так, доля общей лексики в немецком и голландском языках составляет 95%, в немецком и английском – 82%, в немецком и исландском – 74%, что отражает разную степень родства немецкого языка с этими языками. Таким образом, лексикостатистика позволяет дать формальные определения таким традиционным понятиям, как «язык», «диалект», «говор» и проч., а также на основании процентов схождений построить внутреннюю классификацию языковой семьи.

Основные понятия квантитативной лингвистики и статистики речи.

Квантитати́вная лингви́стика (англ. quantitative linguistics) — это раздел общей лингвистики и, в частности, математической лингвистики. КЛ исследует язык при помощи статистических методов; её конечная цель — сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков. Специально для этой цели была создана синергетическая лингвистика (Synergetic linguistics). Эта область знаний не обязательно связана с фундаментальными научными целями.

Языковые законы в квантитативной лингвистике

В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть, несмотря на многочисленные попытки.

Некоторые языковые (лингвистические) законы

Существует целый ряд языковых законов, среди которых:

· Закон диверсификации: Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определенными законами.

· Распределение длин (многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы. На данный момент были изучены следующие единицы: закон распределения длин морфов; ритмических единиц; предложений; слогов; слов;

Другие языковые единицы, которые также подчиняются этому закону, — это, например, буквы (символы) различной сложности, длины так называемых hrebs и речевых актов. Это же справедливо и для распределений звуков (фонов) различной длительности (долготы).

· Закон Мартина: Этот закон касается лексических цепочек, которые образуются при поиске дефиниций (определений) слов в словаре, затем дефиниций только что найденных дефиниций и т. д. В конце концов все эти дефиниции образуют иерархию всё более и более общих значений, при этом дефиниций становится тем меньше, чем более общее значение получается. Среди уровней данной иерархии существует целый ряд подчиняющихся закону отношений.

· Закон Менцерата-Альтмана: Данный закон гласит, что размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.

Законы частотно-рангового распределения: Практически любая языковая единица подчиняется этим закономерностям. Приведем лишь несколько примеров:

· Слова в тексте организованы в соответствии с частотой их появления в тексте, и каждому из них присвоен номер ранга и соответствующая частота. Со времен Ципфа (закон Ципфа), предлагалось большое количество математических моделей, описывающих отношения между рангом и частотой.

· Можно наблюдать похожее распределение между рангом и частотой звуков, фонем и букв.

· Закон изменения языка: Процессы роста в языке (как, например, рост словаря), распространение иностранных и заимствованных слов, изменения во флективной системе и т. д. подчиняются закону, известному в КЛ как закон Пиотровского, и соответствуют моделям роста в других научных дисциплинах. Закон Пиотровского — это частный случай так называемой логистической модели. Было показано, что он затрагивает и процессы усвоение языка (ср. закон усвоения языка).

· Закон текстового блока: Лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определенное распределение частоты в одинаково больших блоках текстов.

· Закон Ципфа: Частота слова обратно пропорциональна его порядковому номеру в списках частотности.

Генеральная совокупность (в англ. — population) — совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения.

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д.

Концепция системного подхода сформировалась в результате приложения идей и методов, разработанных для решения инженерно-физических задач, к решению задач лингвистических, связанных главным образом с проблемами языковой типологии.

Система — это объект, свойства структуры и субстанции которого взаимосвязаны.

Свойства системы:

1.целостный комплекс взаимосвязанных элементов.

2.образует особое единство со средой.

3.любая система представляет собой элемент системы более высокого порядка.

4.элементы любо системы – подсистемы или системы более низкого порядка.

Системный подход актуальный потому, что является одной из основ общей методологии науки. Еще Фердинанд де Соссюр писал о языке как о системе знаков. Сегодня бытует мнение, что язык следует изучать не обособленно от окружающего мира, как было определено Соссюром, а системно, то есть с учетом его связей с внешними факторами.

Системный подход в лингвистике, в основе которого лежит идея языка как целостности — системы, состоящей из взаимообусловленных частей (подсистем), предполагает обязательное наличие зависимостей между различными характеристиками единиц лексической подсистемы языка. Эти зависимости обнаруживаются в результате объединения лексических единиц в разнообразные группировки.

Язык представляет собой, как Принято говорить в современном языкознании, некоторое системно-структурное образование. Отдельные подсистемы языка называют уровнями, которые представлены соответствующими единицами - фонемами, морфемами, лексемами, синтагмами (предложениями)..

Системный подход к языку поставил в изучении слова новые задачи: определение слова как единицы языка, критерии его выделения, изучение содержательной стороны слова, методов ее анализа, исследование системности лексики; изучение слова в языке и речи, в тексте. В истории науки было выдвинуто более 70 различных критериев определения слова, в основе которых лежали графические, фонетические, структурные, грамматические, синтаксические, семантические, системные принципы:

· Морфологический критерий исходит из того, что морфологический показатель оформляет слово в целом, а не его часть или словосочетание. Этот критерий нередко позволяет отделить слово от сочетания слов, но и он не универсален. Так, части сложного слова могут получить отдельное морфологическое оформление: морфологический формант может оформлять словосочетание (англ, 's в the King of England's... «английского короля»)

· Согласно синтаксическому критерию, слово – либо потенциальный минимум предложения, либо минимальная синтаксическая единица. Однако этот критерий не позволяет отделить от морфем служебные слова, не способные составить отдельные предложения. Применяемый исключительно на синтагматическом уровне, синтаксический критерий ведет к выделению не слов как таковых, но членов предложения, которые могут объединять ряд слов, (ср.: «Где он?» – «В школе», а не «школе»)

· Согласно семантическому критерию, слово – все, что выражает одно определенное понятие (А. А. Реформатский, А. Ельмслев). Слово – минимальная значимая единица, для которой существенным оказывается идиоматичность значения, т. е. отсутствие полного параллелизма между значением целого и значением компонентов. Однако один только семантический критерий не позволяет отличить слово от фразеологического или терминологического словосочетания.

Аналогия – все, что может быть подтверждено аналогичными явлениями, а то, что не попадает, относится к области аномалий.

Системность

Конспект

Индекс лексического богатства – отношение количества разных словоформ или лексем к объему текста. Обозначается TTR – token/type relation (ratio).

Прямое сравнение индексов двух текстов возможно только при условии их одинакового объема. Индекс не является эстетическим критерием.

mF – число слов с F частотой встречаемости.

Отличия текстов гуманитарной направленности от технических:

· неточность, размытость понятий

· преобладание качественных характеристик объектов

· ограниченность возможности проведения экспертизы

· большой объем исходной информации

Идиостиль – представление о системе смыслов художественного текста, отражающей концептуальный мир автора. Система способов репрезентации доминантных смыслов концептуальной картины мира автора.

В задачи автоматической обработки текста входят:

· машинный перевод

· автоматизированное реферирование текста

· информационный поиск

Задача лингвиста состоит в формализации текстового анализа.

При исследовании стилистики статистические методы позволяют:

1) свести до минимума субъективизм исследователя, количественно оценить результат и определить его достоверность;

2) чем больше объем текста – тем объективнее результат анализа;

3) количественное исследование текста становится более объективным, если оно имеет сравнительный характер.

ЛИНГВИСТИЧЕСКАЯ СТАТИСТИКА

— отрасль языкознания, занимающаяся анализом количественных характеристик языка и речи. Осн. исходным материалом Л. с. является текст, рассматриваемый как последовательность лингвистических единиц фиксированного уровня (текст может рассматриваться как последовательность букв, фонем, слогов, морфов, словоформ, предложений). Изучаются статистические характеристики распределения лингвистических единиц в тексте речи и на основе этих данных формируются высказывания о системе языка и механизме порождения текста. Свои важнейшие понятия (напр., понятие генеральной совокупности и выборки), как и матем. аппарат, Л. с. заимствует у математической статистики. Так, в качестве выборки могут служить либо тексты, либо лингвистические формы. Соответственно этому меняется представление о генеральной совокупности: генеральной совокупностью может служить совокупность как текстов, так и совокупность единиц, содержащихся в них.

Кроме того, в качестве различных генеральных совокупностей могут рассматриваться инвентари лингвистических форм: в этом случае каждая лингвистическая форма является выборкой (с повторением) из инвентаря форм одного из предшествующих уровней, напр., любые предложения можно рассматривать как выборку слов из инвентаря словоформ, или как выборку морфов из инвентаря морфем, или как выборку звуков речи из инвентаря фонем.

В зависимости от характера исследуемых лингвистических единиц различают фонологическую статистику, занимающуюся статистическим изучением закономерностей употребления звуков речи, фонем, слогов и т. п., морфологическую статистику, занимающуюся статистическим изучением употребления различных морфологических форм (основ, суффиксов, моделей слов, частей речи и т. п.), лексическую статистику, занимающуюся статистическим изучением закономерностей употребления слов и словосочетаний. Стилистическая статистика устанавливает статистическими методами особенности функциональных, жанровых и индивидуальных стилей. Кроме указанных разделов, в Л. с. выделяют также типологическую статистику, занимающуюся выработкой количественных типологических признаков языков, ихронологическую статистику (глоттохронологию), занимающуюся разработкой методов определения времени расхождения языков. Для всех разделов Л. с. характерно использование понятия частоты лингвистической формы в качестве меры ее употребительности.

Л. с. как науч. дисциплина возникла в связи со стремлением расширить совокупность структурных характеристик лингвистических форм характеристикой их употребительности. При этом исходили из предположения, что любой лингвистической форме присуща априорная вероятность быть употребленной в тексте. Собственно эта вероятность и должна характеризовать употребительность данной лингвистической формы. В качестве способа отыскания этих вероятностей используется выборочный метод статистики, дающий приближенную оценку употребительности лингвистической формы в виде ее относительной частоты. Л. с. изучает не только относительные частоты лингвистических форм и их классов, но и такие характеристики форм, как их размер (длина), сочетаемость (сила связи), распределение в тексте. Различие между текстами может состоять в различном составе форм и в различной их употребительности. Этот факт использует стилистическая статистика, вырабатывающая методы сравнения текстов по составу и употребительности форм и получения оценок степени различия текстов. Тексты на различных языках характеризуются различной относительной частотой элементов сходного типа. Это использует типологическая статистика для разработки методов типологического сопоставления языков и получения оценок для т. н. типологических индексов. Напр., отношение числа морфем к числу слов в тексте может служить мерой синтеза языка (наз. его индексом синтетичности). Вьетнамский язык, в котором слова практически одноморфемные, характеризуется индексом синтетичности 1,06 в отличие от эскимосского, в котором индекс синтетичности равен 3,72. Между ними располагаются английский (1,68), русский и украинский языки.

Отдельную отрасль Л. с. составляют исследования, использующие методы теории информации. В Л. с. сформулирован ряд специфических лингвостатистических задач, таких, как нахождение объема словника текста по его длине, нахождение объема полного словаря писателя по выборке из текстов этого писателя, оценка степени неоднородности текстов на разных уровнях, характеристика статистической структуры текста, установление связей между статистическими характеристиками лингвистических форм разных уровней и др.

В связи с решением этих задач возникли проблемы изучения лингвостатистических распределений. В исследовании структуры языка используются и качественные, и количественные характеристики его элементов, а это позволяет глубже понять механизм языка и принципы его порождения. Данные об употребительности элементов языка, прежде всего слов, широко используются в таких прикладных областях, как преподавание языков, текстология, стенография, машинный перевод, связь и др. См. также Языка информационные измерения.

Прикладная и математическая лингвистика. Лексикостатистика.

Прикладна́я лингви́стика (прикладное языкознание - applied linguistics) — наряду с теоретической лингвистикой является частью науки, занимающейся языком. Специализируется на решении практических задач, связанных с изучением языка, а также на практическом использовании лингвистической теории в других областях.

Термин прикладная лингвистика появился в конце 20 гг. 20 в., когда была осознана необходимость строгого научного решения прикладных задач с использованием методов формального лингвистического анализа письменных и акустико-лингвистического анализа устных сообщений.

За рубежом под ПЛ часто понимают совершенствование методов преподавания языка (дидактическая лингвистика). В нашей стране ПЛ понимают как компьютерную лингвистику, которая становится сейчас все более широкой дисциплиной почти синонимом ПЛ.

Основные направления ПЛ, связанные с изучением языка:

· лексикография — теория и практика составления словарей;

· лингводидактика — наука о разработках методик обучения иностранному языку;

· усвоение второго языка — наука о процессе усвоения языка (в отличие от лингводидактики — с точки зрения обучаемого);

· терминоведение — наука об упорядочении и стандартизации научно-технической терминологии;

· переводоведение — теория перевода.

Основные направления ПЛ, связанные с практическими приложениями:

· Компьютерная лингвистика (англ. computational linguistics):

· Машинный перевод

· Автоматическое распознавание символов (англ. OCR)

· Автоматическое распознавание речи (англ. ASR)

· Автоматическое извлечение данных (англ. Data Mining)

· Информационный поиск

· Извлечение информации

· Автоматическое реферирование текстов

· Построение систем управления знаниями

· Создание электронных словарей, тезаурусов, онтологий

· Корпусная лингвистика, создание и использование электронных корпусов текстов

· Лингвистическая экспертиза (например, в судебной практике)

Эти и другие приложения традиционной лингвистики в машинных средах - задачи компьютерной лингвистики, которая помогает разрабатывать вычислительные алгоритмы и программы на основе формальных языковых моделей, созданных в рамках математической лингвистики.

Математи́ческая лингви́стика (также вычисли́тельная или компью́терная лингви́стика) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики».

Лексикостатистика – квантитативный подход к исторической лингвистике, предложенный в середине XX века американским лингвистом Сводешем и основанный на той гипотезе, что имеется набор базовых понятий, слова для которых существуют во всех языках мира и наименее подвержены изменению с течением времени. Наиболее употребителен список из 100 слов, составленный Сводешем и включающий такие слова, как личные местоимения, обозначения частей тела, основных природных явлений, и проч. Основная идея лексикостатистики состоит в том, что степень родства пары языков определяется тем, какая доля слов из этого списка имеет в этих языках общее происхождение. Так, доля общей лексики в немецком и голландском языках составляет 95%, в немецком и английском – 82%, в немецком и исландском – 74%, что отражает разную степень родства немецкого языка с этими языками. Таким образом, лексикостатистика позволяет дать формальные определения таким традиционным понятиям, как «язык», «диалект», «говор» и проч., а также на основании процентов схождений построить внутреннюю классификацию языковой семьи.

Основные понятия квантитативной лингвистики и статистики речи.

Квантитати́вная лингви́стика (англ. quantitative linguistics) — это раздел общей лингвистики и, в частности, математической лингвистики. КЛ исследует язык при помощи статистических методов; её конечная цель — сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков. Специально для этой цели была создана синергетическая лингвистика (Synergetic linguistics). Эта область знаний не обязательно связана с фундаментальными научными целями.

Языковые законы в квантитативной лингвистике

В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть, несмотря на многочисленные попытки.

Некоторые языковые (лингвистические) законы

Существует целый ряд языковых законов, среди которых:

· Закон диверсификации: Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определенными законами.

· Распределение длин (многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы. На данный момент были изучены следующие единицы: закон распределения длин морфов; ритмических единиц; предложений; слогов; слов;

Другие языковые единицы, которые также подчиняются этому закону, — это, например, буквы (символы) различной сложности, длины так называемых hrebs и речевых актов. Это же справедливо и для распределений звуков (фонов) различной длительности (долготы).

· Закон Мартина: Этот закон касается лексических цепочек, которые образуются при поиске дефиниций (определений) слов в словаре, затем дефиниций только что найденных дефиниций и т. д. В конце концов все эти дефиниции образуют иерархию всё более и более общих значений, при этом дефиниций становится тем меньше, чем более общее значение получается. Среди уровней данной иерархии существует целый ряд подчиняющихся закону отношений.

· Закон Менцерата-Альтмана: Данный закон гласит, что размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.

Законы частотно-рангового распределения: Практически любая языковая единица подчиняется этим закономерностям. Приведем лишь несколько примеров:

· Слова в тексте организованы в соответствии с частотой их появления в тексте, и каждому из них присвоен номер ранга и соответствующая частота. Со времен Ципфа (закон Ципфа), предлагалось большое количество математических моделей, описывающих отношения между рангом и частотой.

· Можно наблюдать похожее распределение между рангом и частотой звуков, фонем и букв.

· Закон изменения языка: Процессы роста в языке (как, например, рост словаря), распространение иностранных и заимствованных слов, изменения во флективной системе и т. д. подчиняются закону, известному в КЛ как закон Пиотровского, и соответствуют моделям роста в других научных дисциплинах. Закон Пиотровского — это частный случай так называемой логистической модели. Было показано, что он затрагивает и процессы усвоение языка (ср. закон усвоения языка).

· Закон текстового блока: Лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определенное распределение частоты в одинаково больших блоках текстов.

· Закон Ципфа: Частота слова обратно пропорциональна его порядковому номеру в списках частотности.

Генеральная совокупность (в англ. — population) — совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения.

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д.


Наши рекомендации