Автоматический синтез текста.
Проблема синтеза связанного текста возникает в системах машинного перевода при реферировании текста в диалоговых системах на естественном языке в экспертных системах.
Функция – некоторые исходные содержания информации, хранящиеся в исходном виде передавать в виде взаимосвязанной цепи предложений на естественном языке.
Первые эксперименты в 60е годы: синтезировались осмысленные предложения на английском и русском языках. Эти системы должны были делать выбор 1) содержания – из входных данных в соответствии с коммуникативной целью , 2)лексики, 3) структуры предложения, а) агригация – система должна выбрать содержание во фразе/простом предложении, б) референция – система должна определить каким образом опираться на выбранное в предыдущем контексте, 4) структуры дискурса.
25) Полевая лингвистика: методы описания языка.Полевая лингвистика - лингвистическая дисциплина, разрабатывающая и практикующая методы получения информации о неизвестном исследователю языке на основании работы с его носителями. В лингвистике сложилась практика описания, при которой исследователь языка чаще всего является одновременно и его носителем: он владеет им как родным (или, в крайнем случае, как приобретенным) языком. Техника описания «освоенных» языков существенно опирается на наличие неограниченного количества письменных текстов, с одной стороны, и возможность привлечения метода «интроспекции» (использования исследователем себя как эксперта по построению и интерпретации языковых выражений данного языка) – с другой. И того и другого при изучении «слабоописанного» языка исследователь лишен. Доступ к языку возможен лишь при обращении к языковой компетенции носителя языка, что и обеспечивается полевой лингвистикой. Исследователь получает все сведения о языке посредством активного взаимодействия с тем, кто владеет данным языком как родным и служит для исследователя экспертом, знания которого о языке исследователю необходимо извлечь (такой носитель языка называется обычно информантом/переводчиком). Обычно информант не имеет никакой специальной подготовки и является неискушенным носителем языка. А именно, он обладает способностью к языковой деятельности, и источником сведений о языке для исследователя являются продукты его языковой деятельности. При этом задача исследователя – эффективно воздействовать на языковую деятельность информанта. В нормальных условиях языковая деятельность осуществляется говорящими спонтанно, и продукты спонтанной речи – наиболее объективные данные о языке. Эффективная полевая работа предполагает не просто фиксацию языковых данных, но извлечение из них лежащей в их основе языковой структуры. Это требует использования в зависимости от конкретной цели исследования различных методов обнаружения грамматических фактов (как иногда говорят, открытия грамматики). Наиболее продуктивными являются следующие технологии: перевод с языка-посредника на язык-объект (в исходном языковом выражении, которое предлагает исследователь, содержатся такие компоненты смысла, оформление которых интересует исследователя), парадигматический метод опроса (выявляются парадигматические отношения между языковыми выражениями языка-объекта, например различными грамматическими формами какого-либо слова), метод подстановок (замена в исходном высказывании одного элементарного смысла), перекрестный метод (вопросы задаются в разброс с целью подавить нежелательные связи между вопросами), ассоциативный метод (по ассоциации с текущим высказыванием строятся новые высказывания),перифразирование, наводящие вопросы (чтобы избежать прямых вопросов, интересующих исследователя), извлечение примеров(на значение слова, грамматическое значение), стимул с исправлениями (намеренное искажение языкового выражения на языке-объекте с целью убедиться в правильности формы, которой исследователь ожидает от информанта) и др.Структурное описание языка предполагает такой анализ реального текста, который позволяет выделить обобщённые инвариантные единицы (схемы предложений, морфемы), фонемы и соотнести их с конкретными речевыми сегментами на основе строгих правил реализации. Эти правила определяют границы варьирования языковых единиц в речи, допустимого с точки зрения сохранения ими самотождественности, т. е. фиксируют набор допустимых синонимических преобразований единицы языка. (Первая попытка строгого описания языка была предпринята ещё древнеиндийским учёным Панини). Математическое описание языка основано на представлении о языке как о механизме, восходящем к известному швейцарскому лингвисту начала ХХ века Фердинанду де Соссюру.
Начальное звено его концепции – теория языка как системы, cостоящей из трёх частей (собственно язык – langue, речь – parole, и речевую деятельность – langage), в которой каждое слово (член системы) рассматривается не само по себе, а в связи с другими членами. Изучением способов математического описания правильных текстов (в первую очередь, предложений) занимается теория способов описания синтаксической структуры. В подобной структуре языковые аналогии определены не с помощью изначально присущих им качеств, а с помощью системных («структурных») отношений.