Национальный корпус текстов русского языка
Роль ИТ в развитии лингвистики, как области науки и практической деятельности
Лингвистика - это наука о языке, его общественной природе и функциях, его внутренней структуре, о закономерностях его функционирования и исторического развития и классификации конкретных языков.
Лингвистика, как наука предполагает следующие элементы:
1) Собственно лингвистические знания
2) Методы для извлечения знаний
3) Субъект получения знаний
4) Научно-познавательное отношение к миру.
При определении пределов применимости информатики в лингвистике необходимо учитывать ее важнейшие функции:
1) Поисковая
2) Методическая (языковой строй требует различных методов их постижения)
3) Открытость Логика ее развития направлена на постановку новых научных вопросов, на которые еще нет ответа.
Можно выделить основные направление использования ИТ в лингвистике:
1) Автоматический перевод текстов
2) Автоматическое реферирование текстов
3) Автоматическое аннотирование текстов
4) Обучение языкам
5) Создание автоматических информационно-поисковых систем по лингвистике и смежным дисциплинам
6) Атрибуция анонимных текстов
7) Создание баз данных по лингвистике и смежным дисциплинам
8) Автоматические словари
Классификация видов ИТ используемых в лингвистике
Национальный корпус текстов русского языка.
Корпус текста — это совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином другом подмножестве языка. Такие письменные совокупности текстов могут быть использованы для решения большого числа
лингвистических задач:
1) в лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т. п.);
2) в грамматике (для определения частоты употребления грамматических морфем в текстах различного типа, выявления наиболее употребляемых типов словосочетаний и предложений, определения значений синонимичных морфологических единиц, частоты употребления классов слов и т.д.);
3) в лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами и т.д.);
4) при автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.);
5) в учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий, и т.д.).
Национальный корпус русского языка охватывает прежде всего период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.
Национальный корпус русского языка в настоящее время включает следующие подкорпуса:
· основной корпус, в который входят прозаические (включая драматургию) письменные тексты XVIII — начала XXI века;
· синтаксический (глубоко аннотированный) корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);
· газетный корпус (корпус современных СМИ), в котором представлены статьи из средств массовой информации 1990-2000-х годов;
· параллельные корпуса, в которых можно найти все переводы для определенного слова или словосочетания на русский язык или с русского языка. В настоящее время для поиска доступны англо-русский, русско-английский, немецко-русский, украинско-русский, русско-украинский, белорусско-русский, русско-белорусский и многоязычный параллельные корпуса;
· корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;
· корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);
· обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;
· корпус устной речи, включающий расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов;
· акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов). Эти тексты доступны для поиска по месту ударения и просодической структуре слова;
· мультимедийный корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930—2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.)