Основні напрями прикладної лінгвістики
«Прикладная лингвистика – это новая область лингвистики, которая осуществляет реализацию лингвистических знаний с целью решения всякого рода практических задач».
Звегинцев В. В.
«Прикладная лингвистика представляет новый взгляд на задачи изучения языка. Исходя из этого нового взгляда, она производит переоценку достигнутого в науке о языке, направляет по определенному руслу лингвистические исследования и, конечно, комплектует собственную тематику».
Звегинцев В. В.
«Прикладная лингвистика – направление в языкознании, занимающиеся разработкой методов решения практических задач, связанных с использованием языка»
Лингвистический энциклопедический словарь
Теми для обговорення:
1. Прикладна лінгвістика та інформаційні технології.
2. Оптимізація когнітивної функції мови: комп’ютерна лінгвістика, квантитативна лінгвістика, психолінгвістика.
3. Оптимізація епістимічної функції мови: лексикографія, комп’ютерна лексикографія, термінознавство, корпусна лінгвістика.
4. Оптимізація комунікативної функції мови: переклад, комп’ютерний переклад, методика викладання мов.
5. Оптимізація соціальної функції мови: політична лінгвістика.
Ключові слова: квантативна лінгвістика, комп’ютерна лексикографія, комп’ютерна лінгвістика, корпусна лінгвістика, математична лінгвістика, машинний переклад, методика навчання, політична лінгвістика, психолінгвістика, термінознавство, юридична лінгвістика, PR технології.
Завдання 1. а) Чим пояснюється популярність корпусної лінгвістики? б) Що таке корпусна лінгвістика і що робить її «провідним технологічним інструментарієм сучасного мовознавчого дослідження?
«Зростання популярності корпусів текстів можна проілюструвати, наприклад, наступною цитатою зі статті Чарльза Філмора: «Я можу зробити два зауваження. Перше полягає в тому, що я не думаю, що можуть існувати корпуси текстів, де містилася б інформація з усіх сфер англійського лексикону і граматики, які я хотів би дослідити, якими б великими ці корпуси не були. Друге зауваження полягає в тому, що кожен корпус, який мені доводилося вивчати, яким би малим він не був, подавав мені такі факти, які я ніколи не міг би виявити ніяким іншим способом» [5, c. 18].
«Зупинімося на визначенні поняття і терміну "корпусна лінгвістика'". Зміст цього поняття зазвичай охоплює ділянку мовознавства, як теоретичного, так і прикладного, де дослідження проводяться за допомогою комп'ютерних лінгвістичних корпусів. Саме комп'ютерних, оскільки корпусами можна вважати і певні традиційні паперові збірки інформації, призначені для цілей лінгвістичного дослідження (наприклад, лексичні або словникові картотеки), хоча такий напрям досліджень корпусною лінгвістикою називати не прийнято. Сказане, а також потреба у створенні та практичному застосуванні в мовознавчих (і не тільки) дослідженнях комп'ютерних аналогів лексичних картотек, зрештою спонукало до формулювання, так би мовити, рефлексивних визначень поняття лінгвістичного корпусу (ЛК). Наведемо приклади найтиповіших уявлень представників самої корпусної лінгвістики, що ж таке є лінгвістичний корпус у сучасному розумінні.
Один з піонерів сучасної корпусної лінгвістики, Уільям Френсис, визначає ЛК як "зібрання текстів, яке вважається репрезентативним стосовно даної мови, діалекту або іншої ділянки мови й призначене для використання в лінгвістичних дослідженнях".
С. А. Шаров наводить три визначення (точніше, три позиції або підходи до того, що вважати лінгвістичним корпусом).
Перша позиція передбачає, що корпусом є будь-яка колекція текстів з певної тематики, які є доступними в електронній формі (Корпус 1).
Згідно з другою позицією корпус — це колекція текстів, зібрана у відповідності до явно сформульованих правил і, можливо, розмічена (annotated) на певному рівні лінгвістичного аналізу (Корпус 2). Цьому визначенню, зокрема, відповідає колекція текстів, зібраних у Машинному Фонді російської мови.
У сучасних дослідженнях з корпусної лінгвістики (Макенері, Уїлсон) корпус тлумачать як репрезентативну колекцію текстів у розумінні Корпус 2, яка може адекватно представляти потенційно нескінченну множину текстів фіксованого типу у певному діахронічному зрізі (Корпус 3).
Репрезентативність, за С. А. Шаровим, зокрема, передбачає, що колекція текстів є "збалансованою" за жанрами та функціональними стилями і що вона має достатній обсяг вибірки за числом текстів і авторів, для того щоб слугувати основою для статистично достовірних досліджень лінгвістичних феноменів у текстах відповідної тематики.
В. П. Захаров подає таке визначення: "Під назвою корпус текстів будемо розуміти великий, уніфікований, структурований, розмічений масив мовних (мовленнєвих) даних в електронному вигляді, призначений для певних цілей". Пізніше ним уточнено: "Під лінгвістичним корпусом текстів розуміється великий, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, представлений в електронному вигляді й призначений для розв'язання різних лінгвістичних завдань".
Школа О. С. Герда (кафедра математичної лінгвістики філологічного факультету Санкт-Петербурзького державного університету), до якої належить і В. П. Захаров, визначає лінгвістичний корпус текстів як "великий за обсягом, представлений в електронному вигляді, уніфікований, структурований, розмічений і філологічно компетентний масив мовних даних, доповнений системою керування даними — універсальними програмними засобами для пошуку різноманітної лінгвістичної інформації та зручного представлення її широкому користувачеві".
У наведених вище дефініціях усі детермінанти слова "масив" є суттєвими і встановлюють, чи є яке-небудь зібрання текстів корпусом.
Найважливішим при створенні ЛК є поняття розмітки (анотування, маркування,...) . Воно вважається таким, що відмежовує корпуси текстів від простого зібрання електронних текстів.
Розмітка полягає в тому, що текстам корпусу та їхнім компонентам приписуються спеціальні мітки (індикатори) різних типів: зовнішні (зазвичай, це елементи бібліографічного опису: видання, рік, автор, тощо); структурні (описують структуру тексту: розділ, абзац, речення ...); лінгвістичні (лексикографічні, граматичні, семантичні, синтаксичні та інші характеристики).
За лінгвістичними характеристиками корпуси поділяють на фонетичні, орфографічні, морфологічні, синтаксичні, семантичні, одно- та багатомовні, паралельні, порівняльні та ін. Найпоширенішими на даний момент є морфологічні та синтаксичні корпуси, тобто такі, в яких здійснено морфологічну або/та синтаксичну розмітку.
Залежно від мети використання існують корпуси: синхронічні, діахронічні, розмовні, діалектні, корпуси письмової або усної форми мови, мови певних письменників, стилів або жанрів, проблемно-галузеві, фольклорні, соціолінгвістичні тощо. Все розмаїття корпусів можна поділити на дві великі групи: спеціальні корпуси та загальні (що належать до мови в цілому).
Отже, корпусна лінгвістика пов'язується із застосуванням комп'ютерних лінгвістичних корпусів як інструментів мовознавчого дослідження. З огляду на сказане, корпусну лінгвістику можна, очевидно, вважати підрозділом прикладної та комп'ютерної лінгвістики» [5, c. 11-13].
Завдання 2.Коли був започаткований напрям корпусної лінгвістики у сучасному значенні цього слова?
«Зростання популярності корпусів текстів можна проілюструвати, наприклад, наступною цитатою зі статті Чарльза Філмора: "Я можу зробити два зауваження. Перше полягає в тому, що я не думаю, що можуть існувати корпуси текстів, де містилася б інформація з усіх сфер англійського лексикону і граматики, які я хотів би дослідити, якими б великими ці корпуси не були. Друге зауваження полягає в тому, що кожен корпус, який мені доводилося вивчати, яким би малим він не був, подавав мені такі факти, які я ніколи не міг би виявити ніяким іншим способом."
Прийнявши до уваги усі викладені вище думки, слід визнати, що історія корпусної лінгвістики в сучасному розумінні цього поняття налічує вже майже п'ятдесят років. Історично першою спробою використання комп'ютера для лінгвістичних цілей вважається Центр автоматизації вивчення літературних текстів у Галараті (Італія, 1956 р.) .
Основним завданням Центру було введення до комп'ютера максимального числа текстів, причому в різній графіці, з метою генеральної інвентаризації різноманітних лінгвістичних фактів, а саме: створення різного роду покажчиків і конкордансів слів, морфем, графем, синтагм, частот, тобто матеріалу, який у подальіїїому планувалося використовувати для лінгвістичних, психологічних та інших досліджень. Галузь дослідження охоплювала Дев'ять мов у чотирьох алфавітах: латина, італійська, німецька, англійська (латинська графіка); іврит, арамейська, набатійська (графіка івриту); грецька; російська (кирилиця). Планувалося, що результатом роботи Центру стане публікація покажчиків і конкордансів. Отже, за своїм підходом та цілями дослідження зазначена комп'ютерна система цілком може вважатися лінгвістичним корпусом. Назви "корпус" ця система, однак, не мала. Це пояснювалося, мабуть, тим, що у лінгвістичній традиції поняття корпусу спочатку стосувалося збірки саме друкованих (рукописних) текстів та виписаних з них окремих висловлювань (речень), які достатньо повною мірою репрезентують ті чи інші структури певної мови, діалекту тощо.
Історично першою комп'ютерною системою, що із самого початку мала у своїй назві слово "корпус", наскільки нам відомо, став так званий "Браунівський корпус" — лінгвістичний корпус стандартного американського варіанту англійської мови, створений в університеті Брауна (США).
У наш час уже існує багато різноманітних корпусів текстів. Деякі з них за обсягом перевищують 100 млн. слововживань, наприклад, Британський національний корпус (British National Corpus), Банк англійської мови (Bank of English). Межу в 100 млн. слововживань подолано вже багатьма ЛК, багато хто з дослідників говорить про реальну можливість створення ЛК обсягом 1 млрд. слововживань і більше.
Англійська мова в наш час займає домінуючі позиції в корпусній лінгвістиці, причому корпуси англомовних текстів збирають не тільки у Великій Британії, США і країнах, де ця мова є державною, але й за межами англомовного світу. Разом з цим, останнє десятиліття відзначилося активною роботою з укладання корпусів текстів і для інших мов — німецької, французької, іспанської, італійської, шведської та ін.» [5, c. 18-20].
Завдання 3. Які завдання дозволяє виконувати корпусна лінгвістика?
З огляду на сказане, природною ділянкою корпусної лінгвістики, безперечно, мають бути статистичні властивості мови, тобто саме ті, які проявляються лише на великих масивах інформації. При цьому слід зважити на те, що саме поняття "великий обсяг інформації" не є інваріантним і дуже залежить від того, властивості яких об'єктів мовної системи вивчаються. Отже, на перший погляд, специфіка корпусної лінгвістики як окремого підрозділу мовознавства може вважатися доконаним фактом лише тією мірою, якою справджується кваліфікація, що кількісні зміни у параметрах та обсягах її об'єктів дослідження зумовлюють зміни якісні.
Проте останнє положення є занадто загальним, тим часом, як визначення — бодай часткове — певних специфічних завдань цієї ділянки мовознавчої науки виявляється не дуже складним — до них належать, насамперед, ті, які "вручну" виконати неможливо вже фізично, хоча їхня природа і не є статистичною. Візьмімо, наприклад, таке просте і детерміністське за своєю принциповою постановкою завдання, як побудова фонетичної транскрипції для всіх українських словоформ на реєстрі, скажімо, 200 тисяч лексем, де повне число словоформ сягатиме майже чотирьох мільйонів. Виписати ці чотири мільйони слів, та ще й потім записати їх транскрипційними знаками (зрозуміло, з наголосами) — завдання неосяжне для традиційного, не "комп'ютерного" мовознавства. Але воно було розв'язано в Українському мовно-інформаційному фонді комп'ютерними методами. Більше того, за допомогою розвинутих тут методів було забезпечено переведення до транскрипційної форми усього діючого на даний момент масиву Українського лінгвістичного корпусу обсягом близько 36 мільйонів слів, що надало принципову можливість проведення різнопланових фундаментальних фонетичних досліджень, маючи на меті розв'язання низки прикладних задач, таких як побудова якісних комп'ютерних озвучувачів українського тексту тощо.
Наведений приклад переконує, що завдань для корпусної лінгвістики є дуже багато, і попри видиму (і оманливу простоту постановок деяких з них, розв'язок їх зовсім не простий» [5, c. 14-15].
Завдання 4.Які недоліки та переваги корпусного аналізу підкре?
«В настоящее время корпусный анализ — один из основных методов решения разнообразных лингвистических задач. Так, возможности его применения в области фразеологии включают в себя выявление фразеологизмов, наиболее распространенных в речи носителей языка (Kallstemdöttir et а!.. 2006), определение типичных контекстов употребления тех или иных фразеологизмов (Steyer, 2003), изучение различных особенностей семантики фразеологизмов, в том числе влияния внутренней формы идиом на их поведение в тексте (Филипенко, 2004; Hümmer, 2006), а также подбор наиболее адекватных эквивалентов фразеологизма для двуязычных словарей (Козеренко, 2006; Fiiipenko, 2002; Dobrovol'skij, Filipenko, 2003; Statin, 2006) и нахождение иллюстративных примеров для словарных статей (Dobrovol'skij, 1999).
Итак, корпусный анализ уже зарекомендовал себя как метод лингвистических исследований и обнаруживает ряд видимых достоинств, которые подробнее рассмотрим в настоящей статье. Тем не менее очевидно, что, как и всякий другой метод, он не позволяет получить абсолютно достоверный и не нуждающийся в дальнейшей обработке результат. В статье мы также рассмотрим те трудности, которые могут возникнуть при использовании корпусного анализа как в масштабных, так и в небольших исследованиях и которые стали нам очевидны при изучении немецких идиом семантического поля "речевая деятельность".
1. Достоинства корпусного анализа. Основным достоинством корпусного анализа является, помимо упомянутого ранее разнообразия сфер применения, возможность ориентироваться на естественные, не возникшие в искусственной ситуации эксперимента и не сконструированные ad hoc самим исследователем высказывания (Steyer, 2003; Hümmer, 2006).
Кроме того, наличие материала, в равной степени доступного различным группам исследователей, позволяет сравнивать и перепроверять полученные результаты (Hümmer, 2006).
Немаловажно также и то, что корпусный анализ является одним из немногих методов, которые могут применяться лингвистом как "консультативно", т.е. для подтверждения или уточнения вьщвинутой предварительно гипотезы, так и "аналитически", т.е. для получения новой информации о языковых единицах (Sailer, 2007). Таким образом, его использование не требует предварительно разработанной теории. Ориентируясь исключительно на конкретные тексты, исследователь может получить результат, не соответствующий его личной языковой интуиции, т.е. более объективный результат (Hallsteindöttir, Faro , 2006).
Здесь следует отметить, что полученные с помощью корпусного анализа результаты носят лишь дескриптивный, но не прескриптивный характер. Иными словами, они лишь указывают на определенные тенденции, которые не следует трактовать как правила, поскольку, несмотря на большой объем, корпусы включают в себя далеко не все тексты, производимые носителями языка.
Конечно, исследования семантики фразеологизмов и поиск их вариантов осуществлялись задолго до появления электронных корпусов, но опирались на ограниченный текстовый материал. Основное достоинство корпусов на машинном носителе состоит в том, что исследователь благодаря им может иметь дело с такими объемами материала, обработать которые традиционным способом физически невозможно. "Ручной" поиск случаев употребления фразеологизмов в литературе и публицистике мог занимать огромное количество времени, поскольку, как показывают статистические исследования, идиомы в письменной речи встречаются редко. С этой особенностью идиом связаны и определенные сложности при анализе электронных корпусов.
2. Недостатки корпусного анализа. Неимоверный интерес, который Брауновский корпус вызвал сразу же после своего появления, во многом объяснялся тем, что исследователи, имея в своем распоряжении столь большой объем материала — около 1 млн. слов (Рыков, 1999), — надеялись на получение с его помощью достоверных данных. Современные корпусы по объему существенно превосходят Брауновский. Так, крупнейший корпус немецкоязычных текстов — корпус Института немецкого языка (IDS) в г. Ман-гейме (http://www.ds-mannheim.de/t/projekte/koфoгa) — содержит около 2 млрд. слов, а часть корпуса, доступная в сети Интернет, — около 1 млрд. Корпус DWDS (www.dwds.de) содержит около 1,2 млрд словоформ и примерно 100 млн в свободном доступе. Казалось бы, из столь огромной базы данных можно без труда выделить множество случаев употребления интересующих исследователя языковых единиц. Однако это не всегда так.
Недостатком корпусного анализа является еще и то, что его результаты напрямую зависят от характера запроса, т.е. какие-то варианты идиомы не могут быть найдены только из-за того, что не были учтены при его формулировании (Hallsteindóttir et al., 2006).
Статистика употребительности той или иной единицы также может быть искажена из-за того, что, будучи достаточно редкой, она встречается несколько раз подряд в одном и том же тексте (Moon, 2007) или исследователь ищет контексты употребления идиомы, а находит список контекстов с омонимичным ей свободным сочетанием слов (Hümmer, 2006).
Однако из всего вышесказанного лишь следует, что анализ корпусов, как и любой другой метод, требует тщательной обработки результатов» [8, c. 83-88].
Завдання 5. Які основні завдання юридичної лінгвістики виділяють автори?
«На нашу думку, існують три основні напрямки досліджень юридичної лінгвістики: 1) сприяння в розв'язанні теоретичних проблем самої юридичної науки, 2) удосконалення мовного забезпечення законодавчої практики, 3) удосконалення лінгвістичної підготовки, усного та писемного мовлення працівників правоохоронних і судових органів.
Спинимося детальніше на здобутках та актуальній проблематиці виділених вище напрямків досліджень юридичної лінгвістики. Для розв'язання актуальних проблем правознавства вченими-юристами та вченими-лінгвістами зроблено вже чимало. Предметом їхніх наукових пошуків були визначення змісту юридичних понять І значення термінів, що їх позначають стиль законодавства та ін.
Не менш актуальними проблемами юридичної лінгвістики є теоретичні питання мовного забезпечення процесу правового регулювання, мовного тлумачення норм права, удосконалення юридичної техніки та ін.
Одним з важливих завдань юридичної лінгвістики є вивчення шляхів розв'язання мовних проблем від найдавніших часів до наших днів, їх законодавчого, регулювання на різних етапах історичного розвитку. На жаль, доробок наших учених у цій галузі на сьогодні більш ніж скромний — з цієї проблематики маємо фактично лише кілька статей.
Завдання, які з'ясовує юридична лінгвістика, тісно переплітаються з криміналістикою. Тільки спільними зусиллями фахівців цих наук можна успішно розв'язати низку проблем, що стосуються експертизи усного та писемного мовлення. Поки що ж ці проблеми вивчаються лише фахівцями-криміналістами. На думку Т. Литвин, «однією з причин віднесення експертизи усного мовлення до криміналістичних і злиття її в один вид з дослідженнями, по суті, фізичної природи звуку є, на наш погляд, слабкий розвиток вітчизняного лінгвістичного апарату вивчення усних повідомлень». Це зауваження повною мірою стосується і лінгвістичного вивчення писемних повідомлень.
Також одним надзвичайно важливим напрямком досліджень юридичної лінгвістики є удосконалення лінгвістичної підготовки, усного та писемного мовлення працівників правоохоронних і судових органів.
Удосконалення комп'ютерної техніки і комунікацій дало не тільки позитивні, а й негативні результати . Якщо в недалекому минулому лише окремі інтелектуали за плату виконували чужі завдання, то нині можна говорити про виникнення цілого напрямку в бізнесі, спрямованого на задоволення подібного попиту. А тому актуальними проблеми авторознавчої (судово-лінгвістичної) експертизи, що потребує достатньої лінгвістичної підготовки працівників правоохоронних органів.
Ще одне важливе питання — удосконалення лінгвістичної частини судово-фоноскопічної експертизи, адже на практиці часто трапляється так, що усне мовлення, записане на аудіокасету в оперативних умовах, при відтворюванні виявляється нерозбірливим і тому втрачає своє процесуальне й оперативне значення» [11, c. 22-25].
Завдання 6. Політична лінгвістика – це нова наука, яка займається вивченням використання ресурсів мови як засобу боротьби за політичну владу та маніпуляції суспільною свідомістю. Яким чином відбувається оптимізація соціальної функції мови, функціонування мови як засобу впливу?
«а) Функционирование языка в обществе с развитой политической и социальной структурой требует постоянного регулирования, иначе спонтанные процессы изменения языковой системы, проявляющиеся в первую очередь в изменении лексического состава, в модификации норм произношения, приведут к сложностям в общественной коммуникации — к сбоям в работе средств массовой информации, к проблемам в функционировании институтов государства и публичной политики, к разрушению образования и т. д. Вмешательство государства в этом случае оказывается необходимым. Однако государство в лице своих исполнительных и законодательных органов, а также судебной власти, обеспечивая легитимность и правовые основания языкового регулирования, не может сформулировать его содержание. Собственно содержание регулирования, его принципы разрабатываются с непосредственным участием лингвистов.
Государственное регулирование языка относится ко второй части социолингвистической проблематики. Оно разбивается на две части — языковую политику и языковое строительство. В центре языковой политики стоят политические цели, формируемые соответствующими политическими институтами — конституцией, политической программой правящей партии и т. п. Например, языковая политика в Финляндии направлена на обеспечение равноправия финского и шведского языков, а языковая политика в Казахстане — на развитие и доминирование казахского языка в государственной сфере. Есть и довольно экзотические случаи. В Австралии в 1973 г. правительством лейбористов была принята программа всеобщего двуязычия, в соответствии с которой каждый житель Австралии должен свободно владеть двумя языками: родным и иностранным (если родной — английский), родным и английским (если он иностранец или абориген). Такой казус всеобщего двуязычия можно считать проявлением общей тенденции к проведению политики языкового плюрализма, характерного для современных развитых государств. Языковая политика всегда является следствием государственной политики.
Языковое строительство обычно рассматривается как часть языковой политики и представляет собой комплекс конкретных мероприятий, проводящихся на общегосударственном и региональном уровне. К числу таких мероприятий относится, например, разработка национальных программ обучения языку на всех уровнях образовательной системы, создание нормативных словарей (толковых, орфографических, орфоэпических и т. п.) и грамматик, разработка и введение алфавитов, формирование и фиксация норм литературного языка, нормирование языка средств массовой информации и т. д.
Типичным мероприятием языкового строительства можно считать известные реформы русского письма и орфографии. Петровская реформа азбуки (орфографическая реформа, проводившаяся в двух вариантах — в 1708 и в 1710 гг.) привела к замене церковной кириллицы новым гражданским шрифтом, в котором вводилось различие между строчными и прописными буквами, была отменена обязательная постановка на письме ударения в словах.
Говоря о теории речевого воздействия, следует подчеркнуть, что она, вопреки широко распространенному мнению, отнюдь не исчерпывается речевыми произведениями, циркулирующими в сфере массовой коммуникации, публичной политики, рекламы и т. п. На это в явной форме указывает… Говорящий не только имеет возможность выбирать различные варианты выражения некоторого содержания, но и вынужден осуществлять этот выбор. Близкую аналогию можно увидеть в сфере грамматики: язык навязывает, говорящему обязательный выбор той или иной граммемы грамматической категории (единственное или множественное число, вид, время) — часто вне зависимости от того, нужно ли это реально с точки зрения коммуникативной интенции говорящего.
Ситуация осложняется еще и тем, что язык — это не только система. Кроме системной части с четко противопоставленными дискретными единицами и связывающими их отношениями, в языке есть феномены, которые содержат недискретную составляющую. К ним относится, например, естественноязыковая метафора, представляющая собой отражение метафоры как когнитивной сущности. В разных контекстах для одной и той же метафоры могут коммуникативно «высвечиваться» различные следствия. Рассмотрим контексты (1) и (2), в которых употреблена одна и та же метафора ЛОДКИ (примеры взяты из [Баранов, Караулов 1994, с. 75]):
(1) (...) поскольку из «Акта провозглашения независимости Украины» следует, что ее территория неделима и неприкосновенна и что на территории независимого украинского государства имеют силу исключительно ее Конституция и ее законы, жители Крыма оказались в роли пассажиров лодки, которую большой корабль потащил вдруг на буксире совсем не туда, куда им хотелось бы.
[Э. Кондратов, В. Филиппов]
(2) Возникла опасность голода. Нам нужно действительно объединиться, чтобы не умереть! Уж слишком раскачали мы гигантскую лодку, именуемую СССР.
[М. Ульянов]
В первом контексте метафора позволяет акцентировать внимание на идее несамостоятельности, подчиненности, следующей из лингвистических и экстралингвистических знаний о лодке — прототипическая лодка меньше корабля, на ней не обязательно присутствует мотор и пр. Во втором контексте обращается внимание на ненадежность, опасность обсуждаемой ситуации. Поскольку знания человека о действительности чрезвычайно многообразны, то предсказать, какое семантическое следствие из той или иной метафоры будет «высвечено» в контексте, очень трудно» [1, c. 208-209, 216, 217].
«б) При выявлении системы ценностей того или иного субъекта политической деятельности используются следующие критерии:
1) Высокая частотность слов, обозначающих соответствующие ценности и антиценности, в соответствующих текстах. Например, В. В. Путин в своих выступлениях постоянно обращается к таким ценностям, как свобода, демократия, экономический рост.
2) Представление ценностей и антиценностей в качестве объекта борьбы. Президент России В. В. Путин заявляет: «Наша позиция ясна – защищать гражданские, политические, экономические свободы».
3) Толкование слов (определение понятий), обозначающих соответствующие ценности и антиценности. «Демократия — это власть народа»…
4) Конкретизация представлений о ценностях и антиценностях. Например, президент России В. В. Путин следующим образом конкретизирует ценность понятия свобода: «Наша задача — научиться использовать инструменты государства для обеспечения свободы — свободы личности, свободы предпринимательства, свободы развития институтов гражданского общества».
5) Характеристика и особенно сопоставление «наших» (т.е. своих собственных, своей партии, своей страны) и «чуждых» (т.е. характерных для других, партий, идеологий или государств) ценностей и антиценностей. Например, В. В. Путин в своих выступлениях противопоставляет демократию таким феноменам, как тоталитаризм, репрессии, заключение, изгнание.
Для американского политического дискурса метафора родства мало характерна, а поэтому российские метафорические аргументы не производят должного впечатления в США. Для американцев гипотетическое и даже вполне реальное кровное родство — это не причина для оказания материальной и тем более военной помощи. Как показал Дж. Лакофф, в Америке особенно действенны метафоры болезни и здоровья, финансовые и спортивные метафоры, образ отвечающего за порядок полицейского, представление войны как продолжения политики (метафора немецкого-генерала Карла Клаузевица) и др. В американской ментальности президент как бы подписывает контракт с народом-работодателем. А если президент Милошевич или президент Саддам Хусейн нарушают условия контракта, то они — преступники.
Однако американские метафоры сохранения здоровья, экономической выгоды и справедливого полицейского плохо воспринимаются в России. Такова уж наша национальная ментальность, что о своем здоровье мы начинаем думать, когда его уже не осталось. Говорить об экономической выгоде мы считаем неприличным, особенно если это касается политических связей с «братьями».
С другой стороны, в российской политической (и бытовой) метафоре постоянно присутствуют криминальные образы, причем далеко не всегда они имеют негативную окраску. Разбойник и даже бандит — это у нас едва ли не похвала, а такие слова, как разборка, разводить, мочить, судя по всему, превращаются в обычные термины политической сферы. Очевидно, что такие метафоры совершенно недоступны американскому политическому сознанию» [13, c. 49-50, 210-211].
Завдання 7. Які задачи вирішаються за допомогою інформаційних технологій у лінгвістиці?
«Конкретизируя определение понятия «информационные технологии» по отношению к лингвистике, можно сказать, что информационные технологии в лингвистике — это совокупность законов, методов и средств получения, хранения, передачи, распространения, преобразования информации о языке и законах его функционирования с помощью компьютеров. Если соотнести это определение с теми задачами, которые решает современная прикладная лингвистика, то можно отметить, что понятие «информационные технологии» в лингвистике относится в основном к задачам прикладной лингвистики. К их числу можно отнести:
1) создание систем искусственного интеллекта;
2) создание систем автоматического перевода;
3) создание систем автоматического аннотирования и реферирования текстов;
4) создание систем порождения текстов;
5) создание систем обучения языку;
6) создание систем понимания устной речи;
7) создание систем генерации речи;
8) создание автоматизированных информационно-поисковых систем;
9) создание систем атрибуции и дешифровки анонимных и псевдоанонимных текстов;
10) разработка различных баз данных (словарей, карточек, каталогов, реестров и т.п.) для гуманитарных наук;
11) разработка различного типа автоматических словарей;
12) разработка систем передачи информации в сети Интернет и т.д.
Эти комплексные задачи включают целый ряд более мелких проблем. К их числу относится автоматизация следующих процессов:
1) построение словарей текстов;
2) морфологический анализ слова;
3) определение значения многозначного слова;
4) синтаксический анализ предложения;
5) поиск слова в словаре;
6) порождение предложения и т.д.» [3, c. 8-9].
Завдання 8. Лексикографія взагалі і комп’ютерна лексикографія зокрема вважаться важливою галуззю прикладної лінгвістики. Які особливості використання комп’ютерних технологій створення сучасного тлумачного Словника української мови виділяють його автори?
«Основу генерального реєстру ІЛС «Словники України» становить реєстр Орфографічного словника української мови 6, який практично повністю відтворено й значно розширено в цій системі. Генеральний реєстр містить близько 152 тис. одиниць.
Модуль «Парадигма» створено на основі розробленої в Українському мовно-інформаційному фонді словозмінної класифікації української лексики, в якій виділено за певними формальними ознаками понад 1500 парадигматичних класів для всіх відмінюваних повнозначних частин мови, а з урахуванням акцентуації — близько 3 тис. класів 1. Завдяки цій класифікації й розробленій процедурі парадигматизації побудовано повний перелік усіх граматичних форм для всіх лексичних одиниць, наведених у реєстрі. Це забезпечило візуалізацію всіх словоформ в усіх граматичних значеннях. Загальна кількість словоформ для близько 152 тис. одиниць реєстру наближається до 3 млн. У модулі «Парадигма» користувач, вибравши в реєстрі будь-яке слово, автоматично одержує таблицю всіх словоформ для вибраної реєстрової одиниці з поданням їхніх граматичних параметрів.
Модуль «Транскрипція» забезпечує автоматизоване виведення за допомогою транскрипційних знаків інформації про артикуляцію лексичних одиниць реєстру згідно з сучасною літературною вимовою звуків. В основу модуля покладено інформацію, що міститься в Орфоепічному словнику української мови, перший том якого вийшов у серії «Словники України». Його реєстр тут значно розширено за рахунок слів, які пишуться через дефіс, словосполучень тощо.
Фразеологічний модуль містить близько 56 тис. фразеологічних одиниць, які вживаються в сучасному українському мовленні. За основу фразеологічного модуля було взято Фразеологічний словник української мови, підготовлений до друку в серії «Словники України», у якому найповніше відображено загальновживану фразеологію української мови та подано всебічну лексикографічну характеристику фразеологізмів.
Модуль синонімії створено на основі Словника синонімів української мови 9 і містить він близько 9200 синонімічних рядів, що складаються зі слів або їхніх окремих значень, а також сталих словосполучень (номінативних та граматичних).
Основна частина модуля антонімії — словник антонімів, який за змістом відповідає Словникові антонімів української мови, що вийшов у серії «Словники України» в 1999 р. 10 Загалом у модулі антонімів представлено понад 2200 компонентів антонімічних пар, що є у всіх частинах словникових статей.
ІЛС «Словники України» цікава тим, що містить усі основні елементи структури лексикографічних систем. Практичний інтерес для тлумачної лексикографії вона становить, зокрема, тим, що всі п'ять наведених вище лексикографічних функцій можуть використовуватися в автономному режимі й бути інтегрованими до лексикографічних структур Словника української мови.
На думку користувачів системи, цей лексикографічний продукт, незважаючи на значну різнорідність представлених у ньому мовних явищ, насправді має вигляд цілісного словника, що підтверджує адекватність методів інтеграції, використаних у процесі його створення, тим мовним явищам, які відіграють роль об'єктів лексикографічного опису в окремих компонентах ІЛС «Словники України» [12, с. 7-48].
Завдання 9. У чому полягає співвідношення традиційної та комп’ютерної лексикографії?
«Комп'ютерна лексикографія з самого початку була задумана не як самостійна наукова галузь, а як автоматизація трудомістких процесів у лексикографії. Реалізація цього задуму поступово не лише накопичила досвід автоматичного аналізу мовного матеріалу з позицій лексикографії, а й привела до виникнення теоретичних засад автоматизації в лексикографії та автоматизованого укладання словників.
Розглянемо ще раз етапи лексикографічної діяльності:
1) Вироблення концепції словника, тобто визначення його призначення,майбутніх користувачів, способів його використання, а звідси — й вимог до зовнішнього та внутрішнього оформлення словника.
2) Створення лексикографічної бази, тобто, вибір текстів для розписування, створення інструкції розписувачам, створення картотеки.
3) Укладання реєстру майбутнього словника.
4) Аналіз і класифікація картотеки: лематизація слова, яке призначається як реєстрове, визначення конструкцій у яких воно вживається, розмежування значень.
5) Вироблення форми тлумачення чи вибір перекладів для кожного значення слова.
6) Оформлення словникової статті, перевірка доцільності її запланованої структури, визначення кількості та характеру ілюстративних прикладів, системи ремарок й умовних позначень.
7) Оформлення словника в цілому, включаючи додатки, індекси та інші допоміжні показники.
Подивимось, які традиційні та комп'ютерні технології можуть бути застосовані на кожному з етапів, до яких теоретичних висновків й узагальнень ведуть комп'ютерні технології.
Вироблення концепції словника – сфера лексикографа, який використовує свій досвід та досвід своїх попередників. На цьому етапі залучення комп'ютерів ще не є можливим.
Створення лексикографічної бази, укладання картотеки. Відбір текстів для розписування здійснюється лексикографом, решта ж операцій цілком під силу сучасному комп’ютерові. Автоматичне створення корпусу текстів для розписування привело до виникнення корпусної лінгвістики, яка має свої теоретичні засади щодо організації матеріалу в корпусі, автоматичного кодування слів у термінах частиномовної приналежності та словозмінної форми, створення систем лематизації, укладання електронної картотеки для кожного реєстрового слова, тобто автоматичний морфологічний та синтаксичний аналіз. Роль лексикографа на цьому етапі — контроль і редагування здійсненого аналізу. Створені ж системи автоматичного аналізу тексту вийшли за межі суто лексикографічного призначення й використовуються в багатьох системах автоматичного опрацювання тексту – машинному перекладі, інформаційному пошукові, автоматичному реферуванні та ін.
Укладання реєстру словника теж може здійснюватися комп'ютером на базі укладеної елекіронної картотеки або списку лем, які зустрілися в корпусі текстів. Вирішальне слово тут — за лексикографом, який визначає доцільність включення слова залежно від попередньо виробленої концепції майбутньою словника. Можна автоматично здійснити укладання реєстру на базі частотного словника, укладеного на даному корпусі, включаючи в реєстр слова з заданим порогом частоти. Автоматичне укладання ЧС словоформ чи лем — сфера лексикографії, добре опанована комп'ютером.
Класифікація картотеки, розмежування значень може здійснюватися на основі укладання конкордансу, який дозволяє групувати вживання слова в однакових контекстах. Вироблено комп'ютерні процедури методи, на базі яких здійснюється розмежування значень та розмежування лексико-граматичних омонімів. Лексикограф тут здійснює контроль і постредагування.
Виробити формулу тлумачення комп'ютер самостійно не може, але вибрати певну формулу тлумачення із заданого списку – посильне для нього завдання. У лексикографії вироблено формули тлумачення певних груп слів на базі їх формальних ознак. Так, понад п'ять тисяч дієслів з префіксами за- та роз- у Словнику української мови тлумачаться формулою "Почати + спільнокореневе з реєстровою одиницею непрефіксальне дієслово": запрацювати – почати працювати, а понад 1200 дієслів із суфіксом -увати, тлумачаться формулою "Працювати + спільнокореневий з реєстровим словом іменник": вчителювати – працювати вчителем.
Вибір перекладу може бути здійснений комп'ютером на основі аналізу паралельних корпусів текстів.
Отже, укладання словникової статті може значною мірою здійснюватися комп'ютером. Те ж саме можна сказати й про укладання словника в цілому, якщо чітко розроблено структуру словника у зрозумілому для комп'ютера форматі.
Як говорить у своїй статті "Майбутнє лінгвістики та лексикографів: чи існуватимуть лексикографи в 3000 році?" Грегор Графенштет, "Може так трапитися, що лексикографи будуть все менше й менше потрібні для розв'язання деяких завдань, для яких вони зараз витрачають багато часу".
Можна передбачити, що комп'ютерні технології все більше проникатимуть у лексикографію, що, зрештою, може привести до стирання різниці між традиційною та комп'ютерною лексикографією. Майбутнє за останньою.
У чому ж полягають напрямки її розвитку?
Перспективи подальшого розвитку комп'ютерної лексикографії можна бачити в кількох напрямках:
а) створення систем, здатних повністю автоматично укладати тлумачні та перекладні словники;
б) створення інтегрованих лексикографічних систем для кожної мови;
в) укладання словників нового типу, яких не існувало раніше;
г) об'єднання цих лексикографічних систем в одну надсистему;
д) створення єдиної семантичної мережі, яка може бути основою для укладання різноманітних словників.
Найважче досягти виконання тих пунктів, у яких говориться про розпізнавання комп'ютером семантики лексичних одиниць. У всьому світі ведуться роботи, спрямовані на те, щоб навчити комп'ютер розпізнавати семантику, але не можна сказати, що вони достатньою мірою успішні» [9, с. 206-208].
Завдання 10. Чи існує різниця між комп’ютерною копією та комп’ютерною версією паперового словника?
«Як уже зазначалося, комп'ютерна лексикографія далеко не відразу приступила до автоматичного укладання словників у системі ''текст–словник". Спочатку був досить довгий період автоматизації трудомістких лексикографічних процесів. Наступний етап - копіювання паперових словників, щоб забезпечити можливість їх машинного прочитання (make them machine-readable). В цих копіях нічого не змінювалося, програмне забезпечення обмежувалося пошуком реєстрового слова Спосіб користування таким словником не набагато відрізнявся від способу використання паперового словника. Зручність полягала в тому, що комп'ютер знаходив потрібне реєстрове слово швидше, не треба було листати словник, а також у тому, що габарити записаного на дискету словника були значно меншими від розмірів паперового словника, тому дискету можна було легко мати завжди при собі.
Пізніше почали конвертувати паперовий словник у машинний формат і створювати комп'ютерну версію паперового словника, яка значно відрізнялася від словника паперового, в основному за рахунок будови словникових статей. У них уточнено функції розділових знаків, кожне значення, кожна зона та кожен приклад подаються з нового рядка, не використовуються тильди, тобто реєстрове слово в усіх прикладах дається повністю. При цьому ніяка змістова інформація не додається ні щодо кількості значень, ні щодо кількості ілюстративних словосполучень або речень. Отже, словник містить усе, що було в паперовому словнику, але формат його змінений. Тому з повним правом можна його назвати комп'ютерною версією паперового словника.
Змінений формат дозволяє розширити програмне забезпечення, яке включає пошук словникової статті, пошук реєстрового слова в інших статтях, зіставлення двох чи кількох статей як відносно значень їхніх реєстрових слів, так і відносно вжитих у них видів словосполучень. Отже, способи використання комп'ютерної версії словника значно ширші, ніж словника паперового. Тому комп'ютерні версії паперових словників, або комп'ютеризовані словники, як ще називають, набули великого поширення.
Існують комп'ютерні копії та комп'ютерні версії майже всіх типів паперових словників — перекладних, навчальних, тлумачних, спеціальних (синонімів, антонімів, омонімів) та інших. Всі вони призначені для звичайного користувача - людини, забезпечуючи потреби пошуку не лише слів, а й уживання реєстрових слів в інших статтях словника, забезпечують можливість зіставлення та класифікації, сортування даних за окремими зонами словникової статті, за перекладами чи тлумаченнями, за спільністю дефініцій і т.д» [9, с. 188-189].
Завдання 11. Що сьогодні називають автоматичним або машинним словником?
«Спочатку автоматичними, або машинними, словниками називали будь-які словники, укладені при комп'ютерній підтримці. Але з часом виділилася група словників, укладених на комп'ютері й використовуваних саме комп'ютером при розв'язанні завдань комп'ютерного опрацювання тексту або створення певних систем такого опрацювання. Деякі з цих словників назвати так можна лише умовно, оскільки вони ні за реєстровими одиницями, ні за будовою не схожі на звичайні словники.