Основні поняття та категорійний апарат статистичної лінгвістики: вибірка, частота, розподіл, похибка.
У сучасному мовознавстві домінує чітка тенденція: досліджувати мовний та мовленнєвий матеріал на репрезентативному масиві текстів.
Однорідний масив (корпус) певних одиниць, які потрібно обстежити, називають генеральною сукупністю (ГС).
Обсяг і характер генеральної сукупності залежать від завдань дослідження. Наприклад, якщо досліджують особливості стилю Івана Франка, генеральна сукупність — усі його твори. Якщо досліджують українську мову XX ст., генеральна сукупність - усі тексти (мовлені та писані) XX ст. Межі останньої важко виявити точно, а все усне мовлення просто неможливо дослідити. У подібних випадках, коли суцільне обстеження генеральної сукупності неможливе, роблять вибірку.
Вибірка— це певна кількість матеріалу, на підставі дослідження якого можна зробити правильні висновки про всю генеральну сукупність. Основні вимоги до вибірки: репрезентативність та однорідність.
Щоби бути репрезентативною, вибірка має
1) рівномірно розподілятися по генеральній сукупності та
2) мати достатньо великий обсяг, якого вистачає для правильних висновків про ГС.
Розрізняють два типи однорідності вибірки: лінгвістична та статистична.
У межах лінгвістичної однорідності вибірки виділяють:
1) хронологічну (тексти вибірки повинні мати хронологічні межі);
2) жанрову (тексти вибірки мають бути жанрово обмежені);
3) тематичну (тексти мають бути тематично обмежені).
Статистично однорідною вважають вибірку, в якій досліджувані одиниці мають статистичну поведінку, яка суттєво між собою не відрізняється. Якщо середня частота явища (літери, морфеми, слова, довжини слова, довжини речення і т.ін.) в одній вибірці суттєво не відрізняється від його частоти в інших вибірках, то ці вибірки статистично однорідні стосовно цього явища.
За способом організації виділяють такі різновиди вибірок:
1) механічна — організована з урахуванням рівномірності розподілу досліджуваної одиниці по генеральній сукупності. Всі тексти генеральної сукупності перенумеровують, а потім, наприклад, з кожного п'ятого, десятого, двадцятого тексту вибирають відрізок необхідної довжини.
2) випадкова — організована шляхом випадкового вибору текстів з генеральної сукупності. В основі такого методу організації вибірки лежить гіпотеза про те, що досить велика кількість навздогад відібраних одиниць з генеральної сукупності має адекватно її представляти. Тож кожна сторінка, розділ чи інша одиниця тексту генеральної сукупності повинні мати однаковий шанс потрапити до вибірки. Тому, як правило, випадкова вибірка ґрунтується на таблиці випадкових чисел.
3) зональна (типова) — організована на основі лінгвістично однорідної сукупності текстів, тобто зони. Зоною залежно від мети дослідження вважають прозу, поезію та драму в художній літературі; твори одного автора або конкретний твір; сукупність слів певної морфемної структури (наприклад, префіксальних або одноморфемних) тощо.
Вибірка може бути структурною, тобто складатися із менших частин, які називають підвибірками, та неструктурною, тобто суцільною.
Одним з найосновніших понять статистичної лінгвістики є частота досліджуваної одиниці.
Абсолютна частота — це кількість вживань певної одиниці (літери, слова, словоформи, словосполучення, речення тощо) в обстеженому матеріалі.
Відносна частота — відношення абсолютної частоти певної одиниці у вибірці до обсягу вибірки. Вимірюється у відсотках (%) або в частках 1 (наприклад, 25% або 0,25). Так, у реченні Говорили око в око абсолютна частота слова око — 2, а відносна — 2/4 = 0,25 або 25%.
Проте в різних підвибірках частота одиниці звичайно неоднакова. У таких випадках належить оперувати середньою частотою. Це відношення суми абсолютних частот певної одиниці у підвибірках до кількості підвибірок. Наприклад, якщо у трьох підвибірках, з яких складається вибірка, слово "яскраво" має абсолютні частоти 4, 6 і 8, то його середня частота у вибірці буде (4 + 6 + 8) / 3 = 6. Якщо середня частота більша за одиницю, то доцільно її рахувати з точністю до сотих (два знаки після коми), якщо менша за одиницю, то її треба рахувати до другого знака після коми або до третього знака, якщо після коми йде нуль.
Частотний словник публіцистики |
Всього записів: 3
Слово | Частина мови | Абсолютна частота | Поле5 | Поле6 | Поле7 | Поле8 |
ЛЮБОВ | К | 0.1033 | 0.0249 | 4.1735 | 0.7586 | |
ЛЮБОВНИЙ | А | 0.0133 | 0.0066 | 8.6023 | 0.5025 | |
ЛЮБОВНО | Н | 0.0033 | - | - | - | |
Поет: Загальний словник
Всього записів: 6
Слово | Частина мови | Абсолютна частота | Середня частота | Середньоквадратичне відхилення | Коефіціент стабільності |
любов | ім.ж.р.вл. | 0,06 | 0,2374868 | ||
любов | ім.ж.р. | 1,12 | 1,605906 | ||
любове | ім.ж.р. | 0,06333333 | 0,3454305 | ||
любов-лелека | ім.ч.р. | 0,003333333 | 0,05763872 | ||
любовний | ад'єктив | 0,03333334 | 0,1795055 | ||
любов-німота | ім.ж.р. | 0,003333333 | 0,05763872 |
Використання кількісних методів під час описування функціювання мови мало чим відрізняється від використання аналогічного інструментарію в природничих та гуманітарних науках. Використання методів вимірювання та підрахунку мовних реалізацій дає змогу, проте, суттєво модифікувати уявлення про мовну систему та про можливості її функціювання. У цьому сенсі квантитативна лінгвістика виявляється важливим чинником, який впливає на лінгвістичну теорію. Наприклад. у сфері граматики теоретична лінгвістика, як правило, обмежується констатацією існування в українській мові системи відмінків. Зі структурного погляду цього, можливо, й достатньо. Проте поза межами обговорення залишається вельми суттєва інформація про те, як часто використовуються різні відмінки, якою є динаміка використання різних відмінків з плином часу. Такі дослідження дали б змогу виявити тенденції розвитку відмінкової системи і на цій підставі сформулювати гіпотези про майбутній стан граматичної системи мови.
Інший приклад. Із системного погляду в російській, англійській та латинський мові є форма називного відмінка однини особових займенників. Проте в англійській мові при дієслові ця форма займенника практично завжди необхідна, у російській мові – займенник в цих випадках звичайно представлений, а в латині – як правило, їх нема. Відсутність достовірних кількісних даних про ці мовні явища робить структурний опис явно недостатнім.
Подібні проблеми виникають й у сфері лексики. Звичайні тлумачні словники не подають у складі словникової статті інформації про частоту вживання тієї чи іншої лексеми. Це пов’язано з дуже великим обсягом роботи, який необхідно виконати, щоб для кожного слова вказати хоча б які-небудь межі частотності (пор. позначки маловживане, частотне, високочастотне). Для користувача словника така інформація може бути дуже важливою, часто вирішальною для ухвалення рішення про використання слова.
З теоретичного погляду використання статистичних поглядів в мовознавстві дозволяє доповнити структурну модель мови ймовірнісним компонентом, тобто створити структурно-ймовірнісну модель, яка має значний пояснювальний потенціал.
До таких моделей належить, наприклад, «модель життєвого потенціалу слова», запропонована А.А.Полікарповим (Поликарпов 1988). Проведений ним квантитативний аналіз засвідчив, що в достатньо значній часовій перспективі є явна тенденція до збільшення ступеня абстрактності значень у багатозначного слова – чим пізніше виникає значення, тим воно абстрактніше. Розроблена кількісна модель дає змогу зробити передбачення про відносний «вік» різних частин мови, тенденцій розвитку лексичної системи мови.
Основні галузі використання структурно-ймовірнісної моделі мови. Лінгвістичне спостереження за функціюванням мови. Задача лінгвістичного спостереження полягає у виявленні загальних особливостей функціювання мовної системи в конкретному типі дискурсу (науковому, політичному дискурсі, текстах засобів масової інформації. Як предмет лінгвістичного спостереження можуть виступати такі феномени природної мови, як типи мовних помилок, сфера іншомовних запозичень, нові слова та значення, нові (креативні, творчі – не конвенційні) метафори, тематичний розподіл лексики (наприклад, лексика часових та просторових відношень, лексика вираження відчуттів та емоцій, спортивна лексика тощо).
Технологія лінгвістичного спостереження ґрунтується на двох вихідних твердженнях:
по-перше, на регулярності і періодичності аналізованих даних, і,
по-друге, на достатньо великому обсязі використовуваного матеріалу, на репрезентативності вибірки даних.
Через це лінгвістичне спостереження неможливе без відповідного комп’ютерного забезпечення. Використання комп’ютерної технології дає змогу кількісно оцінювати досліджуваний феномен, виявляючи його розподіл за часом, за джерелами, авторами тощо.
Інформація про статистичні закономірності функціювання мовної системи лежить в основі деяких методик аналіз даних, розроблюваних у політичній лінгвістиці. До них належить, зокрема, методика контент-аналізу, використовувана для виявлення структури і стану суспільної свідомості. За допомогою контент-аналізу з’являється змога за частотою вживання слів реконструювати, наприклад, ціннісні орієнтації суспільства, виявляти актуальні теми публічної політики, оцінювати динаміку змін тематики політичних дискусій тощо.
Комп’ютерне моделювання мови та мовлення. Інша важлива галузь прикладного використання знань про частоту використання тих чи інших мовних структур – комп’ютерна лінгвістика. Багато комп’ютерних програм, пов’язаних із функціюванням мови, використовують алгоритми, засновані на даних про частотність уживання фонем, морфем, лексичних одиниць та синтаксичних конструкцій. Програми автоматичного коректування орфографії містять словники, як правило, лише найчастотніших слів. Аналогічні словники використовують у програмах автоматичного розпізнавання писемного тексту та мовлення (типу Fine Rider). Абсолютну частотність появи слів (особливо термінологічної лексики) використовують в системах автоматичного анотування та реферування. Так, згідно зі статистико-дистрибутивним методом автоматичного індексування інформативними для певного тексту вважають нагромадження слів, розташованих достатньо близько одне від одного, частотність яких перевищує певну порогову величину, наприклад, середню частотність слів у документі (метод ACSI-Matic).
Дешифрування кодованого тексту. У процесі дешифрування також можуть використовуватися дані про частотність вживання графем, морфем і слів, а також про їхнє взаємне розташування. До цього часу розроблено продуктивні алгоритми дешифрування, засновані на частотності та дистрибуції елементів кодованого тексту. Пор. дешифрувальні алгоритми Б.В.Сухотіна; статистико-комбінаторний метод Н.Д.Андреєва. Близькі до задач дешифрування формальні процедури «відкриття» морфемного складу неописаної мови, запропоновані З. Гаррісом.
Авторизація/атрибуція тексту. Проблема авторизації тексту належить до кола класичних проблем філологічного дослідження. Часто цю проблему розглядають у межах «кількісної стилістики» - стилеметрії. Авторизація містить як літературний, так і лінгвальний складник.
Цю проблему досліджував В.В.Виноградов, однак чинники атрибуції текстів, які він виокремив, важко було формалізувати. Тобто різні дослідники. використовуючи ці чинники, могли дійти різних висновків.
Перспективу об’єктивації експертного знання було знайдено у використанні кількісних, статистичних методів аналізу текстів. Піонером в цій галузі став Н.А.Морозов, який опублікував у 1915 р. працю «Лінгвістичні спектри. Засіб, щоб відрізнити плагіати від істинних творів того чи іншого відомого автора. Стилеметричний етюд». Важливо, що у квантитативному аналізі Морозов пропонував спиратися не на тематично пов’язану лексику – слова, які визначає специфіка описуваного матеріалу, його предметна і проблемна орієнтація, - а на службові слова й слова тематично нейтральні. Справа в тому, що власне особливості вживання службових слів, слів із загальною семантикою, неприв’язаною до тематики художнього твору, формують авторський стиль і практично не піддаються імітації.
Сьогодні розвиток методик авторизації тексту найпродуктивніше відбувається в межах стилеметрії. Лінгвістичні підстави авторизації можуть бути різними, але використання кількісних методів аналізу є неминучим. Однин із перспективних напрямків в цій галузі - залучення до авторизації текстів теорії розпізнавання образів. За такого підходу стиль описують як простір параметрів, які можна виразити кількісно, - середня довжина речення, кількість вкладених синтаксичних структур, кількість слів у реченні, кількість речень в абзаці тощо. Далі кожний аналізований текст виражають через вектор, координати якого задають значеннями вибраних параметрів. Подібність векторів визначає і подібність стилів (Марусенко 1990, 1996).
Розробляють підходи, засновані на вивченні кількісних особливостей реалізації синтаксичних структур (Севбо 1981), а також на виявленні деяких особливостей формальної структури тексту, пов’язаних з вираженням чужого та авторського мовлення. Співвідношення чужого мовлення (прямого. змішаного, вкладеного) з авторським виявляються стилеутворювальним чинником. Цю характеристику стилю відображено у «формально-пунктуаційному» методі структуризації тексту, який реалізовано в комп’ютерній системі DISSKOTE Гринбаум 1996).