Задачи для самостоятельного решения. Лабораторная работа 2

Лабораторная работа 2

Вычисление мер центральной тенденции и мер изменчивости

Цель работы:научиться вычислять с помощью статистических функций электронных таблиц показатели центра распределения и показатели вариации для задач статистического анализа в языкознании

Постановка задачи

В таблице 1 приведены полученные из опыта данные о средних частотах речи у русских писателей 19-20 вв. Данные получены из текстовых выборок длиной каждая в 500 знаменательных слов. Было взято по 20 выборок из текстов каждого писателя. Места текста, интуитивно определявшиеся как чуждые художественному тексту, в выборку не включались [Б.Н.Головин. Язык и статистика. М., Просвещение, 1971].

Таблица 1.

Средняя частота употребления частей речи русскими писателями 19-20 в.

Писатель Частота части речи
Глагол Наречие Союз
Карамзин
Пушкин
Лермонтов
Гоголь
Герцен
Гончаров
Достоевский
Толстой
Тургенев
Чехов
Куприн
Бунин
Толстой
Гладков

Вычислите средние, максимальные и минимальные значения для частоты употребления различных частей речи, а также стандартные отклонения. Представьте данные из таблицы в виде графика.

Ход работы

1. Загрузите электронные таблицы.

2. Введите исходные данные (см. таблицу 1) как показано на рис.1.

Задачи для самостоятельного решения. Лабораторная работа 2 - student2.ru

Рис.1. Исходные данные

3.Запишите формулы для вычисления среднего, стандартного отклонения, минимального и максимального значений для частоты встречаемости каждой части речи (см. рис. 2.)

Задачи для самостоятельного решения. Лабораторная работа 2 - student2.ru

Рис.2. Формулы для вычисления

4. В результате должна получиться таблица (см. рис.3).

Задачи для самостоятельного решения. Лабораторная работа 2 - student2.ru

Рис. 3. Результаты вычислений

5. Постройте на этом же листе три диаграммы (см. рис. 4-6),

иллюстрирующие разброс частот встречаемости различных частей речи у русских писателей. Для построения диаграммы, например, для «глагола», необходимо выделить данные с фамилиями писателей и частотой встречаемости глагола, вызвать мастер диаграмм, задать тип «график», задать необходимые подписи и размещение на имеющемся листе).

Задачи для самостоятельного решения. Лабораторная работа 2 - student2.ru

Рис. 4. Частота употребления глагола русскими писателями

6. Для сравнения диаграмм, задайте для всех диаграмм на вкладке Шкала максимальное значение 140 (щелкнуть по цифрам оси, выбрать Формат оси, Шкала).

7. Проанализируйте полученные результаты.

Задачи для самостоятельного решения. Лабораторная работа 2 - student2.ru

Рис. 5. Частота употребления наречия русскими писателями

Задачи для самостоятельного решения. Лабораторная работа 2 - student2.ru

Рис. 6. Частота употребления союзов русскими писателями

Отчет по работе должен содержать файлы с исходными данными и результатами вычислений, ответы на контрольные вопросы.

Контрольные вопросы

1. Назовите известные вам меры центральной тенденции?

2. Назовите известные вам меры изменчивости?

3. С помощью каких функций они вычисляются?

4. Как построить диаграмму с помощью электронных таблиц?

5. Как отредактировать диаграмму?

6. Дайте содержательную интерпретацию результатам.

Задачи для самостоятельного решения

1. В таблице 2 приводятся распределение частот букв (в процентах) ряда европейских языков. Данные заимствованы из книги [Baudouin C., Elements de cryptographie / Ed. Pedone A. – Paris, 1939.

Таблица 2

Частота букв в ряде европейских языков

Буква алфавита Французский язык Немецкий язык Английский язык Испанский язык Итальянский язык
A 7,68 5,52 7.96 12,90 11,12
B 0,80 1,56 1,60 1,03 1,07
C 3,32 2,94 2,84 4,42 4,11
D 3,60 4,91 4,01 4,67 3,54
E 17,76 19,18 12,86 14,15 11,63
F 1,06 1,96 2,62 0,70 1,15
G 1,10 3,60 1,99 1,00 1,73
H 0,64 5,02 5,39 0,91 0,83
I 7,23 8,21 7,77 7,01 12,04
J 0,19 0,16 0,16 0,24 -
K - 1,33 0,41 - -
L 5,89 3,48 3,51 5,52 5,95
M 2,72 1,69 2,43 2,55 2,65
N 7,61 10,20 7,51 6,20 7,68
O 5,34 2,14 6,62 8,84 8,92
P 3,24 0,54 1,81 3,26 2,66
Q 1,34 0,01 0,17 1,55 0,48
R 6,81 7,01 6,83 6,95 6,56
S 8,23 7,07 6,62 7,64 4,81
T 7,30 5,86 9,72 4,36 7,07
U 6,05 4,22 2,48 4,00 3,09
V 1,27 0,84 1,15 0,67 1,67
W - 1,38 1,80 - -
X 0,54 - 0,17 0,07 -
Y 0,21 - 1,52 1,05 -
Z 0,07 1,17 0,05 0,31 1,24

Постройте три гистограммы для частоты использования букв алфавита в английском, немецком и французских языках.

2. Представьте графически информацию о доле гласных букв в литературном тексте нескольких европейских языков:

Французский язык 44,27%
Немецкий язык 39,27%
Английский язык 39,21%
Испанский язык 47,95%
Итальянский язык 46,80%

3. Известным русским математиком А. А. Марковым (1856 – 1922) отмечена устойчивая закономерность открытых текстов, связанная с чередованием гласных и согласных букв. Им были подсчитаны частоты встречаемости биграмм вида гласная-гласная (г, г), гласная-согласная (г, с), согласная-гласная (с, г), согласная-согласная (с, с) в русском тексте длиной в 105 знаков. Результаты подсчета отражены в следующей таблице 3:

Таблица3

Наши рекомендации