Обработка и представление статистических результатов
Обработка статистических данных ведется с целью выявления объективно существующих закономерностей. Прежде чем перейти к анализу какой-либо социолингвистической переменной, следует очертить круг лиц, для которых ее значение релевантно. Так, вопрос о предпочтении того или иного языка, на котором издается пресса, целесообразно разрабатывать только в отношении тех лиц, кто читает газеты. Доля последних в выборочной совокупности определяется не только индивидуальными психологическими особенностями, но и доступностью прессы (а по отдельным регионам она сильно различается), а также общегосударственной или региональной социально-политической и культурной обстановкой в момент опроса[85]. Мнения школьников по поводу преподавания языка или использования его как средства обучения могут представлять определенный интерес, но очевидные привходящие субъективные факторы требуют отдельного анализа ответов этой группы респондентов. Нередко круг лиц, относительно которых следует разрабатывать определенную социолингвистическую переменную, выявляется только в результате анализа анкеты.
Вот один пример. Опрос всех жителей практически полностью двуязычной литовско-русской деревни Дегучяй (245 человек, из них 62% литовцы, 34% русские), проведенный в начале 1970-х годов, показал, что 96% из них смотрели фильмы на обоих языках, в то же время книги на втором языке читали лишь 22% из тех, кто пользовался библиотекой [Михальченко 1975: 286-299]. При поверхностном анализе из этого могли бы быть сделаны какие-то выводы относительно предпочтений языка художественной литературы, однако выясняется, что письменной формой второго языка владели 93% лиц в возрасте 19-30 лет и лишь 4% лиц старше 51 года (возрастное распределение читателей местной библиотеки в публикации не указано). Вывод ясен: читающих на обоих языках мало в первую очередь потому, что представители старших когорт грамотны лишь на родном языке.
По каждому разрабатываемому вопросу важно четко различать отсутствие явления, неприменимость вопроса к какой-либо категории респондентов, отсутствие данных (например, ввиду неполного заполнения вопросника) и, конечно, не смешивать эти данные с ответами тех, кто в явном виде затруднился ответить. Учитывая эти факторы, исследователь приступает к обработке результатов по каждому вопросу анкеты.
В статистике способ упорядочения информации называется измерением. В процессе измерения ряду социолингвистических фактов ставится в соответствие некоторое множество чисел. Данные могут измеряться с различным уровнем точности.
Номинальная шкала лишь классифицирует данные, указывает, к какой группе они принадлежат: значениям "мужской пол"-"женский пол" или ответам типа "да"-"нет" могут быть присвоены как значения 0-1, так и значения 1-0 или 2-1, за числами не скрывается ничего, кроме разнесения данных по определенным категориям. Номинальная шкала может быть и многозначной - таковы, например, данные о языке, на котором получено образование.
При порядковой шкале данные получают числовую оценку, которая указывает лишь на их иерархию, порядок следования, но о количественном значении признака говорит лишь очень условно. Например, шкале ответов типа Только А - Чаще А –А и Б - Чаще Б - Только Б может быть сопоставлен числовой ряд 1 – 2 – 3 – 4 – 5, но это не означает, что различие в оценках 1 и 2 (Только А и Чаще А) в точности таково же, как и между оценками 3 и 4 (А и Б и Чаще Б). Неравномерность порядковой шкалы не мешает ее использованию в социолингвистике. Вот, например, как выглядит шестибалльная шкала степени владения языком: 1 – свободно говорит на языке и предпочитает этот язык всем остальным; 2 – свободно говорит на языке, но предпочитает какой-либо другой язык; 3 – говорит на языке, однако старшие замечают в его речи ошибки; 4 – хорошо понимает речь, но сам способен произнести лишь десяток обиходных фраз; 5 – понимает общий смысл сказанного, говорить не может совершенно; 6 – не знает языка [Бахтин 1984: 70–71]. Несмотря на свою "импрессионистичность", эта шкала служит хорошим инструментом при описании языковой ситуации. Вот какие результаты по степени владения эскимосским и русским языками получил Н. Б. Бахтин при обследовании эскимосов, живших в 1984 г. в нос. Си-реники (по итогам интервью, опросов, наблюдений баллы были выставлены всем жителям поселка, а затем усреднены для каждой возрастной когорты) – табл. 3:
Таблица 3
Владение языком | Возраст говорящих | |||||
старше 60 | 51-60 | 41-50 | 31-40 | 21-30 | 11-20 | |
Эскимосским | 1,0 | 1,2 | 1,8 | 2,9 | 4,2 | 5,1 |
Русским | 4,5 | 2,4 | 1,7 | 1,0 | 1,0 | 1,0 |
Эти данные очень наглядно и вполне объективно иллюстрируют темпы вымирания эскимосского языка.
На шкале, которая называется интервальной, величины отражают равные единицы измерения и могут сопоставляться не только по упорядоченности, но и по расстоянию. В действительности в применении к большинству социолингвистических (и социологических) измерений точнее будет говорить о примерном равенстве расстояний между единицами шкалы. Примером использования интервальной шкалы в социолингвистике является известная работа У. Лабова о централизации дифтонга /aw/ у носителей американского варианта английского языка, живущих на о. Мартас-Винь-ярд [Лабов 1975а: 206-213]: "архаичной" реализации [аи] был присвоен балл 0, наиболее центрированной [эй] – 3; баллы 1 и 2 получили промежуточные варианты произнесения центрального гласного дифтонга. Информантам предлагались списки слов, где дифтонг находился в разных позициях: перед глухим шумным (как в out), перед звонким (как в found), в абсолютном исходе (как в now). Для каждого из 69 информантов в результате усреднения числовых значений, приписанных каждому произнесению слова из списка, был подсчитан показатель централизации. У отдельных индивидов он колеблется от 0,10 до 2,11, при этом наблюдается отчетливая связь с возрастом информанта. Средние показатели в пределах 15-летних когорт таковы (табл. 4):
Таблица 4
Показатель централизации дифтонга /aw/ | Возраст говорящих | ||
31-45 | 46-60 | 61-75 | Более 75 |
0,88 | 0,44 | 0,37 | 0,22 |
Интервальные шкалы разделены на равные расстояния, но сама единица измерения имеет довольно условный характер, она не существует вне процесса измерения. Так, в описанном исследовании Лабова степени централизации дифтонга можно было бы измерять не от 0 до 3, а от 1 до 3, или достаточно произвольным образом менять масштаб измерения, введя не четыре позиции, а пять или шесть[86]. В том случае, если единица измерения получает четкую наглядную интерпретацию, говорят о количественной шкале. Такими шкалами измеряется, например, возраст (нет нужды пояснять, что единицы в таком случае вполне реальны) или число испытуемых. Социолингвистика широко пользуется этим типом измерения при описании подходящих характеристик населения, хотя выявляемые в ходе описания переменные пока не удавалось привязать к количественным шкалам.
Приведенные примеры иллюстрируют такое важное понятие, как зависимость двух переменных: одна из них (и у Бахтина, и у Лабова – возраст) независимая и обусловливает степень выраженности второй, зависимой переменной (владение языками, степень централизации дифтонга). Фактически часто наблюдается взаимодействие переменных – когда две или более независимых переменных воздействуют на зависимую. В цитированной работе У. Лабов специально стремился к социальной однородности информантов: "Всё это янки, принадлежащие к числу исконных поселенцев острова; все они связаны различными родственными отношениями, многие принадлежат к одной семье; все одинаково относятся к своему острову. Все они получили деревенское воспитание и все, за одним исключением, были плотниками или рыбаками" [Лабов 1975-210].
Зависимость переменных иначе называют корреляцией. Корреляция может быть положительной (переменные возрастают или убывают одновременно) или отрицательной, когда они изменяются в разных направлениях. Так, у эскимосов наблюдается положительная корреляция возраста с уровнем владения этническим языком (т. е. чем старше человек, тем выше его уровень владения этническим языком) и отрицательная – по владению русским: чем старше человек, тем ниже его уровень владения русским языком. (Тут мы еще раз убеждаемся в условности единиц при неколичественном измерении: степень владения языком тем выше, чем ниже ее числовое выражение.) О корреляции говорят и при номинальных измерениях: так, уровень двуязычия часто коррелирует с полом (билингвов больше среди мужчин) или с родом занятий (билингвов больше среди торговцев, чем среди крестьян).
Наличие корреляции не обязательно говорит о причинно-следственной связи: оба сопоставляемых показателя могут зависеть от третьего или быть связаны с ним не вполне тривиальным образом. Только что упомянутые половые различия в знании языков связаны, разумеется, не с физиологическими различиями полов, а с половыми стереотипами поведения, которые, по этнографическим данным, не обладают универсальностью. Показатель пола в данном случае является всего лишь удобным ярлыком для обозначения трудноформализуемых сложных поведенческих комплексов. Другой пример – связь языка, которым пользуются в быту и в рабочем коллективе, с национальностью коммуникантов. Выбор языка общения определяется языковым репертуаром контактирующих индивидов, в частности их родными языками (и массой других факторов, о которых в соответствующем месте говорилось достаточно подробно). Взаимосвязь этнической идентификации и родного языка очевидна, но их корреляция может быть устроена сложно. При обработке результатов обследования использование языков надо связывать не с национальностью, а с родными языками респондентов. На практике это делается далеко не всегда.
Вернемся к результатам микропереписи населения России 1994 г., показывающим, какой язык (этнический или русский) используется представителями разных народов в различных ситуациях в пересчете на 1000 человек. Для большинства народов русский и этнический языки в сумме дают цифру, близкую к 1000; "третьим" языком среди 1000 татар дома пользуются 4 человека, на работе – 2, среди украинцев – 1 и 1, среди немцев – 1 и 0, среди аварцев – 13 и 2, среди даргинцев – 6 и 4, среди ингушей – 8 и 1, среди тувинцев и калмыков – 0 и 0, среди карачаевцев – 1 и О и т. д. Однако для некоторых народов число использующих "третий" язык довольно велико. Вот каковы данные микропереписи (табл. 5):
Таблица 5
Язык, используемый дома | Язык, используемый на работе | |||||
этнический | русский | другой | этнический | русский | другой | |
Башкиры | ||||||
Эвенки | ||||||
Эвены | ||||||
Юкагиры |
Вполне очевидно, что причины использования "третьего" языка во всех этих случаях связаны с хорошо известными процессами языковой ассимиляции, и у башкир этот другой язык – татарский, а у трех остальных народов – якутский. Картина была бы более объективной, если бы разработка велась по двум направлениям: родной язык в зависимости от национальности и языки коммуникации в зависимости от родного языка (понятие родной язык, конечно, надо было пояснять).
Взаимозависимость переменных представляется в табличном или графическом виде. Графическим представлением служит либо собственно график зависимости, когда по осям координат располагаются числовые значения сопряженных переменных, либо диаграмма. Почти всегда исходной является табличная форма. Она может быть использована и при представлении данных, но важнейшее ее назначение – быть инструментом анализа, помочь структурировать полученные данные, яснее понять выявляемые закономерности. Графическое представление табличной информации может быть решено по-разному, чаще всего – в виде столбчатых диаграмм, отражающих соотносимые величины линейно, или в виде круговых диаграмм (гистограмм), разделенных на пропорциональные соответствующим величинам сектора.
Конечной задачей социолингвистического исследования является обнародование полученных выводов. Форма их подачи во многом зависит от того, кому адресована публикация. Если публикация рассчитана на массового читателя, предпочтение отдается наглядным диаграммам. Профессионала же интересуют более точные и детализированные сведения, которые легче получить при табличном представлении результатов. Читатель-специалист оценивает не только выводы, но и надежность тех исходных данных, на которых они базируются. Задача публикатора – убедить в достоверности и показательности собранного материала и аргументировать выводы. А для этого полезно эксплицировать обоснованность выборки, методику сбора и обработки той первичной информации, на анализе которой строятся выводы; перестараться здесь невозможно[87]. Важно иметь в виду, что существенная часть социолингвистических исследований строится на сопоставлении ранее опубликованных результатов, а сама возможность сопоставления результатов, полученных разными авторами, зависит от степени сходства использовавшихся методик.