Слова ограниченного употребления
Диалектизмы -слова, не входящие в общелитературный язык, а употребляемые в отдельных диалектах – областных разновидностях языка. Диалектные особенности проявляются в произношении, грамматике и, конечно, в лексике. Некоторые диалектные слова совсем непонятны людям, живущим в другой местности.
Профессионализмы– это слова, активно употребляемые людьми определённых профессий. В словарях обычно делаются пометы: мор. - морское, строит. – строительное и т.п. Иногда профессионализмы – это слова с необычным ударением или формой множественного числа. Пример: компа´с
Термины -это узкоспециальные слова, известные и понятные специалистам и тем людям, которые изучают науки в школе или университете. корень, суффикс, приставка, окончание, основа слова, подлежащее, сказуемое
Жаргонизмы– это слова, принятые в каком-либо определённом кругу людей, например среди школьников, студентов, актёров, спортсменов. Сегодня один из жаргонов связан с миром компьютеров и их использованием. Примеры таких жаргонизмов: железо, игрушки, клава. Примеры из студенческого жаргона: хвост, шпора, из актерского: ввод, ввести (при введении нового актера на какую-то роль в спектакле).
Языковедческое понятие жаргон соотносится с общеупотребительным словом сленг. Но это не одно и то же. Сленг распространяется на более широкие слои людей. Например, молодёжный сленг, который, включая школьный и студенческий жаргоны, не ограничивается ими. Считается, что сленг – это использование языка для неформального общения. Поэтому для сленга характерна повышенная эмоциональность: Забей! (не обращай внимания, не думай!), Не парься! (не заботься, не беспокойся!), Меня прёт от этого музона (эта музыка сильно на меня воздействует).
Арго – специально составленный тайный язык, например, используемый в преступной среде. Перо – нож, ствол - пистолет,щипач – карманник. Эти слова знакомы нам по книгам и фильмам. Но большинство слов арго непонятно обычным людям.
- Частотные словари: структура, функции, составление.
ЧС — обычно одноязычны, представляют собой набор слов языка вместе с информацией о частоте их встречаемости. ЧС различают по целям: Учебные, Лингвистические, Статистические, По входным единицам (лексемы, словосочетания, словоформы), По численным характеристикам, По технике составления.
1.Имеются следующие варианты оформления:
Алфавитный – леммы упорядоч. по алфав., с указанием частотности (самый частовстречаемый). Может быть прямым(А-Я) или обратным(сперва слова ОКАНЧИВАЮЩИЕСЯ на А, и так далее до Я)
Ассоциативная – леммы располагаются в порядке ассоциаций (идеографические словари (разновидность) – когда слова вокруг картинки)
Частотный – леммы упорядочиваются по рангу.
2.ЧС обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры корпусов могут быть различны, более надежная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, ipm, instances per million words).Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.
3. Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора и из него извлекается нужный материал.
Проблемы при создании ЧС:
• воспроизводимость (будут ли результаты идентичны на другом аналогичном корпусе),
• всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию в частотном списке),
• сложности определения позиции (ранжировки) менее частотных слов.
Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа – в яз есть малое кол-во оч частых слов, а остальное большинство используется сильно реже).
Закон Ципфа — эмпирическая закономерность распределения частоты слов естественного языка: если все словаязыка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.
- Закон Ципфа и его интерпретации. Частотно-ранговые распределения.
В 1949 году Джордж Кингсли Ципфзаметил, что некоторые слова используются значительно чаше других. На основе статистических измерений Ципф сформулировал принцип наименьшего действия в социально-экономической сфере: Ресурсы самоорганизуются так, чтобы свести к минимуму затраченную работу. Четвертая часть любого ресурса приносит три четверти результата.
Закон Ципфа — эмпирическая закономерность распределения частоты слов естественного языка: если все словаязыка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.
Закон Ципфа математически описывается распределением Парето.
Критика: Американский специалист по биоинформатике Вэньтянь Ли предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону[12]. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное значение для лингвистики.
В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале). Потому произведение ранга слова на его частоту есть константа.
Сегодня под законом Ципфа чаше всего подразумевают закономерность «ранг — частота», известную также как «универсальное гиперболическое ранговое распределение»: Если составить список из всех слов текста и отсортировать его в порядке убывания частоты(F) используемости слов, то для любого слова произведение его порядкового номера(R) в этом списке на частоту использования будет равно постоянной величине(C).
FR =C — в классическом виде
FRY=C — с поправкой Мандельброта
· F – частота используемости слова;
· R – порядковый номер;
· С – постоянная величина;
· Y – близкая к единице переменная величина, меняющейся в зависимости от параметров текста.
Значение константы для разных языковых групп различно и незначительно меняется в зависимости от характеристик текста. Для русских текстов отношение константы (С) к количеству слов в тексте приблизительно равно 0,08 для английских 0,1
Ранговые распределения возникают, как известно, при изучении количественных характеристик текстов различной природы (литературных, музыкальных и живописных произведений, программ для ЭВМ), классификационных схем и других конструкций. Исследование механизмов, приводящих к построению объектов, характеризующихся ранговыми распределениями, является одним из направлений анализа интеллектуальной деятельности человека и находит приложения в автоматизированных информационных системах.
Частотно-ранговые распределения широко используются при количественном описании объектов в информатике, лингвистике, биологии и многих других областях. Множество работ посвящено различным формам распределений типа Ципфа – Мандельброта (Брэдфорда, Лотка, Парето и др.). При этом среди объектов, характеризующихся ранговыми распределениями, особо выделяют литературные и музыкальные тексты, являющиеся продуктами непосредственной интеллектуальной деятельности человека. В семидесятых годах XX века известный ученый-кибернетик Ю.К. Орлов открыл феномен целостности произведений. Проведенное им сопоставление полученных теоретических соотношений с эмпирическим материалом показало, что закон Ципфа- Мандельброта относительно более точно выполняется на полных текстах крупных литературных произведений и гораздо хуже для их частей или конгломератов. Таким образом, совпадение теоретического («ципфовского») и эмпирического ранговых распределений можно рассматривать как признак высокой организованности, «правильности», «системности» исследуемого объекта, взятого как единое целое.
10. Полисемия слова. Взаимосвязь частоты и полисемия.
Полисемия, многозначность,- наличие у единицы языка более чем одного значения. Многие слова (а также нек-рые грамматические формы слов, фразеологизмы и синтаксические конструкции) имеют не одно, а несколько (два или больше) значений, т. е. (применительно к словам) это значит, что они служат для обозначения различных предметов и явлений действительности. То, что слово выступает в том или ином значении, связывается с особенностями сочетания данного слова с другими словами, иногда контекстом, ситуацией. Каждое из выделенных значений слова регулярно реализуется в определённых словосочетаниях. (цБ «смотреть на улицу», «смотреть» = 'направлять взгляд, чтобы увидеть что-то', и «смотреть за порядком», где «смотреть» = ‘заботиться о ком-н. или о чём-н.')
Между значениями многозначного слова существует определённая семантическая связь, что даёт основание считать их значениями одного и того же слова в отличие от значений слов-омонимов. Эта связь основываться на общих семантических элементах. ( цБ «стена» в толковых словарях: 1) 'вертикальная часть здания, 2) высокая ограда, 3) вертикальная боковая поверхность чего-л. Общий семантический элемент здесь может быть определён как «вертикальная преграда, отделяющая что-то»). Однако бывает так, что значения слов, непосредственно воспринимающиеся как «переносные» (цБ «тень от дерева» и «тень улыбки»), связаны не с основными значениями и не с общими элементами смысла, а лишь теми признаками, к-рые могут быть названы ассоциативными
Развитие многозначности обычно происходит на основе сходства или смежности обозначаемых данным словом предметов и явлений действительности, в связи с чем различают метафорические и метонимические переносы; (цБ значения слов ножка, горлышко в сочетаниях типа ножка стола, горлышко бутылки - языковые метафоры. А вот различные значения слова земля: 1) 'наша планета; место жизни людей', 2) 'суша (в отличие от водного пространства)', и т. д. – есть метонимические связи).
Значения многозначного слова образуют определённое семантическое единство. Различают первичные (основные, главные, прямые) и вторичные (производные, переносные) значения. Первичными можно считать наименее контекстно обусловленные значения (ср.: тяжёлый - 'имеющий большой вес' и тяжёлый - 'трудный').
Взаимосвязь:
Изучение многозначности лексики имеет важное значение для стилистики. Наличие различных значений у одного и того же слова объясняет особенности употребления его в речи, влияет на его стилистическую окраску. Так, различные значения слова могут разойтись стилистически. Например, слово "дать", стилистически нейтральное в сочетаниях дать книгу, дать совет и т.п., приобретает разговорную окраску в восклицаниях, призывающих к осуществлению чего-нибудь или содержащих угрозу (Мишка, открыв клавикорды, играл на них одним пальцем… - Тетенька, я полегоньку, - сказал мальчик. - Я те дам полегоньку. Постреленок! - крикнула Мавра Кузьминична, замахиваясь на него рукой. - Л. Т.). Со значением «ударить» этот глагол используется в просторечии [- Смотрю, - рассказывает егерь, - этот самый Мишка (олень) стоит возле меня, голову нагнул, глаза кровью налились, и собирается дать мне (Пришв.)]. Глагол дать употребляется и в выражениях, имеющих профессиональную окраску (Дав лошадям шпоры, полковник с есаулом понеслись галопом к площади. - Н.О.).
Полисемичное слово может иметь разную лексическую сочетаемость. Например, слово низкий в своем основном значении «малый по высоте, находящийся на небольшой высоте от земли, от какого-нибудь уровня», имеет широкие границы лексической сочетаемости (низкий человек, рост, гора, берег), но, выступая в значениях «плохой» или «подлый, бесчеловечный», сочетается далеко не со всеми словами, к которым подходит по смыслу (нельзя сказать: «низкое здоровье», «низкие знания»).
В составе многозначных слов выделяются такие, у которых развиваются противоположные значения. Например, "отходить" может означать «приходить в обычное состояние, чувствовать себя лучше», но это же слово может означать «умирать» (отойти в вечность). Развитие противоположных значений у одного слова называется внутрисловной антонимией (антонимией значений), или энантиосемией.
Многозначные слова наиболее употребительны, они имеют достаточно обобщенные значения; однозначные слова отличаются либо предельной конкретностью семантики (как имена собственные), либо узкопредметным значением (бинокль, бинт). Однако однозначное слово со временем может проявить заложенную в нем способность к полисемии.
Лингвисты неоднозначно оценивают явление многозначности в языке. Некоторые ученые считают, что в «идеальном» языке слово должно иметь лишь одно значение. Однако это может показаться удобным только на первый взгляд, на самом деле «однозначность» слов уменьшила бы возможности языка, лишила бы его национального своеобразия. Большинство ученых справедливо видят в многозначности слов проявление силы, а не слабости языка. Как утверждают некоторые лингвисты, в русском языке процентов 80 всех слов имеют не одно, а несколько значений. Подсчитать их нет никакой возможности, и не потому, что у некоторых слов этих значений слишком много (иногда до сорока), а потому, что язык постоянно пополняется новыми лексическими значениями, которые даже не успевают фиксировать словари.
Многозначность свидетельствует о неограниченных возможностях языка, так как богатство словарного состава языка заключается не только в количестве слов, но и в разнообразии их значений, в способности лексем получать все новые и новые семантические оттенки. Развитие у слов новых значений дает простор творческому использованию лексических запасов языка.
11. Вероятностная модель семантики.
Основное наше утверждение может быть сформулировано следующим образом: как в обыденном языке, так и во многих других языках с каждым знаком вероятностным образом связано множество смысловых значений. Можно говорить об априорной функции распределения смысловых значений знака. Это распределение может быть построено, скажем, так: приемник имеет в своем сознании некоторое представление о возможных смысловых значениях знака, одни из них имеют бóльшую вероятность появления, другие – меньшую и т. д. Все это может быть представлено функцией распределения, построенной так, что по оси абсцисс отложены ранги смысловых значений, установленные по вероятности их появления, по оси ординат отложены сами вероятности. Шкала абсцисс может мыслиться и как непрерывная – смысловыми единицами могут быть нечетко разграниченные участки этой шкалы, так же, как, скажем, нечетко разграничены цвета на волновой шкале для спектра белого света. Если мы посмотрим на словари – толковые или двуязычные, то увидим, что каждому слову, находящемуся на «входе» словаря, дается несколько, иногда даже много, разъяснительных текстов. Эти разъяснительные тексты обычно упорядочиваются по силе их связи со словом на входе. Таким образом, представление о функции распределения смыслового содержания слова в неявном виде оказывается заложенным в структуре наших словарей. Там смысловое содержание знака представлено в виде семантического поля, элементы которого упорядочены по линейной шкале. Мы хотим это упорядочивание усилить, приписав участкам смысловой шкалы вероятности, с которыми они ассоциируются со знаком. Эти вероятности возникают в сознании приемника-субъекта, и потому соответствующие им функции распределения могут быть названы априорными, или, как еще иногда говорят, субъективными, или персональными
Два примера такого упорядоченного представления семантического поля даны на рис. 3. При составлении функций распределения здесь использовались как результаты анализа слов «игра» и «читать», приведенные в Исследованиях Витгенштейна [Wittgenstein, 1953], так и данные, приведенные в толковых словарях Вебстера и Даля.
Ясно, что у лица с другой интеллектуальной настроенностью эти функции распределения могут оказаться совершенно иными, особенно это относится к слову «игра». Легко представить себе человека, для которого это слово будет ассоциироваться прежде всего с представлением об азартных играх и уж никак не будет связано с одним из разделов математики.
Эта априорная вероятность создает вход в систему восприятия читаемого текста. Процесс чтения, понимаемый здесь в широком смысле как некоторая процедура восприятия текстов, образованных из тех или иных знаков, позволяет образовать функцию распределения р(у/μ); она задается многими факторами: способом комбинирования читаемого знака с другими знаками фразы, и общей эмоционально-интеллектуальной настроенностью «приемника», и его внимательностью в момент чтения. Последние два обстоятельства вносят тот же элемент неопределенности, что и ошибка в обычных физических измерениях. Во всяком случае, об ошибках семантического восприятия знака можно говорить так же, как и об ошибках в любых других измерительных процедурах, и здесь столь же естественно вводить представление о функции распределения. Аналогия здесь может быть продолжена сколь угодно далеко. Представьте себе, скажем, что вы делаете спектрохимическое определение какого-либо элемента в сложной по своему составу пробе. Ошибки анализа прежде всего будут зависеть от общего состава пробы и от того, в каком физическом состоянии проба находится; далее, они будут зависеть и от внимательности лаборанта, и от неизбежной невоспроизводимости всех элементарных измерительных процедур.
Разные люди могут и по-разному читать знаки. Расхождение в результатах чтения одного и того же текста разными людьми, по-видимому, всегда больше, чем ошибка понимания при повторном чтении одного и того же текста одним и тем же человеком. То же самое происходит и с физическими измерениями: ошибки межлабораторной воспроизводимости всегда оказываются больше ошибок внутрилабораторной воспроизводимости.
Изложенная выше модель исходит из глубокой аналогии, существующей между процессом измерения и его интерпретацией, и процессом чтения знаковой системы. Она может быть противопоставлена известной концепции логического атомизма Фреге, Рассела и раннего Витгенштейна (см., например, [1958]). Логическим атомам – элементарным и неделимым частицам смысла – мы противопоставляем непрерывную функцию распределения смысловых значений, и это противопоставление идет еще дальше – мы полагаем, что смысл не может быть приписан знаку до прочтения текста, хотя и имеем некоторое априорное представление о смысловом поле знака, точно так же, как нельзя измеренному значению в физическом эксперименте приписать те доверительные границы, о которых мы имели представление до эксперимента. Аналогию с физическим экспериментом можно продолжить. Если мы имеем дело с непрерывно изменяющейся случайной величиной, то вероятность того, что мы при измерении попадем в строго фиксированную точку, равна нулю. Таким же вырожденным случаем будет представление о некотором единственном и строго фиксированном значении знака.