Зучив предложенный материал, TextAnalyst формирует семантическую сеть - интегральное представление смысла текста, служащее основой для всех видов дальнейшего анализа
апускаем программу TextAnalyst и открываем в ней наши сохраненные тексты
Окно открытья файла формата «.txt»
Загруженный текст «ТПУ»
Загруженный текст «ТГУ»
Загруженный текст «ТУСУР»
зучив предложенный материал, TextAnalyst формирует семантическую сеть - интегральное представление смысла текста, служащее основой для всех видов дальнейшего анализа
Семантическая сеть - это множество понятий текста - слов и словосочетаний, связанных между собой по смыслу. В семантическую сеть включены не все слова текста, а лишь наиболее значимые, несущие основную смысловую нагрузку. При этом в сеть не входят общеупотребимые слова, а также слова, очень редко встречавшиеся в тексте.
Содержание предстает в агрегированном виде, так называемым смысловым портретом. При этом каждое понятие, многократно повторявшееся в различных местах текстов, представляется в сети единственным элементом.
Для отображения в один элемент сети различные формы слов, приводятся к общей грамматической форме. К каждому понятию сети предлагается список других понятий, в сочетании с которыми оно встречалось в предложения текста, а также список всех предложений, в которых понятия употреблялось.
Таким образом, происходит аккумулирование информации, касающейся понятий, которая ранее была разбросана по всему тексту.
Семантическая сеть текста «ТПУ»
Семантическая сеть текста «ТГУ»
Семантическая сеть текста «ТУСУР»
В результате по каждому понятию - теме текста - можно увидеть сразу всю информацию, буквально бросив единственный взгляд на набор его связей в семантической сети. В результате, передвигаясь по смысловым связям от понятия к понятию, можно находить и прицельно исследовать лишь интересующие места текстов, не затрудняя себя просмотром всей имеющейся информации.
Каждое понятие семантической сети характеризуется числовой оценкой - смысловым весом. Связи между парами понятий, в свою очередь, также имеют характеристики - веса связей. Эти оценки позволят сравнить относительный вклад различных понятий и их связей в общий смысл текста, выявить более или менее подробно проработанные темы, задать способ сортировки информации и исследовать текстовый материал по пластам - смысловым срезам различной глубины.
Семантическая сеть текста «ТПУ» с выборкой ключевого слова «ТПУ»
Семантическая сеть текста «ТГУ» с выборкой ключевого слова «ТГУ»
Семантическая сеть текста «ТГУ» с выборкой ключевого слова «уиверситет», включающая семантическую связь со словом «ТГУ»
Семантическая сеть текста «ТУСУР» с выборкой ключевого слова «ТУСУР»
Ближайшее к понятию число представляет его смысловой вес. Значение варьируется от 1 до 100 и отражает важность понятия для смысла всего текста - как много информации в тексте касается данного понятия. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. Маленькое, близкое к единице значение показывает, что соответствующая тема лишь вскользь упомянута в тексте, и в тексте мало информации, относящейся к данному понятия. Второе число представляет вес связи от вершинного понятия раскрытого списка к данному понятию. Вес связей также может принимать значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия - первая тема почти всегда излагается в контексте второй. Малое единичное значение отражает тот факт, что первое понятие слабо связано со вторым и очень мало информации по первой теме касается в тоже время и второй.
Cвязь между парой понятий сети всегда двустороння, однако связь от первого понятия ко второму далеко не всегда имеет тот же самый вес, что и обратная, от второго к первому.
еферирование текстов
Для самого быстрого ознакомления с содержанием текстов в TextAnalyst можно воспользоваться функцией автоматического реферирования. Формируемый реферат содержит список наиболее информативных предложений текстов, отражающих основные смысловые связи между главными понятиями семантической сети. Тезисы не связаны между собой стилистически, а попросту взяты из текста и расположены в порядке их встречаемости. Однако и такой "подстрочник" оказывается достаточно информативным, чтобы составить общее представление о тексте и уяснить его основные идеи. Кроме того, все предложения реферата снабжены отсылками к соответствующим местам исходных текстов, что позволяет просмотреть контекст интересующего тезиса. Подробность реферата можно легко настраивать, изменяя количество формирующих его предложений. При этом каждое предложение реферата характеризуется относительной степенью своей значимости для всего текста.
Реферирование текста «ТПУ»
Реферирование текста «ТГУ»
Реферирование текста «ТУСУР»
Таким образом, проанализировав тексты университетов посредством программы TextAnalyst, можно прийти к следующим выводам:
Текст «ТГУ» имеет самую богатую из всех семантическую сеть (ТПУ – 17 пунктов, ТГУ – 39 пунктов, ТУСУР – 17 пунктов), но и объем самого текста у «ТГУ» больше - 50 предложений, против 30 – ТПУ, 19-ТУСУР. Количество узлов семантической сети больше у текста «ТГУ» (ТПУ – 27, ТГУ – 52, ТУСУР – 18)
В целом, анализируемый текст составлен и направлен на знакомство абитуриентов с университетами с целью сформировать у поступающих положительное представление о вузе. В семантической сети это подчеркивается словами: «элитный инженерный» для «ТПУ», «государственный» для «ТГУ», «инновационный» для «ТУСУР».