Ематическая структура текстов
емантическая структура текстов
Программой TextAnalyst производится анализ семантической сети данных текстов: информации для поступающих.
· TextAnalyst формирует сеть основных (наиболее значимых) понятий, содержащихся в представленных ему текстах. Такая сеть служит представлением смысла текста и основой для всех видов дальнейшего анализа. Сеть понятий - это множество терминов из текстов - слов и словосочетаний, связанных между собой по смыслу. В сеть включены наиболее значимые термины, несущие основную смысловую нагрузку.
· Можно сразу увидеть всю информацию по каждому понятию - теме текста, просмотрев набор его связей в сети. Передвигаясь по смысловым связям от понятия к понятию можно исследовать лишь интересующие места текстов.
· При этом каждое понятие, повторявшееся в различных местах текстов множество раз, оказывается представлено в единственном узле сети. В этом узле также собирается разбросанная информация, касающаяся понятия – формируется список предложений, в которых оно употреблялось.
· Каждый элемент сети - понятие характеризуется числовой оценкой – так называемым смысловым весом. Связи между парами понятий, в свою очередь, также характеризуются весами. Эти оценки позволят сравнить относительный вклад различных понятий и их связей в семантику текста, выявить более или менее подробно проработанную в тексте тематику.
· Ближайшее к понятию число представляет его смысловой вес. Его значение (от 1 до 100) показывает, сколь важную роль играет понятие для смысла всего текста – как много информации в тексте касается данного понятия. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. Маленькое, близкое к единице значение показывает, что соответствующая тема лишь вскользь упомянута в тексте и в нем очень мало информации, относящейся к данному понятию.
ТГУ
Семантическую сеть текста на сайте ТГУ составляют такие понятия: вуз, получить, ТГУ, Томска, университетов, рейтингу, студентов, стран, России, научные, университетов страны, международный, томский государственный университет, получают дополнительные стипендии и др. Данные понятия несут основную смысловую нагрузку.
Программа для семантического анализа выявляет наиболее часто встречающиеся элементы текста (слова, устойчивые словосочетания). Подборка слов осуществляется по смысловому весу (числовой оценке). В тексте многократно повторяются такие слова: вузов, получить, ТГУ, Томск, университетов (их вес- 99); рейтингу, студентов (97); стран(95), России(89), научные (87), что говорит о том, что эти понятия являются ключевыми и представляют важнейшие темы текста.
Текст имеет 44 узла.
ТПУ
Семантическую сеть текста на сайте ТПУ составляют такие понятия: вуз, Томский, Томский политех, академика, ГК, исторически, ПАО, крупнейших, университет, элитных инженерных и др. Данные понятия несут основную смысловую нагрузку.
Программа для семантического анализа выявляет наиболее часто встречающиеся элементы текста (слова, устойчивые словосочетания). Подборка слов осуществляется по смысловому весу (числовой оценке). В тексте многократно повторяются такие слова: вуз, Томский, Томский политех- (99); академика, ГК, исторически, ПАО- (97); крупнейших(90) , университет(72), элитных инженерных(68), что говорит о том, что эти понятия являются ключевыми и представляют важнейшие темы данного текста.
Текст имеет 27 узлов.
ТУСУР
Семантическую сеть текста на сайте ТУСУРа составляют такие понятия (в скобках указан смысловой вес): инновационный(99), ТУСУР(98), Томской области(93), лидера(90), экономики(89), университета(81) и др. Перечисленные понятия являются ключевыми и представляют важнейшие темы текста.
Текст имеет 18 узлов.
ематическая структура текстов
· Тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем. Все темы и подтемы выражены в терминах исходных текстов и соответствуют узлам сети понятий. Однако связи между понятиями односторонни и направлены от главного понятия к подчиненным.
· Общий вид тематической структуры отражает смысловую структуру текстов. Так, если вся информация в текстах подчинена единой теме, структура будет иметь вид дерева с единственным корнем. Если же содержание текстов отражает несколько тем, то дерево распадается на целый "лес" независимых кустов, корни которых представляют главные темы, несвязанные друг с другом.
ТГУ
Данный текст имеет структуру дерева с единственным корнем – единая тема ТГУ. Подтемами являются: вузов, научные, поступай в ТГУ, ТГУ- это, выпускников, зарубежными, культурные, партнерами ТГУ, сотрудничает, социальной, теоретических, трудоустройство. В данных понятиях и разворачивается главная тема «ТГУ». Так как текст направлен на абитуриентов, следовательно, в нем содержится информация об университете, которая описывает его с разных сторон.
ТПУ
Содержание текста с сайта ТПУ отражает несколько тем, тут дерево распадается на целый "лес" независимых кустов, корни которых представляют главные темы, несвязанные друг с другом. 2 основные темы и их подтемы: Университет - промышленность, Томский политех; российских- ТПУ. Каждая поддема дополнительно раскрывается и отображает собственное наполнение.
ТУСУР
Текст с сайта ТУСУРа имеет структуру дерева с единственным корнем – единая тема ТУСУР. Подтемами являются понятия: инновационной, университета, бизнес, кадров, предприятий. Подтемы в данном случае помогают понять направления деятельности университета.
втореферат
· Формируемый реферат содержит список наиболее информативных предложений текстов (тезисов)
· Тезисы в основном не связаны между собой стилистически, а просто выбраны из текстов и расположены в порядке их встречаемости
ТГУ
Данный текст является информацией для абитуриентов, поэтому для того, чтобы привлечь внимание поступающих ТГУ окружают эпитетами, яркими словами, разными званиями: университет предстает перед нами как лучший, единственный, ведущий, признанный, научно-образовательный, международный, лидирующий вуз страны.
Программа позволяет создать краткое содержание текста, включающее основные положения и темы.
ТПУ
Благодаря тому, что программа позволяет создать краткое содержание текста, мы можем увидеть его основные положения и темы: ТПУ - это кузница элитных инженерных кадров, опорный вуз, исторически лидирующий, крупнейший среди вузов и т.п.
ТУСУР
Данный реферат удобен тем, что помогает увидеть основные темы текста: в ТУСУРе занимаются развитием инновационной экономики, инновационных проектов, является предпринимательским университетом, лидером в регионе.
Вывод
Программа TextAnalyst удобна в использовании, помогает выявить основные идеи теста без тщательного прочтения. В случае, когда нужно быстро понять смысл текста, данная программа очень удобна.
Проанализировав тексты с сайтов ТГУ, ТПУ и ТУСУРа, составленные для абитуриентов, можно увидеть удобство программы TextAnalyst, которая помогла выявить характеристики и направления деятельности университетов, их сходства и различия, сферы влияния и позиционирование себя среди других вызов страны и мира.