Информационно поисковый язык

Информационные языки — специализированные искусственные языки, используемые в различных системах обработки информации. От информационных языков следует отличать языки программирования, машинные языки и формализованные языки науки. Обычно различают:

· информационно-логический язык — язык для информационно-логических систем. В первую очередь, языки представления знаний (напр., SC, SCP, SCL) и языки баз данных (напр., SQL).

· информационно-поисковый язык — знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Примером информационно-поискового языка является язык библиографического описания, который служит средством идентификации текстов и используется в алфавитных каталогах, картотеках и библиографических указателях. В его составе — библиографические элементы (фамилии авторов, заглавия, названия учреждений, периодических изданий и т. п.). Другим примером информационно-поискового языка являются языки обращений к поисковым системам Yandex или Google.

Между логическими и поисковыми языками нет принципиальной разницы, так как многие информационные языки могут использоваться как в одной, так и в другой системе. Любые информационные языки должны обеспечивать однозначную запись информации и её последующее распознавание с определённой полнотой и точностью, а информационно-логический язык, помимо этого — формализацию логического вывода.

Типы инфор-поискового языка

Структура[править | править вики-текст]

В ИПЯ можно выделить алфавит, лексику и грамматику.

· Алфавит — совокупность определенных символов для записи слов и выражений. Во многих языках для этого используются символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.

· Лексика — совокупность всех использующихся в языке слов — лексических единиц.

· Грамматика — правила составления выражений. Грамматика во многих ИПЯ формальна, а в некоторых вообще отсутствует.

Для упорядочения лексических единиц при построении лексики служат парадигматические отношения, то есть смысловые отношения между лексическими единицами. Эти отношения устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска.

Способ задания лексических единиц[править | править вики-текст]

1. Контролируемые — языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные системы классификации (УДК, ББК, классификация Дьюи).

1. Язык предметных рубрик. На основе иерархической классификации строят систематические каталоги. На основе языка предметных рубрик строят предметные каталоги. Алфавитные каталоги — ручной поиск.

2. Дескрипторные ИПЯ, а также язык ключевых слов — автоматический поиск.

2. Неконтролируемые — лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последнее время.

Порядок записи лексических единиц[править | править вики-текст]

1. Некоординируемые языки — не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска. (система расстановки книг в библиотечном фонде, по инвентарным номерам).

2. Координируемые ИПЯ — языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.

1. Предкоординируемые — связи между лексическими единицами устанавливаются перед поиском.

2. Посткоординируемые — когда связи между лексическими единицами устанавливаются только при поиске

80. Правовой тезаурус в общем смысле — специальная терминология, более строго и предметно — словарь, собрание сведений, корпус или свод, полномерно охватывающие понятия, определения и термины правовой области знаний или сферы деятельности, что должно способствовать правильной лексической, корпоративной коммуникации (проще говоря — пониманию в общении и взаимодействии лиц, связанных одной дисциплиной или профессией); в современной лингвистике— особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами. Т.е. это изложение определенных теоретических понятий и определений, виды словарей, энциклопедий и т.д.

43. Правовой тезаурус.

правовой тезаурус – это логико-семантическое собрание ключевых слов и дескрипторов, применяемых в качестве лингвистического обеспечения и использования АИПС правовой информации.

Информационно-поисковый язык. Правовой тезаурус.

Одной из важных задач правовой информатики является лингвистическое обеспечение правотворческого процесса. Право не существует вне языка.

Ст.2 Закона об информации относит к средствам обеспечения автоматизированных информационных систем также и лингвистические средства.


В системе лингвистических средств обеспечения АИПС первое место занимает информационно-поисковый язык (ИПЯ).

В широком смысле язык – это знаковая система, используемая для сбора, хранения, обработки и передачи информации.

ИПЯ – это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью их последующего хранения и поиска.

ИПЯ по законодательству должен обеспечивать:

Эффективную формализацию правовых норм и нормативных актов

Высокую скорость поиска на компьютере информации

Оптимальный перевод нормативного текста с юридического языка на язык, доступный ЭВМ

Минимальный «шум», т.е. сведение к минимуму выдачу компьютером излишней информации

Полноту информационного поиска, т.е. получение всей необходимой информации для решения конкретных задач правотворчества

Любая информация для того, чтобы быть переделанной, должна соответствующим образом кодироваться, т.е. переводиться на язык специальных символов или сигналов.

Теория информационного поиска различает следующие типы ИПЯ:

Языки предметного типа – это алфавитно-предметные указатели к сборникам и отдельным нормативным актам и широко распространенные алфавитно-предметные рубрикаторы.

При использовании этого языка основная тема документа выражается одним или несколькими типовыми словами – рубриками. Например, существуют предметно-алфавитные указатели к Конституции РФ, к ГК РФ.

Язык классификационного типа – представляет собой классификатор отраслей законодательства.

Язык дескрипторного типа – обладает большой «семантической силой», т.е. способен полностью передавать смысл нормативных актов, выразить комбинацией дескрипторов (ключевое слово – объединяющее группу ключевых слов) любое понятие, характеризуются высокой степенью отражения смысла документов, наличием ключевых слов.

Дескрипторные ИПЯ делятся на:

языки, в которых не различаются логико-смысловые отношения между понятиями

языки, которые содержат в своем составе логико-смысловые отношения.

(особо) правовой тезаурус – это логико-семантическое собрание ключевых слов и дескрипторов, применяемых в качестве лингвистического обеспечения и использования АИПС правовой информации.

Задача – упорядочить и привести в систему лексические средства, используемые в правотворческом процессе.

В информатике тезаурус выполняет следующие функции:

используется для организации информационного поиска (информационно-поисковый тезаурус)

используется как лингвистическое средство в процессе решения правотворческих задач (полный словарь терминов, определения юридических понятий, комментарии, данные о количестве дескрипторов)

используется как средство, измеряющее смысл сообщения (тезаурус пользователя – совокупность сведений, которыми располагает пользователь)

выступает в качестве важнейшего средства поиска латентной информации

Существуют тезаурусы различных типов:

общеправовой (102 тысячи слов и словосочетаний). Сейчас не применяется.

Тезаурус, специализированный по отраслям права. (например, Eurovoc).

44. Индексирование и рубрицирование правовой информации.

Подготовка правовой информации к машинной обработке:

метризация; кодирование; индексирование и рубрицирование.

В широком смысле под метризацией понимается описание определенной совокупностью числовых характеристик. В зависимости от того, что используется в качестве характеристик выделяют два типа метризации: а) подсчет; б) измерение.

При измерении и подсчете в качестве средства выражения используются натуральные числа. При измерении используются единицы меры.

Объектами измерения могут выступать любые предметы материального мира, обладающие любыми свойствами, которые могут быть измерены или характеризуются количественными данными.

Под метризацией правовой информации следует понимать такую процедуру ее обработки в результате которой субъект юридической деятельности получает количественные характеристики тех или иных параметров объекта познания.

Характеристики, полученные в результате измерения, могут выражаться как в абсолютных величинах, так и в относительных.

Кодирование правовой информации – это такая операция, при которой определенные данные заменяются сокращенными условными обозначениями (цифры, числа). Обратная операция называется декодированием.

Комбинацию символов называют кодом, а количество символов, входящих в кодовую операцию называют длина кода.

Для кодирования правовой информации используется несколько способов: точечный, контурный, точечно-зональный.

Одним из видов формализации правовой информации является индексирование – это процесс отбора из текста терминов (ключевых слов), которые, по мнению специалиста – юриста, отражают основное содержание темы. Далее такие термины преобразовывают в форму информационно-поискового языка.

Рубрицирование – это процедура присвоения определенной теме нормативного акта или запроса соответствующего индекса из рубрикатора, в котором за каждой темой закреплен свой индекс.

Метризация и кодирование.

Метризация. В широком плане под метризацией обычно понимается описание какого-либо объекта определенной совокупностью числовых характеристик. Непосредственным объектом метризации, в частности измерения, всегда является та или иная физическая величина, обычно именуемая параметром объекта познания. Вот почему данные, получаемые в результате этой процедуры, правомерно называть параметрической или измерительной информацией.

С учетом этого под метризацией правовой информации следует понимать такую процедуру её обработки, в результате которой субъект юридической деятельности получает количественные характеристики тех или иных параметров объекта познания.

В зависимости от того, что избирается в качестве такой характеристики и что ею желают выразить, различают два вида метризации:

- Подсчет. При подсчете в качестве средства выражения интересующих нас данных используют натуральные числа (например, указывают, что в данном регионе за названный период было выявлено 20 случаев нарушения законности при рассмотрении гражданских дел в судах).

- Измерения. При измерениях в качестве средства выражения полученных данных наряду с натуральным числом используются принятые для данного вида измерений соответствующие единицы меры.

Метризация осуществляется с помощью измерительных приборов[2].

- Кодирование. В широком смысле под кодированием понимаются операции замены каких-либо данных (например, текстовых) сокращенными условными обозначениями, как правило, цифровыми или символами [9, с. 251]. Обратная операция называется декодированием. Обычно эти операции используются как средство представления информации, характеризующей индивидуальные особенности объекта или исследуемого события, в виде последовательно расположенных символов абстрактного алфавита. Комбинацию таких символов называют кодом, а их количество, входящее в определенную кодовую комбинацию, - её длиной. Кодовые символы могут иметь различную форму. Чаще всего это цифры, буквы какого-либо алфавита, а также различного рода условные знаки и их сочетания (точка и тире, математические символы и т. п.).

Наши рекомендации