Решение задач обработки данных в пакете NeuroPro

Искусственной нейронной сетью называют некоторое устройство, состоящее из большого числа простых параллельно работающих процессорных элементов – нейронов, соединенных адаптивными линиями передачи информации – связями или синапсами. У нейронной сети выделена группа связей, по которым она получает информацию из внешнего мира, и группа выходных связей, с которых снимаются выдаваемые сетью сигналы. Нейронные сети применяются для решения различных задач классификации и прогнозирования. Нейронная сеть обучается решению задачи на основании некоторой обучающей выборки – "задачника", состоящего из набора пар "вход–требуемый выход", и далее способна решать примеры, не входящие в обучающую выборку. Именно структурные аналогии с устройством реального мозга и наличие процесса адаптации к предъявляемым ситуациям (обучение) дали нейроинформатике название, основные идеи и термины, заимствованные, в основном, из нейробиологии и нейрофизиологии. Нейронные сети интересны в первую очередь как средство решения неформализованных задач прогнозирования и классификации на основе обучающей выборки.

Пакет NeroPro представляет собой менеджер обучаемых искусственных нейронных сетей, работающий в среде MS Windows 95 или MS Windows NT 4.0 и позволяющий производить следующие базовые операции:

1. Создание нейропроекта;

2. Подключение к нейропроекту файла (базы) данных в формате dfb (dBase, FoxBase, FoxPro, Clipper) или db (Paradox);

3. Редактирование файла данных – изменение существующих значений и добавление новых записей в базу данных; сохранение файла данных в другом формате;

4. Добавление в проект нейронной сети слоистой архитектуры с числом слоев нейронов от 1 до 10, числом нейронов в слое – до 100;

5. Обучение нейронной сети решению задачи прогнозирования или классификации. Нейронная сеть может одновременно решать как несколько задач прогнозирования (прогнозирование нескольких чисел), так и несколько задач классификации, а также одновременно задач и прогнозирования, и классификации.

6. Тестирование нейронной сети на файле данных, получение статистической информации о точности решения задачи;

7. Вычисление показателей значимости входных сигналов сети, сохранение значений показателей значимости в текстовом файле на диске;

8. Упрощение нейронной сети;

9. Генерация и визуализация вербального описания нейронной сети, сохранение вербального описания в текстовом файле на диске;

10. Выбор алгоритма обучения, назначение требуемой точности прогноза, настройка нейронной сети.

Меню программы содержит следующие пункты, относящиеся к нейронным сетям и работе с ними:

Файл - базовые операции с файлами:

Создать – создает новый файл проекта. См. Окно проекта.

Открыть – открывает существующий файл проекта.

Сохранить – сохраняет файл. Возможно сохранение файлов проекта, файлов данных, показателей значимости входных сигналов сети, вербального описания сети.

Сохранить как – сохраняет файл под другим именем или в другом формате. Возможно сохранение файлов проекта, файлов данных, результатов тестирования, показателей значимости входных сигналов сети, вербального описания сети. См. Окно проекта, Окно редактирования файла данных, Окно значимости входных сигналов сети, Окно тестирования сети и Окно вербального описания сети.

Выход – завершение работы программы.

Нейросеть – операции с нейронными сетями. Операция выполняется над активной в данный момент нейросетью.

Обучение – обучение нейронной сети. Обучение прекращается автоматически при достижении нулевого значения средней оценки на задачнике, в случае невозможности дальнейшего улучшения оценки либо при аварийных ситуациях (нулевой или бесконечный шаг в направлении оптимизации).

Тестирование – тестирование нейронной сети.

Анализ обучающего множества – вычисление константы Липшица для обучающей выборки, формирование набора конфликтных примеров в задачнике (набора примеров, для которых одинаковым значениям входных сигналов соответствуют разные значения выходных сигналов).

Сокращение числа входных сигналов – удаление наименее значимых входных сигналов.

Сокращение числа нейронов – удаление наименее значимых нейронов сети.

Сокращение числа синапсов – удаление наименее значимых синапсов сети.

Сокращение числа неоднородных входов – удаление наименее значимых неоднородных входов нейронов сети.

Равномерное упрощение сети – сокращение максимального числа приходящих на нейрон сети сигналов до задаваемого пользователем. Упрощение прекращается автоматически при невозможности достижения нулевого значения средней оценки после очередного акта упрощения сети. При этом сеть возвращается к предыдущему состоянию полной обученности.

Бинаризация синапсов сети – приведение значений весов синапсов и неоднородных входов нейронов к выделенным значениям (см. пункт меню Настройка\Веса бинаризованных синапсов для установки набора выделенных значений).

Вербализация – генерация вербального описания нейронной сети.

Значимость входов – подсчет и отображение значимости входных сигналов нейронной сети.

Возмущение весов синапсов – добавление случайных поправок к весам синапсов сети.

Настройка– операции по настройке. Настройки действуют в пределах нейропроекта, сохраняются в файле нейропроекта и восстанавливаются при его чтении программой.

Метод оптимизации – выбор метода оптимизации для обучения сети. Из реализованных в настоящее время в программе методов (градиентный спуск, модифицированный ParTan метод, метод сопряженных градиентов и квазиньютоновский BFGS-метод) при создании нейропроекта автоматически предлагается ParTan.

Норма накопления значимости – выбор нормы накопления градиента при подсчете показателей значимости для. При создании нейропроекта автоматически выбирается норма в виде суммы модулей.

Веса бинаризованных синапсов – выбор набора выделенных значений, к которым приводятся веса синапсов. После приведения веса синапса к выделенному значению синапс исключается из обучения; при переходе от более подробного набора выделенных значений к менее подробному те из бинаризованных ранее синапсов, веса которых не попадают в выделенные значения, возвращаются в обучение.

Для работы в пакете NeuroPro нужно создать лист Exel, ввести данные (наблюдения ввести в строках, факторы – в столбцах таблицы). Далее следует сохранить лист Exel в формате dBaseIV.

После открытия пакета NeuroPro следует последовательно выполнить следующие действия: .

1) для подключения файла данных или его замены необходимо нажать кнопку Открыть файл данных в окне нейропроекта и далее выбрать имя необходимого файла данных. Открытый файл данных отображается в собственном окне, где предоставляется возможность его редактирования. При закрытии окна файла данных подключение к нейропроекту завершается. Если для анализа файл данных отсутствует, то необходимо выполнить операцию по созданию сети.

2) создать сеть. Диалог создания нейронной сети предназначен для задания спецификаций для создаваемой нейронной сети (рис.5.4). Элементы диалога:

Входы и выходы – лист для определения использования нейронной сетью имеющихся в файле данных полей.

Поля в файле данных – список полей в файле данных.

Использование поля – использование текущего поля нейронной сетью. Варианты:

Поле не числовое и недоступно сети – поле не является числовым и не может обрабатываться нейронной сетью.

Поле не используется сетью – данное числовое поле не используется сетью.

Поле является входным для сети – значения данного поля подаются на входы сети.

Поле является выходным для сети – нейросеть обучается прогнозировать значения этого поля.

Решение задач обработки данных в пакете NeuroPro - student2.ru

Рис.5.2. Окно создания файла данных

Тип значений поля – определение значений, которые принимает текущий признак:

Количественный (непрерывный) – признак принимает значения из некоторого непрерывного диапазона значений.

Качественный (дискретный) – признак принимает значения из конечного набора дискретных значений.

Диапазон изменения значений поля – минимальное и максимальное значение поля в файле данных.

Надежность или Точность – требования к точности решения задачи. Для количественного признака точность может изменяться от 0 (максимальная точность, не должно быть отличий прогноза сети от известного значения) до ширины диапазона изменения значений этого поля (минимальная точность). По умолчанию предлагается точность в 10% от ширины диапазона, при этом сеть должна обучиться предсказывать значения данного поля с точностью ±10% от ширины диапазона изменения значений. Чем меньше величина допустимой точности, тем более точно сеть должна научиться предсказывать известные значения. Для качественного признака надежность может изменяться в диапазоне от 0 (минимальная надежность) до 1 (максимальная надежность). По умолчанию предлагается надежность в 0,1. Чем выше уровень надежности, тем более уверенно сеть должна научиться предсказывать известные значения.

3) следует создать новую сеть (рис.5.4). При этом можно указать зависимую переменную (выход), факторы сети (входы) и неиспользуемые факторы. В пакете используются следующие параметры:

Решение задач обработки данных в пакете NeuroPro - student2.ru

Рис.5.4. Окно создания новой сети

Число входных полей – число полей в файле данных, используемых сетью в качестве входных.

Число входов сети – число входных сигналов сети.

Число выходных полей – число полей в файле данных, используемых сетью в качестве выходных.

Число выходов сети – число выходных сигналов сети.

При подключенном файле данных можно проводить операции создания новых нейросетей, их обучения, тестирования и упрощения. Дальнейшие операции следует производить в зависимости от задач анализа.

С использованием пакета NeuroPro были проанализированы факторы, которые могут оказывать влияние на активность рынка земли. Были проанализированы факторы внешней среды (политические и экономические условия в Российской Федерации и федеральном округе) и внутренние факторы (платежеспособность населения, спрос на земельные участки в Чувашской Республике и пр.). При анализе был использован метод нейросетей, который позволяет применять безразмерные показатели, а также показатели, имеющие разную размерность. В расчетах были использованы экономические показатели по муниципальным образованиям Чувашской Республики, полученные в территориальном органе федеральной службы государственной статистики по Чувашской Республике.

Сначала была построена нейросеть для всех факторов, включенных в расчеты. Исключение составил фактор «стоимость промышленной продукции региона», так как его влияние в общей модели могло исказить множественную зависимость всей совокупности факторов. В качестве выходного показателя была взята площадь земельных участков, участвующих в сделках (по всем сделкам).

На рисунке 5.5. показана значимость вклада каждого фактора в выходном (результативном) показателе «площадь земельных участков, участвующих в сделках». Набольший вес (1,000) имеет оборот крупных и средних организаций; вес 0,629 имеет удельный вес земель поселений; вес 0,819 – затраты в сельском хозяйстве; вес 0,690 – инвестиции в производство региона; вес 0,341 – финансирование землеустроительных и земельно-кадастровых работ.

На основе этих результатов были удалены факторы, значимость которых была ниже 0,3. Для «прозрачности» нейросеть была упрощена с помощью специальной функции упрощения программы NeuroPro.

Решение задач обработки данных в пакете NeuroPro - student2.ru На рисунке 5.6 показана значимость вклада каждого фактора после упрощения сети.

Решение задач обработки данных в пакете NeuroPro - student2.ru
Видно, что величины вкладов изменились: уменьшились вклады удельного веса земель поселений и стоимость основных фондов (соответственно до 0,488 и 0,325), увеличились вклады инвестиции в производство региона и финансирования землеустроительных и земельно-кадастровых работ (соответственно до 0,786 и 0,503). После упрощения сетью был исключен фактор «затраты в сельском хозяйстве».

Расчеты показали, что построенная нейросеть адекватно отражает фактическую зависимость земельных платежей от выбранных факторов. В сети не обнаружено конфликтных примеров. На рисунке 5.7. наглядно представлены результаты тестирования нейросети по всем муниципальным образованиям Чувашской Республики. Видно, что пики двух линий (наблюдаемых и предсказанных значений земельных платежей) совпадают.

Решение задач обработки данных в пакете NeuroPro - student2.ru

В таблице 5.2. представлены результаты прогноза площади земельных участков, участвующих в сделках, выполненного с помощью нейросетевого анализа.

Таблица 5.2.

Сравнение фактической и расчетной площади земельных участков, участвующих в сделках, в муниципальных образованиях Республики Чувашия, га

Наименование муниципальных образований Фактическая площадь по сделкам Прогноз нейростеи Разница между фактически о прогнозной площадью Резервы вовлечения земельных участков в оборот
Алатырский район 2606,6 -93 -93
Аликовский район 460,8 -289 -289
Батыревский район 2598,5  
Вурнарский район 2448,1  
Ибресинский район 1937,9 -462 -462
Канашский район 532,5 -368 -368
Козловский район 1866,3  
Комсомольский район -232 -232
Красноармейский район 13421,9  
Красночетайский район 4984,1 -516 -516
Мариинско-Посадский район 3387,4 -13 -13
Моргаушский район 2847,1  
Порецкий район 10339,6 -1660 -1660
Урмарский район 1369,7 -630 -630
Цивильский район 7902,9  
Чебоксарский район 4882,9  
Шемуршинский район 1113,8 -286 -286
Шумерлинский район 1824,5 -76 -76
Ядринский район 22,8 -477 -477
Яльчикский район 4054,5 -1946 -1946
Янтиковский район -240 -240
г. Алатырь 48,9 -651 -651
г. Канаш 211,5 -439 -439
г. Новочебоксарск -120 -120
г. Чебоксары -2433 -2433
г. Шумерля 140,3 -260 -260
Итого по ЧР х х -6422 -11190

С учетом внешних и внутренних факторов в большинстве муниципальных образований прогнозная величина земельных участков по сделкам выше фактической. Только в Красноармейском районе, где в настоящее время рынок развивается наиболее динамично, прогноз нейросети оказался ниже фактической величины на 3422 га. В целом в Чувашской Республике площадь земельных участков, вовлеченных в оборот, может быть увеличена на 11190 га.

В результате были получены следующие результаты:

1) на активность земельного рынка наибольшее влияние оказывают: размер оборота крупных и средних организаций, млн.руб.; инвестиции в производство региона руб./га;

2) существенное влияние на площадь земельных участков, участвующих в сделках оказывают затраты на земельно-кадастровые работы, так как земельные участки по сделке должны быть однозначно описаны в ГЗК;

3) с учетом сложившихся экономических условий в целом по Чувашской Республике площадь земельных участков, вовлеченных в оборот, может быть увеличена на 11190 га.

Наши рекомендации