Технологія нейронних мереж
Головним змістом інтелектуальної інформаційної технології нейронних семіотичних систем є створення електронних і програмних аналогів природних нейронних мереж і використання цих аналогів для імітації функцій людського інтелекту.
Штучні нейронні мережі (ШНМ), чи просто нейромережі, являють собою програмно чи програмно-апаратно реалізовані системи, які імітують механізм опрацювання інформації в мозку людини за допомогою взаємодії системи біологічних нейронів. Штучні нейромережі є електронними моделями нейронної структури мозку, який, головним чином, навчається з досвіду. Як свідчать результати, багато з проблем, що слабо або цілком не підвладні розв'язуванню наявними комп'ютерами, можуть ефективно вирішуватися блоками нейромереж. Програмна реалізація штучних нейромереж здійснюється створенням нейропакетів, апаратна – нейрокомп’ютерів. Нейрокомп’ютерами називають програмно-технічні системи, переважно спеціалізовані, які реалізують деяку формальну модель природної мережі нейронів. Значного розповсюдження набули програмні пакети (нейропакети), які моделюють роботу мереж на універсальних комп’ютерах. Однією з характерних рис нейротехнологій є навчання нейромережі на прикладах. Ця ж «технологія» навчання служить основою розвитку дитини, яка в перші роки життя проходить гігантський шлях формування інтелекту і мовної системи, навчаючись на прикладах.
Основні відмінності традиційних та нейрокомпютерних інформаційних систем наведено нижче, у табл. 9.2.
Потенційними сферами застосування нейротехнологій є всі предметні області, що погано піддаються формалізації, в яких класичні математичні моделі і алгоритми працюють помітно гірше за людський мозок. До ефективних областей використання нейротехнологій, в яких вже отримані значущі практичні результати, відносяться: обробка зображень, реалізація асоціативної пам'яті, системи управління реального часу, розпізнавання образів і мови, системи безпеки, системи підтримки прийняття рішень, системи з нечіткою логікою, системи отримання знання, системи інтелектуального аналізу даних (виявлення профілів інтересів користувачів Internet, системи аналізу фінансового ринку, системи аналізу та прогнозування виробничо-господарською діяльності), системи адаптивного управління тощо. Сьогодні можна впевнено говорити про те, що нейротехнології стають невід'ємним компонентом інтелектуальних інформаційних технологій.
Таблиця 9.2
Основні характеритик традиційних комп’ютерів та нейрокомп’ютерів, за [8]
Характеристики | Традиційні комп’ютери | Нейрокомп’ютери |
Режим функціонування | Переважно послідовний | Паралельний |
Опис функціонування | На основі заданих алгоритмів | На основі алгоритмів, що формуються в процесі навчання ШНМ на прикладах |
Характер операцій | Ієрархічна структура алгоритмів. Розбиття складних задач на прості складові. «Жорсткі» математичні моделі | Безпосереднє маніпулювання образами. «М'які» математичні моделі |
Біологічний аналог | Ліва півкуля | Права півкуля |
Штучний нейрон. Базовим елементом штучної нейромережі є електронний аналог природного нейрону – штучний нейрон. Біологічні нейрони - це специфічні клітини мозку людини, які, на відміну від решти клітин, здатні запам'ятовувати, думати і застосовувати раніше набутий досвід до кожної дії. Згідно до представлень сучасної нейрофізіології, саме функціонування об’єднаних у єдину мережу нейронів є відповідальним за основні феномени роботи мозку, механізм яких є донині не до кінця відомим, зокрема, за: кодування (представлення) інформації про зовнішній світ; короткочасне і довготривале запам'ятовування, зберігання і видобування інформації; асоціативний пошук і самоорганізацію пам'яті; оперування інформацією в процесі вирішення розумових задач; симультанне (миттєве) розпізнавання (наприклад, пізнавання людини, з якою не зустрічалися багато років); несподіване творче осяяння (інсайт) тощо.
Кора головного мозку містить близько 1011 нейронів; кожен нейрон зв'язаний з 103 - 104 іншими нейронами, загальна кількість взаємозв'язків у мозку людини - від 1014 до 1015. При цьому активними є не більше 2 – 3 % нейронів мозку, що забезпечує мозкові величезний запас «міцності» і «пластичності», що дає йому змогу працювати навіть при серйозних ушкодженнях і пристосовуватися до значних змін у зовнішніх умовах. Нейрон має багато властивостей, спільних з властивостями інших клітин тіла. Унікальною властивістю нейрона є здійснення прийому, обробки і передачі електрохімічних сигналів по нервових шляхах, що утворюють комунікаційну систему мозку.
Індивідуальний нейрон складається з тіла клітини - соми, і двох типів зовнішніх деревоподібних відгалужень: кількох дендритів, через які нейрон отримує сигнали (імпульси) від інших нейронів, і одного аксона, через які імпульс збудження передається далі, на інші нейрони. Аксон наприкінці розгалужується на волокна, на закінченнях яких знаходяться спеціальні утворення - синапси. Синапс є функціональним вузлом між двома нейронами (волокно аксона одного нейрона і дендрит іншого). Коли імпульс досягає синаптичного закінчення, продукуються хімічні речовини, які називають нейротрансмітерами. Нейротрансмітери проходять через синаптичну щілину, збуджуючи або гальмуючи, у залежності від типу синапсу, здатність нейрона-приймача генерувати електричні імпульси. Можна вважати, що в результаті проходження через синапс сила імпульсу змінюється у певну кількість разів, яку називають вагою, чи результативністю синапсу. Таким чином одночасно прийняті і модифіковані різними синапсами вхідні сигнали надходять до тіла нейрона, де вони підсумовуються з урахуванням сили та тривалості, причому одні входи прагнуть збудити нейрон, інші перешкодити його збудженню. Коли сумарне збудження в тілі нейрона перевищує деякий поріг, нейрон збуджується (формує власний імпульс), надсилаючи по аксону сигнал іншим нейронам. Результативність синапсу налаштовується сигналами, які йдуть через нього, тому синапси навчаються в залежності від активності процесів, у яких вони приймають участь. Вага синапсів змінюється у процесі навчання, а разом з нею змінюється і поведінка нейромережі у цілому. Ця схема функціонування нейрону є спрощеною, проте більшість штучних нейронних мереж моделюють лише ці прості властивості.
Тривалість відгуку окремого нейрону приблизно у тисячу разів більша за час цифрової комутації у комп’ютері, проте паралельна робота величезної кількості об’єднаних у розподілену мережу нейронів забезпечує розв’язання таких складних завдань, як розпізнання зображень та мови. При цьому нейрон реагує не на всі, а лише на певні збудження, виступаючи водночас як елемент зберігання інформації та елемент прийняття рішення. Відмінності ваг у синапсах різних нейронів забезпечують можливості адресації за вмістом (асоціативної пам’яті) – елемент відшукується за вмістом, а не за номером комірки пам’яті. Пам'ять реалізується підсиленням або послабленням зв'язків між окремими нейронами, а не зберіганням окремих символів.
Базовий модуль нейронних мереж – штучний нейрон працює у першому наближенні так, як і природний нейрон (рис. 9.10), у якому роль імпульсів збудження виконують електричні сигнали Хі (імпульси напруги), що поступають на різні входи, перемножуються на певні вагові коефіцієнти Wі і додаються, утворюючи сигнал S (рис. 9.10). Збуджуваність нейрону моделюється певною передавальною (активаційною) функцією F, яка задає залежність вихідного сигналу Y від суми взятих з певними ваговими коефіцієнтами вхідних сигналів.
Рис. 9.10. Штучний нейрон з активаційною функцією [104]
Загалом значення сигналу Y на виході нейрону лежить в діапазоні [40]. Активаційна функція може бути звичайною лінійною функцією Y = K(S), де К - константа порогової функції; пороговою функцією Y = 1, якщо S > Т, Y = 0 в інших випадках, де Т деяка постійна порогова величина; лінійною пороговою, сигмоїдальною, синусоїдальною тощо функцією, яка точніше моделює нелінійну передатну характеристику біологічного нейрона. Аналогічно з електронними системами активаційну функцію можна вважати нелінійною підсилювальною характеристикою штучного нейрона.
У сучасних нейропакетах програм штучні нейрони називаються "елементами обробки" і мають значно ширші можливості, ніж простий штучний нейрон, описаний вище. На рис. 9.11 зображена розширена схема штучного нейрону, причому синапси та суматори деколи виступають як окремі самостійні елементи нейромережі.
Рис. 9.11. Розширена модель нейронного елемента:
1 - суматор, який моделює функції тіла біологічного нейрона; 2 - функціональний перетворювач, що виконує роль аксонного горбка; 3 - збуджуючий синапс; 4 - гальмуючий синапс; 5 - вхідний сигнал; 6 - дихотомічне галуження вхідного сигналу, яке відбиває галуження дендритів різних порядків, що відповідає логічним операціям "І", "АБО", "Виключаюче АБО", виділення максимального або мінімального сигналу в технічних аналогах; 7 - вихідний сигнал; 8 - дихотомічне галуження вихідного сигналу, яке відбиває дихотомічне галуження аксона (у вузлах галуження відбувається керування проходженням сигналу, що залежить від співвідношення діаметрів різних гілок аксона); 9 - прямий зв'язок, що відповідає аксодендритному зв'язку між біологічними нейронами; 10 - зворотній (аксосоматичний) зв'язок.
Штучна нейронна мережа складається з великої кількості (мільйонів і мільярдів) паралельно працюючих простих елементів — нейронів. Завдяки такій структурі забезпечується висока швидкодія при вирішенні задач, які традиційно вимагають значних обчислювальних ресурсів. Місце програмування у ШНС займає навчання, що пов’язане з неможливістю повної формалізації операції обробки образів (за винятком певних типових перетворень), на відміну від обробки символів. Головний механізм обробки образів — навчання на множині прикладів (повчальній множині), причому у ШНС навчаються не окремі нейрони, а мережа у цілому. У процесі навчання та налагодження нейромереж у першу чергу змінюються вагові коефіцієнти синаптичних входів залежно від типу розв’язуваних задач (вхідних сигналів), деколи – вибір передавальної функції. Основна парадигма нейрокомп’ютинга може бути сформульована як обробка інформації за адаптованими під конкретні інформаційні задачі та спеціалізованими стосовно певних операцій обробки образів алгоритмами, сформованими у процесі навчання [8].
Відповідно базовими компонентами нейротехнологій, окрім нейрону як базового і єдиного нелінійного елементу мережі, синапсу як елементу підтримки зв’язку між нейронами зі своєю вагою та затримкою і суматора, є навчаючі приклади, які задають навчальну вибірку (набори значень вхід – належний вихід) і цільову функцію, що визначає штраф за відхилення реального виходу від наказаних значень при даних входах, та алгоритми і розклад навчання. Ф.Розенблатом [104] було доведено, що якщо існує навчальна вибірка, то за скінченну кількість циклів налаштувань ШНМ здатна навчитись змінювати ваги власних входів так, щоб з кожним варіантом мережевого вхідного сигнасу (набору сигналів на входах ШНМ) асоціювався вірний вихід. Іншими словами, навчання на прикладах дає змогу ЩНМ побудувати власні приховані правила отримання рішення через визначення доречних ваг, що забезпечує можливість розв’язання задач, для яких відоме рішення аналогічних задач, але невідома точна процедура його отримання.
Характеристики штучних нейронів. Всім штучним нейронам притаманні сім характеристик-інваріант, через які їх можна описати: вагові коефіцієнти входів; функція суматора; передавальна функція, масштабування; вихідна функція (змагання); функція навчання; функція похибки та поширюване назад значення.
Вагові коефіцієнти (ваги) задають вплив сигналів, які одночасно поступають на різні мережеві (синаптичні) входи, на сигнал на вході у суматор елемента обробки. Вони моделюють різні синаптичні сили біологічних нейронів. Ваги суттєвого входу підсилюються і, навпаки, вага несуттєвого входу примусово зменшується, що визначає інтенсивність вхідного сигналу. Ваги можуть змінюватись відповідно до навчальних прикладів, топології мережі та навчальних правил.
У найпростішому випадку функцією суматора є обчислення зваженої суми всіх входів з отриманням на виході одного числа за наявності на вході багатоелементного вектора. Функція суматора може бути складнішою, наприклад, вибір мінімуму, максимуму, середнього арифметичного, добутку тощо (рис. 9.11). В деяких нейромережах суматори виконують додаткову обробку, реалізуючи так звану функцію активації, яка зміщує вихід функції суматора відносно часу.
Результат з виходу суматора перетворюється у вихідний сигнал згідно до алгоритму, який задається його передавальною функцією. У більшості випадків для визначення виходу нейрона передавальна функція порівнює значення на виході суматора з деяким порогом. Якщо сума є більшою за значення порога, елемент обробки генерує сигнал, в протилежному випадку сигнал не генерується або генерується гальмуючий сигнал. Завдяки різкій зміні значень виходу при досягненні порогу таку передавальну функцію називають жорсткою, а нейрони з такою функцією – нейронами Мак-Калока-Пітса (на честь вчених, що їх запропонували [92, с. 428]), або МР-нейронами. Нині найчастіше застосовують нелінійні передавальні функції, зокрема, сигмоїдальну (логістичну функцію вигляду Y = 1/(1 + е-as), де a – деяка додатня постійна. Це монотонно зростаюча функція, яка дорівнює 0 при х=±¥, що дає змогу отримати значення вихідних сигналів нейрона в межах певного кінцевого інтервалу. Цінними властивостями сигмоїдальної функції є гладкість (диференційованість на усій осі абсцис) та здатність підсилювати слабкі сигнали краще, ніж великі.
Масштабування - це додаткова обробка вихідного сигналу на виході нейрону, яка полягає у множенні результату передавальної функції на коефіцієнт масштабування і додаванні зміщення. Отриманий вихідний сигнал (кожний штучний нейрон, як і біологічний має один вихідний сигнал), передається на входи сотень інших нейронів. В деяких мережевих архітектурах ці сигнали додатково змінюються для створення змагання між сусідніми нейронами з метою блокування дії нейронів, які дають слабий сигнал. Змагання (конкуренція) може відбуватись між нейронами, які знаходяться на одному або різних прошарках і визначатиме, який нейрон буде активним і візьме участь у процесі навчання.
Завданням функції навчання є налаштування змінних ваг з'єднань на входах кожного елемента обробки відповідно до певного алгоритму навчання для досягнення бажаного результату. Існує два типи навчання: контрольоване та неконтрольоване. Контрольоване навчання вимагає навчальної множини даних (пар значень вхід-вихід) або спостерігача, що ранжує ефективність результатів мережі. У нейромережах з контрольованим навчанням поточний вихід постійно порівнюється з бажаним. Ваги на початку встановлюються випадково, але під час наступних ітерацій коректуються для досягнення близької відповідності між бажаним та поточним виходом. Створені методи навчання спрямовані на мінімізацію біжучих похибок всіх елементів обробки неперервною зміною синаптичних ваг до досягнення прийнятної статистичної точності мережі, яка означає, що мережа видає бажані виходи для заданої послідовності входів. По досягненню цього рівня точності навчання вважається закінченим і ваги з'єднань фіксуються для подальшого застосування.
У більшості мереж з контрольованим навчанням обчислюється різниця між спродукованим та бажаним виходом. Похибка відхилення (біжуча похибка) перетворюється згідно до функції похибки, яка визначається архітектурою мережі. В базових архітектурах похибка відхилення використовується безпосередньо, в деяких парадигмах використовується квадрат або куб похибки зі збереженням знаку. Після проходження всіх прошарків біжуча похибка поширюється назад до попереднього прошарку і може бути безпосередньо похибкою або похибкою, масштабованою певним чином залежно від типу мережі (наприклад, похідною передавальнної функції). Це поширюване назад значення враховується в наступному циклі навчання згідно до закладених правил навчання. Існує багато правил навчання, найбільш відомими з яких є правило Хеба, яке постулює збільшення ваги зв’язку між двома одночасно активними нейронами, і «правило дельта», яке передбачає неперервну зміну синаптичних ваг для зменшення різниці («дельта») між значенням бажаного та біжучого вихідного сигналу нейрона.
У випадку неконтрольованого навчання система самоорганізовується за внутрішнім критерієм, закладеним в алгоритм навчання. Алгоритми неконтрольованого навчання спрямовані на знаходження близькості між групами нейронів, які працюють разом. Навчання йде за методом змагання, за якого вихідні нейрони змагаються між собою за активацію. Якщо зовнішній сигнал активує будь-який вузол в групі нейронів, дія всієї групи в цілому збільшується, і навпаки. Навчання конкуруючих нейронів підсилює відгуки певних груп на певні сигнали, що пов'язує групи між собою та з відгуком. Нейрон з найбільшим вихідним сигналом оголошується переможцем і має можливість гальмувати своїх конкурентів і збуджувати сусідів. При навчанні модифікуються синаптичні ваги лише нейрона-переможця таким чином, що він стає подібним до вхідного приклада. Мережа сама контролює свою ефективність, шукаючи регулярність або тенденції у вхідних сигналах та робить адаптацію згідно навчальної функції. Інформація відносно власної організації закладена у топологію мережі та навчальні правила.
Слід зауважити, що у нейротехнологіях навчаються не окремі нейрони, а мережі у цілому. Результатом навчання може бути: модифікування ваг синаптичних зв'язків без зміни параметрів нейронів (конекціонізм); модифікування параметрів нейронів без зміни зв'язків (гетерогенні ШНМ) та одночасне модифікування як зв'язків, так і параметрів нейронів [8].
Архітектура нейромереж. Об'єднані у мережі нейрони утворюють систему обробки інформації, в процесі функціонування якої відбувається перетворення вхідного вектора сигналів у вихідний. Конкретний вид перетворення визначається як архітектурою нейромережі так і характеристиками нейронних елементів, засобами керування та синхронізації інформаційних потоків між нейронами [20].
Найпростіша мережа складається з групи нейронів, що створюють прошарок, як показано в правій частині рис. 9.12. Кожний елемент з множини входів Х з окремою вагою сполучений з кожним штучним нейроном. А кожний нейрон видає зважену суму входів в мережу. У штучних і біологічних мережах частина цих з'єднань може бути відсутня чи можуть мати місце з'єднання між виходами і входами елементів в шарі.
Спосіб зв'язку нейронів у нейромережі прийнято називати структурою нейромережі. Структура нейромережі разом з типами нейронів задає архітектуру нейромережі, а спосіб навчання та використання – її парадигму. Іноді у поняття парадигми включають і архітектуру мережі. На основі однієї архітектури можуть бути реалізовані різні парадигми нейромережі і навпаки.
Рис. 9.12. Одношарова нейронна мережа, за [104]
За структурою розрізняють слабо- та повнозв'язані мережі. У слабозв'язаних нейронних мережах кожний нейрон мережі зв'язаний лише із сусідніми (рис. 9.13), у повнозв'язаних входи кожного нейрона зв'язані з виходами усіх решти нейронів.
Рис. 9.13. Слабозв'язані (а) та повнозв'язані (б) нейромережі
Зв'язки між нейронами різних прошарків називають проективними. Зв'язки, скеровані від вхідних прошарків до вихідних, називаються аферентними, у зворотному напрямку – еферентними. Зв'язки між нейронами одного прошарку відносять до бічних (латеральних).
За кількістю шарів, у які групують нейрони у ШНМ, виділяють одношарові (рис. 9.12) і багатошарові мережі (рис. 9.14, 9.15). Хоча створені мережі мають різні конфігурації, найпоширенішим варіантом архітектури є багатошарові мережі, пошарова організація нейронів у яких копіює прошаркові структури певних відділів мозку.
Нейрофізіологи розрізняють у людини три основні типи нейронних структур: сенсорні, внутрішні і ефекторні. Перші забезпечують надходження в мозок інформації із зовнішнього світу, підтримуючи шість відчуттів: зір, слух, смак, нюх, дотик і відчуття рівноваги. Внутрішні нейрони сприймають інформацію від сенсорних систем, переробляють її і передають на ефекторні нейрони, які, своєю чергою, керують м'язами, внутрішніми органами, судинами тощо.
Рис. 9.14. Двошарова нейронна мережа (перший прошарок – вхідний – не виконує обчислень і не приймається до уваги при підрахунку шарів), за [104]
Відповідно у багатошарових нейронних мережах є як мінімум три нормальних типи прошарків - вхідний, прихований та вихідний. Нейрони об'єднуються у прошарки з єдиним вектором сигналів входів. Зовнішній вхідний вектор подається на вхідний прошарок нейронної мережі (рецептори) або з вхідних файлів, або безпосередньо з електронних давачів. Виходами нейронної мережі є вихідні сигнали останнього прошарку (ефектори). Вихідний прошарок пересилає інформацію безпосередньо до зовнішнього середовища, до вторинного комп'ютерного процесу, або до інших пристроїв. Між цими двома прошарками може бути багато прихованих прошарків, які містять багато нейронів у різноманітних зв'язаних структурах, що не мають контактів із зовнішнім середовищем. Входи та виходи кожного з прихованих нейронів просто йдуть до інших нейронів.
Рис. 9.15. Діаграма багатошарової нейронної мережі
Мережі можуть мати прямі (від нейронів попереднього до нейронів наступного) та зворотні (у протилежному напрямку) зв'язки. У більшості мереж кожен нейрон прихованого прошарку отримує сигнали від всіх нейронів попереднього прошарку та звичайно від нейронів вхідного прошарку. Після виконання операцій над сигналами, нейрон передає свій вихід до всіх нейронів наступних прошарків, забезпечуючи шлях передачі вперед (feedforward) на вихід (рис. 9.16).
Рис.9.16 . Пряме розповсюдження сигналів у багатошаровій мережі
При зворотному зв'язку, вихід нейронів прошарку скеровується на вхід нейронів попереднього прошарку (рис. 9.17).
Рис. 9.17. Зворотне розповсюдження сигналів у багатошаровій мережі
Мережі з односкерованими послідовними зв'язками, у яких немає зворотних зв'язків (тобто немає з'єднань, що йдуть від виходів деякого прошарку до входів цього ж прошарку або попередніх шарів), називають мережами без зворотних зв'язків або мережами прямого поширення. Мережі більш загального вигляду, що мають з'єднання від виходів до входів, називаються мережами із зворотними чи рекурентними зв'язками, або мережами зворотного поширення. Найвідомішими різновидами мереж прямого поширення є перцептрони, у т.ч. тришаровий перцептрон Розенблата, мережі зворотного поширення похибки Back Propagation, мережа зустрічного поширення та карта Кохонена; мереж зворотного поширення – мережа Хопфілда, мережа адаптивної резонансної теорії, двоскерована асоціативна пам'ять.
Кількість входів та виходів у більшості мереж прямого поширення, зокрема, у перцептронах та мережах зворотного поширення похибки, визначається кількістю вхідних та вихідних параметрів досліджуваного об'єкту, явища, процесу тощо. На відміну від зовнішніх прошарків, число нейронів прихованого прошарку nприх обирається емпіричним шляхом. В більшості випадків достатня кількість нейронів становить nприх £ nвх + nвих, де nвх, nвих - кількість нейронів у вхідному і, відповідно, у вихідному прошарках. Якщо складність відношень між даними на вході та виході збільшується, кількість нейронів прихованого прошарку повинна також збільшитись. Якщо процес, що моделюється, може розділятись на багато етапів, вводять додатковий прихований прошарок (прошарки). Кожний внутрішній нейрон має бути зв’язаним з виходами всіх вхідних нейронів, а кожний вихідний нейрон – з виходами всіх нейронів внутрішнього шару. Основні області застосування таких мереж - розпізнавання образів, класифікація, прогнозування, кластерний аналіз.
Функціонування мереж зі зворотними зв’язками переважно аналогічне функціонуванню динамічних систем у фізиці. Так, мережа Хопфілда використовує три прошарки: вхідний, прошарок Хопфілда та вихідний прошарок з однаковою кількістю нейронів. Входи прошарку Хопфілда під'єднані до виходів відповідних нейронів вхідного прошарку через змінні ваги з'єднань. Виходи прошарку Хопфілда під'єднуються до входів всіх нейронів прошарку Хопфілда, за винятком самого себе, а також до відповідних елементів у вихідному прошарку. В режимі функціонування, мережа скеровує дані з вхідного прошарку через фіксовані ваги з'єднань до прошарку Хопфілда. Прошарок Хопфілда коливається, поки не буде завершена певна кількість циклів, і біжучий стан прошарку передається на вихідний прошарок. Цей стан відповідає образу, вже запрограмованому у мережу. Мережа адаптивної резонансної теорії складається з двох взаємопов'язаних прошарків нейронів, розташованих між вхідним та вихідним прошарками. Кожен вхідний образ нижчого прошарку мережі стимулюватиме очікуваний образ на вищому прошарку, який пересилатиметься знов до нижчого прошарку, щоб впливати на наступний вхід. Це створює «резонанс» між нижчим та вищим прошарками для полегшення мережевої адаптації образів. Початкові застосування мереж зі зворотними зв’язками включали асоціативну, або адресовану за змістом пам'ять та розв’язання задач оптимізації. Мережа адаптивної резонансної теорії переважно використовується у біологічному моделюванні, двоскерована асоціативна пам'ять, яка є розвитком мережі Хопфілда – як асоціативна пам'ять та для розпізнавання образів
Мережі прямого поширення відносять до статичних, оскільки на задані входи нейронів надходить незалежний від попереднього стану мережі вектор вхідних сигналів. Це означає, що ці мережі не мають пам'яті, їх вихід повністю визначається поточними входами і значеннями ваг.
Мережі зворотного поширення є динамічними, тому що за рахунок зворотних зв'язків (петель) входи нейронів модифікуються в часі, що призводить до зміни станів мережі. Попередні значення виходів повертаються на входи; вихід, отже, визначається як поточним входом, так і попередніми виходами. З цієї причини мережам із зворотними зв'язками притаманні властивості, схожі з короткочасною людською пам'яттю, мережеві виходи частково залежать від попередніх входів.
Шлях, яким нейрони з'єднуються між собою, має значний вплив на роботу мережі. Більшість пакетів професіональної розробки програмного забезпечення дозволяють користувачу довільно додавати, вилучати та керувати з'єднаннями. Постійно коректуючи параметри, зв'язки можна робити як збуджуючими так і гальмуючими.
За парадигмою мережі можуть бути такими, що конструюються, та такими, що навчаються. У мережі першого типу кількість і тип нейронів, структура мережі (граф міжнейронних зв'язків), ваги входів нейронів визначаються під час створення мережі, виходячи з розв’язуваної задачі. Кількість вхідних послідовностей М, що запам’ятовуються (для яких передбачені вихідні стани), пов’язана з кількістю нейронів N у мережі співвідношенням M < N/4logN. У мережах, що навчаються, графи міжнейронних зв'язків та ваги входів змінюються під час виконання алгоритму навчання. За способом організації навчання та способом визначення ваг входів мережі поділяються на мережі з контрольованим і неконтрольованим навчанням (самонавчанням), та змішані. Мережі першого типу в процесі навчання порівнюють фактичне вихідне значення з завчасно заданим вірним результатом і коригують ваги до досягнення прийнятної розбіжності у фактичних і бажаних результатах; мережі другого типу, не маючи завчасно заданих бажаних вихідних значень, групують «близькі» вхідні вектори так, щоб вони завжди формували той самий вихід мережі за рахунок активації лише певних нейронів, чиї ваги відповідним чином модифікуються; у змішаних мережах частина ваг отримується за алгоритмами контрольованого навчання, частина – за алгоритмами самонавчання.
Нейромережа може бути побудована апаратно або емульована за допомогою готового програмного забезпечення – нейропакетів. В усіх випадках створення ШНМ передбачає вибір архітектури мережі та її навчання. Архітектура мережі визначається кількістю її входів і виходів, яким відповідають вхідні і вихідні нейрони, кількістю проміжних шарів, кількістю та типом нейронів у них, їх характеристиками та типом і напрямком зв'язків між ними. В [26] доведено, що якщо для якогось класу задач потрібні складні спеціалізовані нейрони, їх простіше запровадити в модель від самого початку, а не будувати з простих. Якщо ж така необхідність не очевидна, то доцільно використовувати універсальну мережу з простих нейронів. Вона сама «виростить» потрібні структури в ході навчання. Відповідно у першому випадку для формування ШНМ доцільно застосовувати універсальні нейропакети, а у другому – спеціалізовані, які використовують нейрони складної функціональності і містять спеціалізовані засоби для обробки зображень, розпізнавання образів, розпізнавання рукописних і друкованих символів, розпізнавання мови, управління динамічними системами, фінансового аналізу тощо.
Щоб побудувати робочу нейромережу, її треба спочатку навчити на тренувальному масиві даних. Для проведення навчання формується спеціальна програма, в межах якої визначають тип алгоритму навчання, навчальну множину (базу навчальних прикладів), критерій навченості мережі та тип встановлюваного шуму. Протягом тренувальної фази мережа, працюючи з вхідними даними з навчальної множини, встановлює ваги, які визначають режим проміжного рівня з регулюванням ваг залежно від коректності зробленого мережею передбачення. Після багаторазового порівняння прикладів навчальної вибірки величина помилки, оцінювана самою помилкою чи сумою квадратів помилок по всіх входах, зменшується і ваги мережі стабілізуються з тим, що мережа дає правильні відповіді на всі (або майже всі) приклади з навчальної множини (бази даних). Мережа вважається «навченою» і готова до розв’язання задач. При цьому можливості використання мережі залежать від якості навчання, яка, своєю чергою, залежить ві кількості прикладів у навчальній множині та повноти відбиття цими прикладами заданого класу задач.