Пайдаланылған әдебиеттер тізімі. Магистрант,+77759139991, [email protected]

Мәден Қуат

Магистрант,+77759139991, [email protected]

Жаттарды “Data mining ” арқылы автоматтандырылған ирархиялық филтратциялау

Әл-Фараби атындағы Қазақ ұлттық университеті ақпараттық жүйесін дамыту өзгеріп отыратын ішкі талаптарға, жаңа буындағы технологиялық платформаларды енгізуге сәйкес​ ұжымдық жұмыс үшін универ архивын автоматты түрде анықтау және сұрыптауды жасау.

Maden Kuat

Master, +77759139991, [email protected]

Automatic system document filtering hierarchically based on static data mining technology

Al-Farabi Kazakh National University in the development of the information system of changing internal requirements, the introduction of new generation technology platforms to operate in accordance with the collective bargaining University Archive of automatic detection and sorting.    

Кіріспе

Қазіргі заманғы Ақпараттық-компьютерлік технологиялардың қарқынды дамуы, адам өмірінің барлық саласында кеңінен қолданыс табуы, Интернет желісі мен ондағы қызметтердің кең таралуы соңғы жылдарда ақпараттар жиынтығының жылдам ұлғаюының, көлемінің экспоненциялды артуының негізгі себебі болуда. Бұл, интернет желісі мүмкіндіктеріне бағытталған, дəстүрлі реляциялық деректер базаларынан өзгеше, əр түрлі құрылымды ауқымды деректерді үлестірілген түйіндерде сақтауға және өңдеу әдістерінің дамуы, жинақталған, талдауды керек ететін ақпараттардың тез өсуіне алып келуде. Жинақталған мәліметтердің соншалықты көптігі оны адам күшімен өңдеуге мүмкіндік бермейді әрі бұл өңделмеген мәліметтердің ішінде, маңызды шешімдер қабылдауларға керекті ақпараттар бар екені анық. Сол себепті мәліметтерді автоматты талдау жасау үшін Data Mining-ті қолдану керек болады. Data Mining – бұл өңделмеген мәліметтерден, адам қызметінің әртүрлі саласында маңызды шешімдер қабылдауға керекті, практикалық тұрғыда пайдалы, білімдерді байқау процессі. Data Mining бағдарламалық қамтамасыз ететін деректерді талдау үшін бір қатар аналитикалық құралдардің бірі болып табылады. Ол пайдаланушыларға, көптеген әр түрлі өлшемдері немесе бұрыштарға деректерді талдау, оны санаттау және анықталған қатынастарды қорытындылауға мүмкіндік береді. Техникалық, деректер жинау ірі Реляциялық ондаған деректер базасының жиындығын арасындағы корреляция немесе үлгілерін табу процесі болып табылады.

Негізгі бөлім

ХХІ ғaсыр aқпaрaт ғaсыры. Ұшқан құстай дамыған Қaзіргі зaмaндaғы Интернет жүйесінің қaрқынды дaмуы әлемнің кез-келген нүктесінен, кез-келген aқпaрaтты тaбуғa мүмкіндік береді. Әлеуметтің көптеген aқaулы мәселелері, білім беру сaлaсы, медицинa, транспорт және бизнес т.б орындар интернет жүйесінің айрылмас бөлігіне айналды. Осыған сәйкес елімізде ақпараттық технологияға суранысыда жылдан жылға артуда.

Зерттеу тақырыбының өзектілігі.Әл-фараби атындағы қазақ ұлттық университетінің архив бөлімінің жұмысын эектронды партал құрып архивтерді автоматты түрде анықтау, сұрыптауды жасау және қолданушы үшін қолайлық туғызу .

Бірінші бөлімде

Электрондық почтаның жұмысын автоматты түрде анықтау және сұрыптауды жасау үшін келіп түскен құжаттар компьютер арқылы өңделуі мүмкін кез келген фактілер, файлдар, сандар, немесе мәтін болып табылады. Электрондық почтадан келіп түскен мәліметтерді өңдеу мен сақтау технологияларының дамуына байланысты, әр-түрлі салаларда жиналған ақпараттардың аса мол қорына тап болды. Кез келген кәсіпорынның (коммерциялық, өндірістік, медициналық, ғылыми және транспорт т.б.) қызметі енді өз қызметінің барлығын тіркеумен және сақтау қоса жүретін болды, әрі мәліметтерді белгілі бір мезгілде өңдеу керек болады. Мәліметтерді өңдеудің қазіргі заманға сай талаптары келесідей:

– мәліметтердің шектеусіз көлемі бар болуы;

– мәліметтердің әртекті (сандық, сапалық, мәтіндік) болып табылуы ;

– нәтижелер нақтылы және түсінікті болулары тиіс;

– шикі мәліметтерді өңдеуге арналған аспаптар пайдалануда қарапайым болуы керек.

Ұзақ уақыт бойы мәліметтер талдауының негізгі құалы рөлін атқарып келген дәстүрлі математикалық статистика, кейінгі кезде пайда болған мәселелерді шеше алмады. Басты себеп – анықталмаған шамалармен операцияларда фунционалды қабілетінің болмауы. Data Mining (discovery-driven data mining) қазіргі технологияларына, мәліметтердің көп аспектілі өзара қатынастарының үзінділерін (фрагменттерін) көрсететін шаблондар негіз етіп алынған. Бұл шаблондар адамға түсінікті түрде тұтас білдірілетін, мәліметтердің іріктеулеріне тән заңдылықтар болып саналады. Шаблондарды іздеу, іріктеу құрылымы – талданатын көрсеткіштер мәндерін үлестіру туралы априорлық болжамдар шеңберінде шектелмеген әдістермен өндіріледі.

Data Mining–нің негізгі артықшылығы, іздестірілген шаблондардың, стандартты еместігі мен айқын еместігі, яғни табылған шаблондар жасырын білімдерді (hidden knowledge) құрайтын айқын емес және кездейсоқ (unexpected) мәліметтер болуын көрсетеді.

Әдетте Data Mining әдісімен айқындадатын заңдылықтарыдың 5 түрлі стандарты белгілінген:

– ассоцация (қауымдастық). Жоғары ықтималдықты, бір бірімен байланысқан оқиғалар;

– реттілік. Жоғары ықтималдықты, тізбектеле байланысқан, нақтылы мерзімдік оқиғалар ;

– классификация. Белгілері бар, топтарда сипатталатын оқиға немесе объект;

– кластеризация. Мәліметтерді өңдеу процесінде, автоматты түрде анықталатын өздерінің топтары берілмеген, классификациямен ұқсас және одан айырмашылығы бар заңдылық;

– уақытша заңдылық. Болжам жасау үшін қолданылатын, динамикалық мәліметтердің болуы.

иерархиялық кластерлеу мәні үлкен кластерлер немесе кішірек кластерлерді ірі дивизионда аз жүйелі бірлестік болып табылады.
Иерархиялық агломерациялық әдістері (агломерациялық беттеу, AGNES)
Бұл топ бастапқы элементтер мен кластерлерді санының тиісті төмендеуін үйлестіре отырып дәйекті әдістері сипатталады.
алгоритм объектілерін басында жекелеген кластерлер. алғашқы қадам кластерде бірге ең ұқсас нысандар болып табылады. Кейінгі қадамдар кәсіподақ ұзақ барлық нысандар бір кластері болуы мүмкін емес, себебі созылады.

алгоритм объектілерін басында жекелеген кластерлер. алғашқы қадам кластерде бірге ең ұқсас нысандар болып табылады. Кейінгі қадамдар кәсіподақ ұзақ барлық нысандар бір кластері болуы мүмкін емес, себебі созылады.

Иерархиялық divizimnye (бөлінетін) әдістері (келіспеушіліктер талдау, DIANA)
Бұл әдістер агломерациялық әдістерін логикалық қарама-қарсы болып табылады. барлық нысандар келесі қадамдары туралы сол кластердің тиесілі алгоритм басында аз кластерлерді бөлінеді, нәтижесінде бөлшектемей топтардың дәйектілігі.

Иерархиялық кластерлік талдау әдістері деректер жиынтығының аз мөлшерде пайдаланылады.
иерархиялық кластерлеу әдістерін артықшылығы олардың көріну болып табылады.
иерархиялық кластерлік талдау нәтижесі болып табылады, - ( «ағаш» грек Dendron дейін) филогенетикалық ағаштар құрылысына байланысты иерархиялық алгоритмдері.
Дендрограмме бір-біріне жеке нүктелері және кластерлерді жақындығын сипаттайды, бірлестіктің графикалық тізбегі кластерлерді (бөлу) болып табылады.
Дендрограмме (дендрограмме) - шоғырландыру кластерлерді дәйекті процесі қадамдардың біріне сәйкес әрқайсысы N деңгейін қамтитын ағаш диаграмма.
Сондай-ақ, ағаш дендрограмме кластерлер иерархиялық ағаш құрылымын үйлестіре ағаш сызбаны деп аталады.
дендрограмме иерархиясының түрлі деңгейлерде өзгеріп отырады заттарды топтау кірістірілген отыр.

Орытынды

Data Mining-ті қолдану саласы шектеусіз – ол қандайда бір жинақталған мәліметтері бар салалардың барлығында қолдануға болады. Бүгінгі таңда Data Mining әдістеріне Data Warehousing мәліметтер қоймасы негізінде жобаларын жүргізіп отырған коммерциялық мекемелердің зор қызығушылықтарын тудыруда. Әрі осындай мекемелердің тәжірибесі Data Mining-ті қолдану 100% пайдалы екенін көрсетуде. Data Mining басшылар мен аналитиктердің күнделікті қызметтерінде маңызы зор, олар Data Mining әдістерін қолдану арқылы бәсекеге қабілеттілікте елеулі артықшылықтарға те болады.

Data mining - қортындылап айтқында, деректер жинау(кейде деректер немесе білім ашу деп аталатын) әр түрлі жақтан деректерді талдау және пайдалы ақпарат оны жинақтаудың процесс болып табылады - табыс арттыру үшін пайдалануға болады ақпарат шығындарды, немесе екеуі де кеседі.

Иерархиялық кластерлеу әдістері әр түрлі кластерлер ережелер болып табылады. ережелер, олар топтардың (divizimnye әдістері) салыңыз тобына (агломерациялық әдістері) немесе бөлу бiрiктiрген кезде объектілердің «ұқсастық» туралы шешім қабылдау кезінде пайдаланылатын өлшемдер болғандықтан пайдаланылады.

Пайдаланылған әдебиеттер тізімі

1. Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.: ил. + CD-ROM - (Учебная литература для вузов). ISBN 978-5-9775-0368-6

2. Популярное введение в современный анализ данных в системе STATISTICA. Учебное пособие для вузов. – М.: Горячая линия – Телеком, 2015. – 288 с., ISBN 978-5-9912-0326-5

3. Электронный учебник Statsoft.ru

4. И.Чубукова. Data Mining: Информация. http://www.intuit.ru/

5. Э.А.Вуколов. Основы статистического анализа, М.: 2008 г.

Наши рекомендации