Alta Vista іздеу жүйесі
Alta Vista – тілді анықтау үшін белгілі бір бетте жасанды интеллект әдісін қолданылады және кілттік сөздер арқылы іздеу жұмыстарын жүргізеді. Қолданушылар қарапайым немесе күрделі түріндегі іздеу жүйелірін баптау мүмкіндіктері бар. Alta Vista кілттік сөздерді индекстеу іздеу жүйелерінен қарағанда, бүкіл тексті индекстейді, соның нәтижесінде іздеу жүйесі толық қамтылады. Бірақ, бұл әсерінен қолданушы ақпарат көзінде батып кетуі мүмкін. Дерекқор дүние жүзілік WWW-беттерінен және Usenet News жаңалықтарынан тұрады. 1997 жылға қарағанда мазмұнында отыз бір миллион WWW-беттер және он төрт мыңнан астам newsgroups жаңалықтары толығымен бар. Процедураны жеңілдету үшін Simple Search Help түсініктемелері бар. MMS іздеу арқылы булдік операцияларын қолдануға болады.
1.3-сурет - Altavista ортасы
Сұраныс түрлері
Белгілі пән аумағында іздеу машинасын қодану формат секілді семантикасы әр түрлі болады. Сұранысты іздеу аумағына байланысты максималды тура және пайдалы болуы тиіс. Кеңейтілген бір сұраныстан қарағанда, бірнеше тар сұраныстарды қолданған дұрыс. Жалпы жағдайда әр бір тезаурусқа жеке сұраныс пакеттері дайындалады.
Әр түрлі іздеу машиналары сұраныс тілдерін қоданылады. Оған мына алгебралық булдік операциялары жатады:
- and (және) – осы оператормен байланысқан барлық терминдерден іздеу жұмыстары жасалады;
- or (немесе) – осы оператормен байланысқан термин ең болмағанда бір рет болатын текстен іздеу жұмыстары жасалады;
- not (жоқ) – осы оператормен байланысқан терминнен тұрмайтын текстерден іздеу жұмыстары жасалады.
Арақашықтық операторлар көмегімен сөздердің орналасу тәртібі мен сөздердің арақашықтығын шектеуге болады. Мысалға:
- near – бірінші мен екінші терминдер арақашықтығы осы оператор арқылы анықталған сөз санынан аспауы тиіс;
- followed by – терминдердің орнатылған тәртіп бойынша орналасуы;
- adj – терминдердің орналасуы аралас болып келеді;
- терминдерді қысқарту мүмкіндігі;
- тілдің морфологиялық талдауы;
- сөз тіркестері, фразалар бойынша іздеу мүмкіндігі;
- құжаттың шығу күнін шектеу;
- текстегі сәйкес терминдер санын шектеу;
- суреттер бойынша іздеу;
- бас және кіші әріп сезімталдығы.
Файл іздеу жүйесі
Жылдан жылға компьютер қырқын дамып келеді. Өлшемі 80Мб қатты дискісі таң ғажайып болатын заман арта қалды. Технологиялық үрдіс арқасында ақпарат көзі көбейді. Аз көлемі құжатты іздеу қиын мәселеге әкеп соғуы мүмкін. Негізгі алгоритмдер бұрын жазылып қойылған. Файлды іздеу жүйесін екіге бөлінеді: сканерлік және үрдістік.
Сканер іздеу сұранысын алғанда дискіні анықталған тізбекті байт арқылы аралай бастайды. Сканер іздеу жүйелері бір тұтасты, бірақ интерфейс жағынан ерекшеленеді. Негізгі сканердің жеткіліксіз жері бар, ол қайта іздеу жүргізгенде барлық файлдар қайта қаралады. Сканер 1-2Гб құжаттар өлшемінде іздеу жүйесі баяу істейді.
Үрдістік бір көріністен индекстік базасын құрады және ол жерде қандай файлда қандай сөздерді тапқанын сақтайды. Келесі іздеу индекстік база бойынша жүргізіледі. Индекс құру арқасында файлдарды қайта өңдеуден босатады және қолданушының әр түрлі сұраныстарын өңдеуге мүмкіндік береді. Индекс базаның қасиеті бойынша бір үрдістен екінші үрдіске ауысуы мүмкін, сонымен бірге индекстік файлда қандай сөз болғанын көрсетуге және ол сөздің сол файлда қанша рет қайталануы, сөздің текстің басында қай жерде орналасуын еске сақтай алады. Нәтижесінде индекстік база құрылымында икемді іздеу жұмыстарына жасауға мүмкіндік береді. Мұндай жүйелер Google және Рамблерде қарасытырылған.
Үрдістік жүйені құруда негізгі мәселелерге тоқталып кетейік. Индекс жасалатын текст құрылымын зерттеу:
- морфологиялық талдау;
- сөздің орташа ұзындығы;
- сөздерді өлшемі бойынша анықтау;
- сөздердің жиілігі;
Индекс базаны анықтау:
- файлда сөз жалауының болуы;
- сөздің файлда қайталану есептеуіші;
- кездескен сөздің орналасу жиынтығынан массив тұрғызу;
- сөздің мағынасының ерекшеліктері;
- лексика;
Сөздердің морфологиялық талдауы әр түрлі болады. Жаңа сөздер құру үшін суффикс және көптеген қосымшалар арқылы жасалады. Яғни сөздік индексінің үлкеюіне әкеп соғады.
Морфологиялық талдаудан сөздік құрылған соң сөздің орташа ұзындығы 200-300 файлдар талдауы оңай есептеледі. Қарапайым компьютерде жалпы сөздің орташа өлшемі шамамен сегіз байт болады. Сөз қаншалықты ұзын болса, соншалықты жиі кездеседі. Мысалға 1.1 кестеде көрсетілгендей, 16 байт сөздің кездесу шамасы бір проценттен төмен.
Кесте-1.1 - Сөздің кездесу жиілгінің процент шамасы
Сөздің ұзындығы, байт | 2-4 | ||||||||||||
% бөлігі | 0,8 | 1% төмен |
Сөздіктер шамамен 50000-100000 сөздерден тұрады. Дарынды жазушы 10000-15000 сөздерді қолданса, қарапайым адам күнделікті өмірде 2000-4000 сөздерді қолданылады. Яғни, сөздердің қолдануына байланысты жиілігі әр түрлі болады, сәйкесінше әр түрлі файлдарда сөздердің кездесуі де әр түрлі болады. Мысалға келтірілген 1.2 кестеде файлдардағы сөздің кездесу жиілігін бақылауға болады.
Кесте-1.2 - Файлдарда сөздің кездесу жиілігі
Файларда 530 сөздің кездесуі | Сөздер саны |
128-ден көп | |
64-тен көп | |
16-дан көп | |
4-тен көп | |
1 - 4 |
Көрсетілген 1.2 кестедегі 256 файлдардан іздеу жүргізілген нәтижеден 80 % сөз тек 1-4 рет ғана кездесетінін көруге болады. Осындай жолмен сөздің жиілігін, компьютердің еске сақтау қабілетілігін минимизациялау қажет. Құрылымды анықтау үшін сақталынған мәліметтерді анықтау қажет.
Индекстік базаға қосылған ақпарат туралы айтып кеткен жөн. Файлда жалаудың болуы қарапайым жағдай. Индексацияның көмегімен біз қай файлда сөздің табылғанын анықтаумызға болады.
Логикалық операцияны туралы ойлап, іздеу үрдісті қосалқы екі сөзден іздеуге болады. Соның нәтижесінде сөздер кездесетін файлдар жиынтығын аламыз. Бірақ ол үшін сол файлдағы есептеуішті қайталау арқылы жасау керек. Сонымен қатар, құжаттың беделдеңгейін бағалау мүмкіндігі бар, яғни белгілі бір құжатта сөз басқа құжаттардан қарағанда көбірек кездесе, онда ол табылған жиынтығында бірінші болып шығады. Құжаттың беделдеңгейін енгізгенде көптеген нұсқаулар болуы мүмкін: жиілікті орнату мүмкіндігі, құжаттың басында жақын болуы, сөз қандай әріптен басталады және басқа көптеген нұсқауларды қолданушының сұраныстарын қанағатандыру үшін жасау керек.
Кездескен сөздің орналасу жиынтығының әдісі беделдеңгей және жалау әдістерінен қарағанда әлдеқайда алдыда. Файлда сөздің орналасуын сақтап, біз фраза бойынша сұранысты өңдей аламыз. Мұндай индекс инверторлық файл деп аталады, дегенмен сөздердің мазмұны ретпен орналасқан, қарапайым шығыстан салыстырғанда, сөз табылған жерде әр бір сөзге орналасқан орнының номерінен тұрады. Басты әріптер мен белгілер туралы қосымша ақпаратты сақтайтын болсақ, онда біз индекс көмегімен жоғалып бара жатқан құжаттарды қалпына келтіре аламыз.
Сақталынған ақпарат түріне байланысты индекстік база көлеміне көңіл аударайық, программалаушының шеберлігіне байланысты ақпаратты мүмкіндігінше қысқарту керек. Айтылып кеткендей сөздің орташа ұзындығы 8 байт, ал оны сақтауға 16 байт берсек, шамамен орташа 8 байт бекерге жоғалып кетеді. Көрген құжаттарда индекстік базаның процент көлемі 1.3 кестеде көрсетілген.
Кесте-1.3 - Индекс базасының көлемі
Индекс база түрі | Индекс көлемі, % |
Жалау | 3-5 |
Беделдеңгей | 6-15 |
Орын жиынтығы | Минимум 30-50 |
Соңғы индекс база түрін интернет желісінде қолданылады, оның көмегімен керек болса жоғалып кеткен құжатты қалпына келтіру, ал басқа жағынан қарасақ қолданушылар сұраныстарын өңдеуге мүмкіндік бар және табылған құжаттардың беделдеңгейін бағалауға болады. Бірақ бұл жүйе қарапайым қолданушы техникасынан қарағанда басқа техникада жұмыс істейді. Ол жерде оншақты терабайт көлемінде сақталынатын техникалары болады. Қарапайым компьютерде индекстік база үшін бос гигабайт бөлу қиын. Осыған байланысты жалау немесе болмай бара жатса беделдеңгей әдістерін қолданған дұрыс.
Ақпараттық жүйеге қойылатын талаптар
Ақпараттық жүйе (АЖ) – бұл қолданушыларға олардың сұраныстарына сәйкес түрде ақпаратты жинау, сақтау, іздеу, өңдеу және жеткізу үшін арналған. АЖ бағдарламалық құралдар кешенінен шешілетін есептерді өзіне қосады. Қолданушы үшін жүйе ыңғайлы және жақсы интерфейске және санкцияланбаған әрекеттерден қорғауға ие болуы қажет.
АЖ құрылымы – бұл ішкі жазықтық-уақыттық байланыстардың тұрақты тәртібі және элементтер мен ішкі жүйе бөлімдерінің арасындағы қатынасы, ішкі жүйенің атқаратын қызметтердің анықталуы және сыртқы ортамен өзара байланысы.
АЖ жабдықтаушы және функционалды бөлімдерден тұрады. Жабдықтаушы бөлімі – бұл есептердің және есептер комплексінің немесе ішкі жүйелерінің жиынтығы, бұл басқарудың маңызды бөлігін құрайды.
Ақпаратты жүйе тұрғызу мақсаты,ол фирма менеджерінің жұмысын автоматтардыру. Бұл жүйені автоматтандыруда бізге бірнеше талаптарды орындау қажет. Бұл талаптар мыналар:
- Ақпараттық жүйелер ресурстарына қойылатын талаптар
- Ақпараттық жабдықтауға қойылатын талаптар.
- Математикалық жабдықтауға қойылатын талаптар
- Лингвистикалық жабдықтауға қойылатын талаптар.
- Программалық жабдықтауға қойылатын талаптар.
- Эргономикалық жабдықтауға қойылатын талаптар.
- Ұйымдастырумен жабдықтауға қойылатын талаптар.