IV Разработать библиотеку морфологического анализа
Задания, альтернативные лабораторным работам, для групп 5-78-5,6
I Загрузка и парсинг словарей из Интернета
Парсинг морфемно-орфографического словаря
http://slovari.yandex.ru/~книги/Морфемно-орфографический%20словарь
Задачи:
1) выгрузить весь словарь;
2) сохранить в таблицу: id, слово, состав слова, комментарий, происхождение (ссылка на слово, от которого происходит текущее). Именование полей по усмотрению создателя БД. Состав слова - это формула вида Про/стил/а!/ть;
3) сохранить ударение в слове, заменив символ ударения восклицательным знаком.
Особые случаи:
1) Простилать(ся) Про/стил/а́/ть(ся). Необходимо разбить на два слова: простилать и простилаться.
2) Простлать Про/стл/а́/ть и про/стел/и́/ть, про/стел/ю́, про/сте́л/ет. Разбить на 4 слова (4 записи). Если состав слова отличается от слова, то слово создать по составу. Если это слово уже присутствует в базе, то добавлять не нужно.
3) Простой 1 Прост/о́й¹ (не сложный). Простой 2 Про/сто́й/² (вынужденное бездействие). Убрать цифры. То, что указано в скобках, отнести к комментариям.
4) Простойный Про/сто́й/н/ый (от про/сто́й/²). То, что в скобках, отнести в колонку происхождение, указав id слова, от которого происходит текущее.
5) Простирывать(ся) Про/сти́р/ыва/ть(ся) [от про/стир/а́/ть¹]. По аналогии с 4-м случаем.
6) Простодушие Прост/о/ду́ш/и/е [й/э]. То, что в квадратных скобках, не учитывать - удалить.
7) Простереть(ся) Простер/е́/ть(ся), простр/ёт(ся) прош. простёр(ся). Разбить на пары, учитывая, что е и ё разные буквы.
II Разработать и заполнить базу данных имен собственных
Атрибуты сущностей указанных ниже БД подсмотреть в Wikipedia. БД должны отражать максимум сведений об объектах, включая изображения (флаги, гербы, схемы, картинки животных, например) и аудио (гимны, например).
БД имен собственных политической карты мира.
Должны быть предусмотрены сущности: материк, страна, столица страны, территориальное деление (субъекты), столица субъекта.
Дальше к ним добавятся экономические показатели.
БД географических водных объектов.
Сущности: океаны, моря, проливы, заливы, реки, озера, водопады и прочие водоемы.
БД названий городов и населенных пунктов.
1) Россия;
2) Европа;
3) Северная америка;
4) Южная америка;
5) Весь восток, исключая Африку и Россию;
6) Африка;
7) Австралия и все оставшиеся островные государства.
5. БД оронимов (названия поднятых форм рельефа (гор, хребтов, возвышенностей, вершин, холмов, вулканов)) и прочих названий географических объектов (плато, равнины, пустыни и т.д.).
БД учебных заведений России.
БД российских литературных произведений и их авторов.
БД автомобилей и их марок.
БД Животный мир (фауна).
БД Растения (флора).
БД лекарств и лекарственных препаратов.
БД торговых марок (Российских и мировых).
БД ... можно предложить свои варианты.
III По указанным в таблице правилам разработать программу для склонения имен собственных личных (имя и фамилия)
Фрагмент таблицы правил склонения:
Соответственно будет база данных имен собственных личных.
IV Разработать библиотеку морфологического анализа
По аналогии с http://macrocosm.narod.ru/lingvo.html разработать БД и программу морфологического анализа на основе морфологического словаря Зализняка. Основное отличие от библиотеки MCR.dll будет заключаться в возможности пополнения БД.
В качестве аналога можно также взять phpMorphy http://phpmorphy.sourceforge.net/dokuwiki/
!Все структуры баз данных (сущности, их атрибуты, связи) должны быть проработаны со мной!