Проблемы семантически обогащенных систем

Для выполнения анализа текстов и поддержки поиска с использованием семантики приходится иметь дело с огромными объемами текстов. Для этого непригодны ни традиционные файловые системы, ни традиционные СУБД. Первыми примерами систем управления данными, специализированными для обработки текстов, являются Map-Reduce [70], Google File System [71] компании Google и конкурирующие с ними открытые разработки компании Yahoo! Hadoop Map-Reduce, Hadoop Distributed File System [72]. Необходимо продолжать исследовать новые средства анализа текстов с

целью извлечения из них семантики, а также изучать требуемые свойства систем управления данными.

Фундаментальные проблемы управления данными

В соответствии с мнением ведущих исследователей сообщества баз данных [75-76] и последними наиболее авторитетными международными конференциями в области управления данными (International Conference on Very Large Data Bases [77], ACM SIGMOD International Conference on Management of Data [78], International Conference on Data Engineering [79]) в области управления данными имеется несколько фундаментальных проблем.

Интеграция текста, данных, кода и потоков

Пора прекратить встраивать новые конструкции в старую реляционную архитектуру. Нужно переосмыслить базовую архитектуру СУБД с целью поддержки структурированных данных; текстовых, пространственных, темпоральных и мультимедийных данных; процедурных данных, т.е. типов данных и инкапсулирующих их методов; триггеров; потоков и очередей данных как равноправных компонентов первого сорта внутри архитектуры СУБД (как на уровне интерфейсов, так и на уровне реализации).

Интеграция информации

Требуется интеграция, возможно, миллионов информационных источников «на лету». В связи с этим существует множество нерешенных проблем: семантическая неоднородность; неполнота и неточность данных; ограниченность доступа к конфиденциальным данным и т.д.

Сенсорные данные и сенсорные сети

При запросе данных у сенсорной сети часто более выгодным является полное распределение вычислений по отдельным узлам: сеть становится своего рода машиной баз данных. При вычислении запроса необходимо уметь изменять план запроса при

изменении сети по причине выхода из строя сенсора или его отключения от сети. Усложняется и интеграция информации, потому что сенсоры обычно не являются полностью калиброванными.

Использование неточных данных

СУБД должны обеспечивать встроенную поддержку неточных данных. Обработка запросов должна базироваться на вероятностной, недетерминированной модели; процессор запросов должен накапливать факты, чтобы обеспечивать все лучшие и лучшие ответы на запросы пользователей. У пользователей должна иметься возможность задания неточных запросов, и процессор запросов должен относиться к этому как к дополнительному источнику неполноты и неточности. При выдаче неточного ответа на запрос пользователя система должна характеризовать уровень его точности, чтобы пользователи могли понять, достаточна ли она для их потребностей. Аналогом может быть уровень релевантности ответа, выдаваемый информационно-поисковыми системами.

Самоадаптация

Задачей исследовательского сообщества является отказ от «ручек управления» в СУБД: все настроечные решения должны приниматься системой автоматически под влиянием принятой по умолчанию политики, такой как, например, относительная важность реактивности и пропускной способности.

Безопасность и конфиденциальность данных

Решения о правомерности доступа должны основываться не только на том, кто запрашивает данные, но и на том, что он собирается с ними делать. Сообщество баз данных могло бы предложить декларативные системы, определяющие цели запроса данных, поскольку уже имеется опыт разработки ориентированных на данные декларативных спецификаций для других целей.

Как видно из предыдущих разделов, многие из этих фундаментальных проблем уже частично решены или находятся в состоянии исследования. Тем не менее, до их полного решения еще далеко, и требуется расширять и углублять исследовательскую работу.

Заключение

В статье приводится аналитический обзор нескольких областей управления данными, представляющихся в настоящее время наиболее важными. В каждом из этих направлений указываются имеющиеся достижения и проблемы, решение которых будет способствовать улучшению характеристик систем. Для решения подобных проблем требуются исследования и опытно-конструкторских работы. Обсуждаются фундаментальные проблемы управления данными, требующие проведение научно-исследовательских работ.




Литература

1. С.Д. Кузнецов. Базы данных: языки и модели. Москва, Бином, 2008

2. Марк Ривкин. Новая версия СУБД Oracle - Oracle 11g. Oracle Magazine - Русское издание (Май Июнь 2007). http://www.oracle.com/global/ru/oramag/mayjune2007/russia_oracle_11g.html

3. К. М. Саракко. Что нового в DB2 Viper. http://www.ibm.com/developerworks/ru/library/dm-0602saracco/

4. Мишель Дамлер. Microsoft SQL Server 2008. Общие сведения о продукте. https://msdb.ru/Downloads/sql/2008/sqlserver2008_productoverview_final_rus.doc

6. Oracle Real Application Clusters Administration and Deployment Guide 11g Release 1 (11.1). http://download.oracle.com/docs/cd/B28359_01/rac.111/b28254/title.htm

7. Whei-Jen Chen, Alain Fisher, Aman Lalla, Andrew D McLauchlan, Doug Agnew. Database Partitioning, Table Partitioning, and MDC for DB2 9. http://www.redbooks.ibm.com/abstracts/SG247467.html?Open

8. Query Optimization in Oracle Database10g Release 2. An Oracle White Paper June 2005. http://www.oracle.com/technology/products/bi/db/10g/pdf/twp_general_query_optimization_10gr2_0605.pdf

9. Brian Babcock, Surajit Chaudhuri. Towards a Robust Query Optimizer: A Principled and Practical Approach. Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data, pp. 119–130. ftp://ftp.research.microsoft.com/users/autoadmin/sig05_p119.pdf

10. V. Markl, G. M. Lohman, and V. Raman. LEO: An autonomic query optimizer for DB2. IBM Systems Journal, Volume 42, Number 1, 2003. http://www.research.ibm.com/journal/sj/421/markl.html. Имеется перевод на русский язык. Виджайшанкар Раман, Волкер Маркл, Гай Лохман. LEO: самонастраивающийся оптимизатор запросов для DB2. Открытые системы, N 4, 2003. http://www.osp.ru/os/2003/04/182936/_p1.html

11. Surajit Chaudhuri, Vivek Narasayya. Self-Tuning Database Systems: A Decade of Progress. Proceedings of the 33rd International Conference on Very Large Data Bases, pp. 3-14. http://www.vldb2007.org/program/papers/special/p3-chaudhuri.pdf

12. С.Кузнецов. Развитие идей и приложений реляционной СУБД System R. http://www.citforum.ru/database/articles/art_27.shtml

13. Иван Бодягин. Версионность в Yukon. RSDN Magazine #6-2003. http://www.rsdn.ru/article/db/yukonvers.xml

14. Oracle 11g Release 1 (11.1) Database Concepts. Chapter 13. 13 Data Concurrency and Consistency. http://download.oracle.com/docs/cd/B28359_01/server.111/b28318/consist.htm

15. Аруп Нанда. SecureFiles: новые большие объекты. http://www.oracle.com/global/ru/oramag/apr2008/apr-08_11g_sfs.pdf

16. Электронная документация по SQL Server 2008. Общие сведения о FILESTREAM. http://technet.microsoft.com/ru-ru/library/bb933993(SQL.100).aspx

17. С.Д. Кузнецов. Объектно-реляционные базы данных: прошедший этап или недооцененные возможности? Труды Института системного программирования, т. 13, часть 2, М., ИСП РАН, 2007, стр. 115-140. http://citforum.ru/database/articles/ordbms10/

18. Б.Б.Костенко, С.Д. Кузнецов. История и актуальные проблемы темпоральных баз данных. Труды Института системного программирования, т. 13, часть 2, М., ИСП РАН, 2007, стр. 77-114. http://citforum.ru/database/articles/temporal/

19. Oracle 11g. Oracle Flashback Technology. http://www.oracle.com/technology/deploy/availability/htdocs/Flashback_Overview.htm

20. Электронная документация по SQL Server 2005 (сентябрь 2007 г.). Основные понятия компонента Full-Text Search. http://technet.microsoft.com/ru-ru/library/ms142547.aspx

21. Дуглас Шерер и Кэрол Бреннан. Изучение основ Oracle Text. http://www.oracle.com/global/ru/oramag/may2001/intermedia_3.html

22. DB2 Net Search Extender. http://www-306.ibm.com/software/data/db2/extenders/netsearch/

23. Oracle TimesTen In-Memory Database. Обзор. http://www.oracle.com/global/ru/pdfs/tech/tg_oracle_imdb.pdf

24. СУБД ЛИНТЕР. Технический обзор. http://www.citforum.ru/database/linter/overview/rel1.shtml#a1

25. Павел Пасечник, Михаил Ермаков. Особенности функционирования СУБД ЛИНТЕР в операционных системах реального времени. Труды Тринадцатой технической конференций «Корпоративные базы данных-2008». http://citforum.ru/seminars/cbd2008/1_6/

26. Официальный сайт MySQL. http://www.mysql.com/about/

27. Официальный сайт PostgreSQL. http://www.postgresql.org/

28. Официальный сайт Firebird. http://www.firebirdsql.org/

29. Корпорация Sun Microsystems завершила сделку по приобретению компании MySQL. Пресс-релиз Sun Microsystems от 26 февраля 2008 г. http://ru.sun.com/news/press/2008/february/pr260208.html

30. MySQL Enterprise Server 5.1. http://www.mysql.com/products/enterprise/server.html

31. Олег Бартунов. Что такое PostgreSQL? http://www.citforum.ru/database/postgres/what_is/

32. Олег Бартунов, Федор Сигаев, Николай Самохвалов, Иван Золотухин, Российская группа PostgreSQL. Труды Тринадцатой технической конференций «Корпоративные базы данных-2008». http://citforum.ru/seminars/cbd2008/1_9/

33. EnterpriseDB Corporation. http://www.enterprisedb.com/indexhome.do

34. Владислав Хорсун. Firebird 2.1: новые возможности. 2-ая Российская Конференция по Firebird и InterBase. 23 ноября 2007 г. http://www.ibase.ru/conf2007/ppt/Firebird.2.1.2007.ru.pdf

35. А.В.Замулин. Системы программирования баз данных и знаний Новосибирск: Наука: Сиб. отд-е. 1990.

36. J.W. Schmidt and F. Matthes. The DBPL Project: Advances in Modular Database Programming. Information Systems, 19(2):121-140, 1994 http://www.sts.tu-harburg.de/papers/1994/ScMa94.pdf

37. Atkinson, M.P., Bailey, P.J., Chisholm, K.J., Cockshott, W.P. & Morrison, R. ―PS-algol: A Language for Persistent Programming‖. In Proc. 10th Australian National Computer Conference, Melbourne, Australia (1983) pp 70-79.

http://www.dcs.st-and.ac.uk/rsch/publications/download/ABC+83b.pdf

38. The Object Data Standard: ODMG 3.0. Edited by R.G.G. Cattel, Douglas K. Barry. Morgan Kauffmann Publishers, 2000

39. GemStone Systems Inc. http://www.gemstone.com/

40. Objectivity, Inc. http://www.objectivity.com

41. Versant Corp. http://www.versant.com/

42. Progress Software Corporation. Progress ObjectStore. http://www.objectstore.net

43. Сергей Кузнецов. «Объектны» ли объектные расширения языка SQL? http://www.citforum.ru/database/articles/sql_odmg/

44. ODBMS.ORG: образовательный и исследовательский портал. http://www.odbms.org/

45. db4objects, Inc. http://www.db4o.com/

46. ICOODB: International Conference on Object Databases, March 13-14, 2008, Berlin. http://odbmsjournal.org/icoodb/index.html

47. Michael Card. Next-Generation Object Database Standardization. Object Database Technology Working Group White Paper. http://www.odbms.org/download/033.01%20Card%20Next-Generation%20Object%20Database%20Standardization%20September%202007.PDF

48. William Cook, Ali Ibrahim. Integrating Programming Languages and Databases: What is the Problem? http://www.odbms.org/download/010.03%20Cook%20Integrating%20Programming%20Languages%20and%20Databases_What%20is%20the%20Problem%20September%202006.PDF. Имеется перевод С.Д. Кузнецова. Вильям Кук, Али Ибрагим. Интеграция языков программирования с базами данных: в чем состоит проблема? http://www.citforum.ru/database/articles/impedance_mismatch/

49. Ted Neward. The Vietnam of Computer Science. http://blogs.tedneward.com/2006/06/26/The+Vietnam+Of+Computer+Science.aspx. Имеется пересказ С.Д. Кузнецова. Тед Ньюард. Вьетнам компьютерной науки. http://www.citforum.ru/database/articles/vietnam/

50. Malcolm Atkinson, Francois Bancilhon, David DeWitt, Klaus Dittrich, David Maier, and Stanley Zdonik: ―The Object-Oriented Database System Manifesto‖, Proc. 1st

International Conference on Deductive and Object-Oriented Databases, Kyoto, Japan (1989). New York, N.Y.: Elsevier Science (1990). Имеется перевод на русский язык. М. Аткинсон и др. «Манифест систем объектно-ориентированных баз данных», СУБД, No. 4, 1995. http://old.osp.ru/dbms/1995/04/23.htm

51. The LINQ Project. http://msdn2.microsoft.com/en-us/netframework/aa904594.aspx

52. D. Abadi, D. Carney, U. Cetintemel, M. Cherniack, C. Convey, C. Erwin, E. Galvez, M. Hatoun, J. Hwang, A. Maskey, A. Rasin, A. Singer, M. Stonebraker, N. Tatbul, Y. Zing, R.Yan, and S. Zdonik. Aurora: A Data Stream Management System (demo description). In Proceedings of the 2003 ACM SIGMOD Conference on Management of Data, San Diego, CA, 2003. http://www.cs.brandeis.edu/~mfc/papers/AuroraDemo.pdf

53. S. Chandrasekaran, O. Cooper, A. Deshpande, M. J. Franklin, J. M. Hellerstein, W. Hong, S. Krishnamurthy, S. R. Madden, V. Raman, F. Reiss, and M. A. Shah. TelegraphCQ: Continuous Dataflow Processing for an Uncertain World. In Proc. of the 1st CIDR Conference, Asilomar, CA, 2003. http://www.cs.berkeley.edu/~franklin/Papers/TCQcidr03.pdf

54. StreamBase Systems. http://www.streambase.com/about-home.htm

55. Michael Stonebraker, Uğur Çetintemel. «One Size Fits All»: An Idea Whose Time Has Come and Gone. http://www.cs.brown.edu/~ugur/fits_all.pdf. Имеется перевод С.Д. Кузнецова. Майкл Стоунбрейкер, Угур Кетинтемел. «Один размер пригоден для всех»: идея, время которой пришло и ушло. http://www.citforum.ru/database/articles/one_size_fits_all/#3

56. S. Madden, M. Franklin, J. Hellerstein, and W. Hong. The Design of an Acquisitional Query Processor for Sensor Networks. In Proceedings of SIGMOD, San Diego, CA, 2003. http://db.cs.berkeley.edu/papers/sigmod03-acqp.pdf

57. Extensible Markup Language (XML) 1.0 (Fourth Edition). W3C Recommendation. http://www.w3.org/TR/2006/REC-xml-20060816/. Имеется перевод на русский язык второй редакции описания. Расширяемый язык разметки (XML) 1.0 (вторая редакция). http://www.rol.ru/news/it/helpdesk/xml01.htm.

58. SOAP Version 1.2 specification. http://www.w3.org/TR/soap12

59. Консорциум World Wide Web. http://www.w3.org

60. XQuery 1.0: An XML Query Language. W3C Recommendation 23 January 2007. http://www.w3.org/TR/2007/REC-xquery-20070123/

61. Progress Sonic XML Server. http://www.sonicsoftware.com/products/sonic_xml_server/index.ssp.

62. Mark Logic. http://www.marklogic.com/

63. X-Hive Corporation. http://www.x-hive.com/

64. Sedna Native Database System. http://modis.ispras.ru/sedna/

65. М. Гринев, С. Кузнецов, А. Фомичев. XML-СУБД Sedna: технические особенности и варианты использования. Открытые системы, N 8, 2004, стр. 36-43. http://www.osp.ru/os/2004/08/185085/.

66. Tim Berners-Lee. Semantic Web Road map. http://www.w3.org/DesignIssues/Semantic.html. Имеется перевод на русский язык. Тим Бернерс-Ли. Дорожная карта семантического WEB'а. http://gridclub.ru/library/publication.2007-04-23.2195467714/publ_file/.

67. Resource Description Framework. http://www.w3.org/RDF/

68. OWL Web Ontology Language. http://www.w3.org/TR/owl-features/

69. Владислав Рябышкин, Сергей Танков, Сергей Киселев, Николай Ильин. Технологии извлечения знаний из текста. Открытые системы, N 6, 2006. http://www.osp.ru/os/2006/06/2700556/

70. Jeffrey Dean and Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. http://labs.google.com/papers/mapreduce.html

71. Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The Google File System. http://labs.google.com/papers/gfs.html

72. Hadoop Project Description. http://wiki.apache.org/hadoop/ProjectDescription

73. Сергей Кузнецов. Крупные проблемы и текущие задачи исследований в области баз данных. http://www.citforum.ru/database/articles/problems

74. The Lowell Database Research Self-Assessment Meeting. http://research.microsoft.com/~gray/lowell/

75. International Conference on Very Large Data Bases. http://www.vldb.org/

76. ACM SIGMOD/PODS 2007 Conference. http://sigmod07.riit.tsinghua.edu.cn/

77. 23rd International Conference on Data Engineering. http://www.icde2007.org/

Наши рекомендации