Предметно-ориентированные системы научной осведомленности в науке и образовании

 

Авторы статьи: Гайфуллин Б.Н., Негосударственное образовательное учреждение УКЦ Интерфейс, директор, Туманов В.Е., Институт проблем химической физики РАН, зав. лабораторией

В статье рассмотрены теоретические основы концепции предметно-ориентированных систем научной осведомленности, как узкоспециализированных информационно-аналитических систем для сбора, верификации, хранения, извлечения, интеллектуального анализа данных и производства новых знаний. Такие системы являются выделенным классом систем поддержки и принятия решений на основе технологии хранилищ данных и знаний в узкоспециализированных научных областях.

Введение

В результате научных экспериментов и компьютерного моделирования постоянно накапливаются большие объемы данных, которые организуются в электронные информационные ресурсы: базы и хранилища данных, электронные информационные и вычислительные системы, научные центры данных. Такие информационные ресурсы становятся местом накопления, хранения, верификации, извлечения, использования и распространения профессиональных и корпоративных знаний.

Эффективное развитие науки и высоких технологий требует интенсивной обработки и анализа фундаментальных знаний, накопленных в различных исследовательских организациях, что приводит к потребности в развитии информационных технологий накопления, извлечения и анализа предметно-ориентированных профессиональных знаний на основе разработки универсальных и специализированных моделей организации и представления научных данных и знаний в электронных ресурсах.

Таким образом, создание информационных ресурсов в Интернет, предназначенных для сбора, хранения, верификации, извлечения, распространения и производства новых профессиональных знаний в различных предметных областях является актуальной научной и научно-практической задачей.

Системы научной осведомленности

В последнее время бурное развитие получили системы деловой осведомленности или бизнес - аналитики (Business Intelligence System, BI System), в основе которых лежат технологии складирования данных (Data Warehousing), анализа и извлечения знаний (Data Mining) [1]. Успех в использовании систем деловой осведомленности в бизнесе привел к идее разработки и создания систем научной осведомленности (Science Intelligence System, SI System).

Одна из первых попыток дать определение систем научной осведомленности была предпринята в статье R. Hackathorn [2].

Определение 1. Система научной осведомленности есть "информационная инфраструктура, которая обеспечивает принятие решений и совместную работу научного сообщества в рамках выделенной предметной области знаний" [2].

Там же рассмотрена общая архитектура таких систем в разрезе категорий основных пользователей и использования современных информационных технологий.

В системах научной осведомленности научные решения, методология и методы исследований интегрируются в общую библиотеку решений, а данные из разнородных источников интегрируются в общее хранилище данных, которое через предметно-ориентированные информационные ресурсы поставляет информацию пользователям: ученым, технологам, студентам, преподавателям, представителям промышленности и государства. Особенностью систем научной осведомленности является предоставление пользователям, помимо собственно профессиональной информации, инструментария для анализа данных.

К основным требованиям, которые предъявляются к таким системам, относятся следующие.

Поскольку интенсивность потоков получаемых научных данных непрерывно растет, особенно в крупномасштабных научных проектах, используемые информационные технологии должны быть способны обработать эти потоки данных, что приводит к требованию масштабируемости данныхв таких системах.

         Источники данных зачастую имеют территориальную распределенность, что приводит к требованию наличия стандартов представления данных и открытостисистем научной осведомленности для приема и обработки научных данных.

         Как правило, полученные электронные массивы научных данных требуют применения сложных методов анализа, многократно и под различными углами зрения, что требует представления данных в форме, пригодной для применения различных методов интеллектуального анализа данных (Data Mining).

         От систем научной осведомленности требуется также наличие механизмов своевременной доставки данных конечному потребителю по первому требованию, также включая поиск опубликованных данных в системе научных библиотек.

         Поскольку системы научной осведомленности предназначены для коллективного использования и совместной работы, они должны предоставлять быстрый доступ к данным и простые способы обмена информацией между работающими, возможно, в разных странах специалистами.

         Перечисленные общие требования к системам научной осведомленности приводят к необходимости использования таких информационных технологий, как портальные технологии, технологии складирования данных, XML технологии, вычислительных кластеров, серверов высокой готовности и ряда других. Реализация указанных требований в полном масштабе возможна лишь в крупномасштабных, хорошо финансируемых научных проектах.

         Как видно из выше сказанного, системы научной осведомленности можно рассматривать как класс научных информационных систем, ориентированных на интеллектуальный анализ данных с целью поддержки принятия решений в сфере исследований и получения новых профессиональных знаний.

·       Элемент перечисления (маркированный список)

·       Элемент перечисления

Предметно-ориентированные системы научной осведомленности

         В национальном стандарте США [3] термин "производство знаний" определяется как:

·       разработка и обеспечение новых знаний (JECD 1966:2);

·       обстоятельства, при которых люди, группы людей и организации успешно генерируют новые знания и практики (OECD 2000:39).

         Далее в тексте работы под производством знаний понимается извлечение новых знаний из эмпирических данных в рамках компьютерной системы с участием человека и использованием методов прикладного искусственного интеллекта.

         В нашей работе [4] было дано определение предметно-ориентированных систем научной осведомленности , как узкоспециализированных систем научной осведомленности, которые кроме возможности решения задач интеллектуального анализа данных наделены способностью производства новых профессиональных знаний.

Определение 2. Предметно-ориентированная система научной осведомленности есть информационная инфраструктура, которая обеспечивает интеллектуальный анализ данных, принятие решений, производство новых знаний и совместную работу научного сообщества в рамках выделенной узкоспециализированной профессиональной области.

Общая программная архитектура такой системы показана на Рис. 1.

Рис. 1. Общая программная архитектура предметно-ориентированных систем научной осведомленности.

Как показано на рисунке 1, основными компонентами предметно-ориентированной системы научной осведомленности являются, помимо инструментария интеллектуального анализа данных, хранилище знаний и подсистема производства профессиональных знаний, включающая набор встроенные экспертных систем и искусственных нейронных сетей.

         С учетом требования анализа и производства знаний в программно-технологическую архитектуру предметно-ориентированных систем научной осведомленности предъявляются следующие дополнительные программные компоненты:

·       Компонент фактографических научных баз данных, содержащих экспериментальные или модельные данные, в частности, фундаментальные константы, числовые и лингвистические характеристики химических или физических процессов.

·       Компонент интеллектуального анализа данных. Поскольку новые инструменты научных исследований обладают исключительной точностью, увеличивается точность и качество фактографических данных. Для анализа таких данных с целью нахождения тонких эффектов, упущенных в предыдущих исследованиях, требуется набор алгоритмов, позволяющий проводить сложный анализ данных.

·       Компонент производства новых знаний. Найденные в результате интеллектуального анализа данных эмпирические закономерности позволяют строить прогнозы значений физических или химических процессов и оценивать значение фундаментальных характеристик материалов. Это создает предпосылки для встраивания в предметно-ориентированные системы научной осведомленности элементов прикладного искусственного интеллекта, например, экспертных систем для производства новых знаний и их сохранения в системе.

·       Компонент распространения профессиональных знаний (дистанционного обучения). Наличие такого компонента в системе делает ее более привлекательной для использования и распространения предметно-ориентированных знаний, а также служит привлечению заинтересованного круга профессиональных пользователей к производству новых знаний.

         Предметно ориентированные системы научной осведомленности могут быть созданы в научных проектах меньшего масштаба. При хорошо организованной и спроектированной системе метаданных, они легко могут быть интегрированы в более крупные системы научной осведомленности с учетом территориальной распределенности последних.

         Для разработки и создания предметно-ориентированных систем научной осведомленности целесообразно использовать технологии мультиагентных систем. Компонентом такой системы становится интеллектуальный агент, который можно представить в виде веб - приложения, наделенного искусственным интеллектом, и расположенного за некоторым внешним порталом. При этом сам агент ориентирован на обработку научных данных в узкоспециализированном разделе предметной области. При наличии протокола взаимодействия между такими агентами, система научной осведомленности в целом строится поэтапно.

Хранилище знаний предметно-ориентированных систем научной осведомленности

Центральным компонентом предметно-ориентированных систем научной осведомленности является хранилище знаний.

         Перед тем как дать определение хранилища знаний, напомним определение хранилища данных, приведенное в [5]. Под хранилищем данных понимается "предметно-ориентированная, интегрированная, неизменяемая и поддерживающая хронологию электронная коллекция данных для поддержки принятия решений".

Подобно хранилищу данных, хранилище знаний может рассматриваться как предметно-ориентированная, интегрированная, содержащая временные ряды и поддерживающая процесс принятия решений электронная коллекция. Однако, в отличие от хранилища данных, хранилище знаний является комбинацией неизменяемых и изменяемых объектов и компонент, и должна хранить не только данные, но и знания предметной области.

В процессе исследования данных методами интеллектуального анализа полученные знания могут изменяться. Так могут измениться параметры центра кластера в зависимости от поступления новых данных или используемого алгоритма кластеризации. Или может быть уточнен вид зависимости в данных. Например, параболический тренд может оказаться справедливым только в определенном интервале, а вне этого интервала будет иметь место линейный тренд. Компонент производства знаний может генерировать данные, которые являются прогнозом значений некоторого параметра, но экспериментального подтверждения не имеют, т.е. знания, хранимые в хранилище знаний, могут изменяться и дополняться в результате его эксплуатации.

         Дадим следующее определение хранилища знаний.

Определение 3. Хранилище знаний есть предметно-ориентированная, интегрированная, поддерживающая временные ряды данных электронная коллекция, которая содержит данные, знания, процедуры генерирования знаний и используется для анализа и исследования данных, производства новых знаний и поддержки принятия решений.

         Определение, приведенное выше, является расширением определения, данного в [6]. Существенное отличие настоящего определения состоит в добавлении в хранилище знаний компонентов интеллектуального анализа данных и средств генерирования знаний.

         Общая программно-аппаратная архитектура хранилища знаний приведена на Рис. 2.

Рис. 2. Общая программно-аппаратная архитектура хранилища знаний.

Как видно из рисунка 2, хранилище знаний включает хранилище данных для исследования (Exploration Data Warehouse), которое содержит неизменяемые во времени данные (экстенсиональный фрагмент хранилища данных), базу знаний выделенной предметной области, встроенные механизмы производства профессиональных знаний, хранилище производных данных (интенциональный фрагмент хранилища данных), интерфейс пользователя и интерфейс эксперта. Интерфейс пользователя предназначен для выборки и распространения знаний, а интерфейс эксперта -  для производства новых знаний.

         Таким образом, предметно-ориентированную систему научной осведомленности можно рассматривать как интеллектуальную систему в сети Интернет, назначением которой является сбор, хранение, верификация, извлечение, распространение и производство новых предметно-ориентированных знаний в конкретной предметной области человеческого знания.

         Использование при проектировании и создании такой системы портальных и мультиагентных технологий, т.е. создание их как веб - ориентированных программных систем с использованием элементов прикладного искусственного интеллекта, делает предметно-ориентированные системы научной осведомленности более удобными для поэтапной разработки.

         В основу модели данных системы можно положить совокупность связанных киосков данных, активно взаимодействующих как с базой знаний, так и с внешней средой. В качестве модели представления знаний можно использовать таблицы решений, правила продукций, фреймы, семантические сети.

Программно-технологическая архитектура предметно-ориентированной системы научной осведомленности в Интернет

         Предметно-ориентированные системы научной осведомленности предназначены для решения следующих задач:

·       сбор, верификация  и хранение фактографических и текстовых данных в рамках конкретно выбранной предметной области;

·       поиск данных фактографических и текстовых данных в рамках конкретно выбранной предметной области;

·       извлечение данных для выполнения интеллектуального анализа данных и сохранение результатов анализа в хранилище данных системы;

·       производство и распространение новых данных и профессиональных знаний в рамках конкретно выбранной предметной области.

Программно-технологическую архитектуру системы научной осведомленности безотносительно к конкретной программной области можно представить, как показано на Рис. 3.

Рис. 3. Программно-технологическая архитектура системы научной осведомленности.

Как показано на рисунке, система состоит из нескольких программных слоев. Первый слой реализован как предметно-ориентированное веб - приложение, которое предоставляет пользователю интерфейс и принимает управляющие решения. Данное веб - приложение предоставляет доступ к следующим программным компонентам системы: информационной подсистеме, аналитической подсистеме, подсистеме дистанционного обучения, встроенной подсистеме объяснений и подсистеме производства новых профессиональных знаний.

Второй слой состоит и интеллектуальных агентов, реактивных агентов и обученных искусственных нейронных сетей, которые реализуют работу встроенных в портал экспертных систем и выполняют функции поиска информации. Агенты распределены в различных узлах локальной сети.

Третий слой представляет собой хранилище знаний, которое состоит из:

·       хранилищ экспериментальных данных, реализованных как связанные киоски данных (интенсиональные киоски данных);

·       производных хранилищ данных, в которые пользователи имеют возможность заносить полученные ими в результате работы с системой новые значения (экстенсиональные киоски данных);

·       базы знаний, которая состоит из правил продукций, таблиц решений, процедур выполнения расчетов, алгоритмов кластерного анализа данных и общих фактов, используемых  экспертными системами;

·       электронных документов, которые в частности представляют собой материалы учебных лекций по предметной области, а также тезаурусы терминов и файлы подсистемы объяснений.

         Активными элементами (агентами) производства новых знаний в системе являются встроенные в портал или размещенные за порталом экспертные системы и искусственные нейронные сети, представленные как набор взаимодействующих веб -сервисов.

         Полученные в результате использования пользователем активных элементов могут быть сохранены в хранилище знаний. Такая возможность делает систему активной и позволяет заинтересованному научному сообществу накапливать в ней новые знания.

         Возможность пополнения системы предметными знаниями накладывает на ее функционал определенные ограничения. Такие ограничения связаны с необходимостью обеспечить достоверность заносимых в нее данных. Поэтому хранилище знаний системы состоит из двух разделов: базового раздела, составленного экспертами по данным научных публикаций, и раздела, произведенного пользователями системы.

         При попытке занесения новых данных в блок контекстного управления на основе логических рассуждений делает ряд проверок и выводов о достоверности этих данных, а затем принимает решение либо о занесении данных с определенным показателем их надежности, либо об отказе в запоминании данных.

         Одной из особенностей архитектуры системы, что делает ее привлекательной для использования в профессиональном образовании, является наличие подсистемы дистанционного обучения. Основу подсистемы дистанционного обучения составляют веб - ориентированные курсы лекций, разработанные для обучения студентов и аспирантов. Курсы включают в себя тексты лекций, электронные задачники, разнесенные по лекциям, и тесты.

         Подсистема объяснений блока контекстного управления обращается в случае необходимости к фрагментам лекций и управляющего тезауруса основных терминов при выполнении вычислений.

Многократное преобразование исходных данных и информации в предметно-ориентированных системах научной осведомленности, формирование предметных знаний и производство новых знаний делает решение задачи управления знаниями актуальным, поскольку система функционирует в среде Интернет.

Управление знаниями является набором формальных процедур управлением знаниями с целью обеспечения доступа и многократного использования заинтересованными группами с использованием новых технологий.

В предметно-ориентированной системе научной осведомленности знания рассредоточены по взаимосвязанным киоскам данных (факты) и базе знаний (правила, семантические сети). Для скоординированного их использования и производства новых знаний необходимо разработать формальную структурированную схему знаний. Сформулируем определение схемы знаний предметно-ориентированной системы научной осведомленности, исходя их представления о процессе управления знаниями.

Общий процесс управления знаниями включает:

·       Анализ предметной области. Идентификацию предметно-ориентированной области в ее терминах.

·       Концептуальное моделирование предметной области, основанное на создании терминологического глоссария (управляемого словаря) и определения взаимосвязи между терминами.

·       Сбор знаний из полнотекстовых источников, Интернет и информационных научных систем.

·       Конструирование базы знаний и тестирования ее компетенции на соответствие требованиям.

·        

Под схемой знаний будем понимать структурированную область знаний, которая может быть определена как отношение

,                                                                                              (9.1)

где

- управляющий словарь (Глоссарий терминов и принципов предметной области);

- физическая структура данных;

 - метаданные;

- модели предсказания и их интерпретация в терминах предметной области;

- база знаний;

- механизмы взаимодействия компонент системы.

Схему знаний можно смоделировать на основе раскрашенных сетей Петри, фреймов, семантической сети, продукционных правил или таблиц решений.

Заключение

Проведен анализ требований к системе и определены базовые функциональные возможности системы, предложена программно-технологическая архитектура системы, сформулирована концепция предметно-ориентированной системы научной осведомленности.

         Полученные результаты позволяют предположить, что разработка и публикация в сети Интернет предметно-ориентированных систем научной осведомленности на основе использования хранилищ знаний позволит научному сообществу создавать распределенные сети для сбора, хранения, извлечения, интеллектуального анализа, распространения и производства знаний в узкоспециализированных областях исследований и технологий. Создание таких систем возможно небольшими коллективами ученых.

Включение в такие системы подсистемы дистанционного обучения предметно-ориентированным знаниям значительно расширяет круг ее потенциальных пользователей (студентов и аспирантов), что способствует самостоятельному  формированию у них профессиональных знаний, а преподавательскому составу высших учебных заведений предоставляет дополнительный учебный материал и электронный ресурс-справочник.

         Таким образом, предложена теоретическая концепция проблемно-ориентированных систем управления, принятия решений и оптимизации объектов интеллектуального научного исследования. Такие системы могут стать основой для разработки методов получения, анализа и обработки экспертной информации в научной и технологической сферах деятельности.

Литература

1.   Thierauf R.J. Effective Business Intelligence Systems. - Westport. Quorum Books. 2001. - 392 p.

2.   Hackathorn R. Science Intelligence. Can a Business Intelligence Approach Enable "Smart" Science? DM Review. 2005. [Электронный ресурс] / Режим доступа: http://www.DMReview.com

3.   Proposed Draft American Standard. Knwoledge Management Vocabulary. April, 2003.

4.   Туманов В.Е.Предметно-ориентированные системы научной осведомленности в физической химии радикальных реакций // Сборник трудов пятой международной научно-практической конференции "Исследование, разработка и применение высоких технологий в промышленности". Том. 12. "Высокие технологии, фундаментальные и прикладные исследования, образование". - Санкт Петербург. Издательство Политехнического университета, 2008. - С. 41-42.

5.   Inmon W.H. Building the Data Warehouse. - John Wiley. 3nd Ed. 2004. - 412 p.

6.   Firestone J. M. Enterprise Information Portals and Knowledge Management. - Oxford: Butterworth-Heinemann. 2003. - 422 p.


Страница сайта https://www.interface.ru
Оригинал находится по адресу https://www.interface.ru/home.asp?artId=38023