Файл: Разработка прототипа базы знаний современного научного сообщества М. А. Григорьева.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 08.11.2023
Просмотров: 30
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Разработка прототипа базы знаний современного
научного сообщества
М. А. Григорьева
1,а
, В. А. Аулов
1,б
, М. В. Голосова
1,в
, М. Ю. Губин
2,г
,
А. А. Климентов
3,д
1
Национальный исследовательский центр « Курчатовский институт»,
Москва, пл. Академика Курчатова, д.1 2
Национальный исследовательский Томский Политехнический Университет,
Томск, проспект Ленина, д. 30 3
Брукхэйвенская Национальная Лаборатория, США , Брукхэйвен авеню, Аптон, NY 11973
E-ma il: a maria.g rigorieva@cern.ch, б vasiliyaulov@gma il.co m, в marina.golosova@cern.ch, г ma ksim.gubin@cern.ch, д ale xe i.klimentov@cern.ch
Современные научные эксперименты с интенсивной обработкой данных имеют длительный жи з- ненный цикл, сложную распределенную программно-аппаратную инфраструктуру, в которой хранятся данные со тни петабайт и обратываются экзабайты данных. Все стадии жизненного цикла эксперимента сопровождаются вспомогательными метаданными, необходимыми для мониторирования процессов о б- работки и управления, а также для воспроизводимости результатов эксперимента. В большинстве нау ч- ных сообществ метаданные, описывающие цепочки анализа и обработки данных, и метаданные о публи- кации научных результатов, существуют независимо друг от друга. Кроме того, чтобы воспроизвести или подтвер дить результаты уже проведенного эксперимента, ученым бывает необхо димо провести ис- следования при тех же условиях, проверить результаты обработки наборов данных новой версией пр о- граммного обеспечения, или опробовать новые алгоритмы. Во т почему вся информация об анализе да н- ных должна быть со хранена, начиная от вы двигаемой гипо тезы и цепочки преобразования данных, и до публикации результатов. Описанная в работе база научных знаний (Data Knowledge Base - DKB) обеспе- чивает хранение и быстрый доступ к релевантной научной и вспомогательной метаинформации. В осн о- ве DKB лежит онтология научных исследований в области физики высоких энергий. Ар хитектура DKB имеет два уровня хранения данных: хранилище Hadoop, в котором данные от различных источников м е- таданных интегрируются, агрегируются и обрабатываются, и онто логическое хранилище Virtuoso, в ко- тором сохраняются все извлеченные данные. Агенты DKB обрабатывают и агрегируют метаданные из систем управления и обработки данных, интерфейсов поиска метаданных, ар хивов тезисов конференций и статей. Дополнительно эти метаданные связываются с соответствующими интернет-ресурсами (в сис- темах ко ллективного анно тирования и до кументирования Twiki, редактирования документов и таблиц –
Google Docs), и информацией, извлекаемой из полных текстов научно -исследовательской документации.
DKB агенты позво ляют извлекать, агрегировать и интегрировать всю необходимую метаинформацию автоматически, избавляя ученых о т необхо димости по дробно аннотировать каждый компонент экспер и- мента.
Ключевые слова: база научных знаний, онто логия, RDF -хранилище, Virtuoso, жизненный цикл экс- перимента, цепочка обработки данных, научная публикация.
Работа выполнена при финансовой поддержке гранта Правительства Российской Федерации, выделенного на кон- курсной основе для государственной поддержки научных исследований, проводимы х под руководством ведущих ученых в российских образовательных учреждения х высшего профессионального образования (постановление пр а- вительства № 220 от 9 апреля 2010 года), по договору № 14.Z50.31.0024.
© 2016 Мария Александровна Григорьева, Василий Александрович Аулов, Марина Владимировна Голосова,
Максим Юрьевич Губин, Алексей Анатольевич Климентов
26
1.
Введение
Одной из основных проблем развития современной науки стало стремительное нарастание объемов информации с экспериментальных установок, метаинформации, версий программного обеспечения, используемого для анализа, обработки и хранения данных. Особенно актуальна эта проблема для научных исследований, проводимых и планируемых на базе крупнейших ус- тановок, таких как NICA, XFEL, LHC, ITER, FAIR и др. Научные коллаборации, ведущие ис- следования на таких установках, включают ученых из десятков стран, а сама программа иссле- дований продолжается 15-20 лет. Сотни петабайт данных, генерируемых с помощью научных установок, требуют распределенной системы управления, хранения и доступа, а также распре- деленных центров высокопроизводительных вычислений для анализа и обработки данных.
Учитывая длительность и сложность современных исследований, каждый этап проведения научного эксперимента, от формулирования гипотезы и выбора методов исследования, прове- дения эксперимента в заданных условиях аппаратного, программного и физического окруже- ния, до обсуждения результатов на совещаниях и конференциях, и публикации результатов, сопровождается сбором и хранением большого количества вспомогательной информации (ме- таданных), регистрируемой в различных репозиториях. Однако эти репозитории существуют независимо друг от друга и практически не имеют семантической связи, что затрудняет автома- тизацию сопровождения эксперимента.
Работа, представленная в данной статье, посвящена разработке базы научных знаний (Data
Knowledge Base - DKB) - платформы, позволяющей интегрировать метаданные из структуриро- ванных и документальных источников, и обеспечивающей удобную инфраструктуру хранения и доступа к метаданным научного исследования. DKB позволит интегрировать в единое ин- формационное пространство метаинформацию всех стадий жизненного цикла научных иссле- дований. Данная статья ориентирована на источники метаданных эксперимента АТЛАС на
БАК, но возможное применение такой базы знаний может быть в любом из современных экс- периментов, специфика АТЛАС важна только на этапе как происходит агрегирование исходной информации. В статье будут представлены: основные источники метаданных эксперимента
ATLAS, метод формализации предметной области – онтологическая модель научного исследо- вания, прототип архитектуры базы научных знаний, метод извлечения метаданных из полных текстов научных документов и статей, и предложена технология автоматизации рабочего пото- ка экспорта и импорта данных в RDF-хранилище.
2. Метаданные эксперимента ATLAS
Для формирования общей картины научного исследования, а также всей вспомогательной метаинформации, было проведено исследование источников метаданных в эксперименте
ATLAS. Условно, их можно разделить на две группы:
1) метаданные процесса распределенной обработки и анализа данных:
–
Rucio (Distributed Data Management System) – распределенная система управле- ния и передачи данными, обеспечивающая формирование наборов данных и управление передачей информации в распределенной компьютерной среде;
–
Production System – система обработки и анализа данных и управления загруз- кой, распределяющая задания обработки и анализа в гетерогенной среде. Она состоит из трех компонент: DEFT (Database Engine For Tasks) – СУБД управления заданиями, JEDI
(Job Execution and Definition Interface) – СУБД управления задачами, PanDA (Production and
Distributed Analisys System) – система управления рабочим потоком;
–
JIRA ITS (Issue Tracking Service) – сервис отслеживания ошибок;
27
–
Исходные коды анализа и обработки данных хранятся в репозиториях системы контроля версий;
–
Исследовательские группы хранят списки наборов экспериментальных и моде- лированных данных в Google Docs и в Twiki;
–
Программные и аппаратные конфигурации хранятся в образах виртуальных ма- шин ATLAS;
2) метаданные о процессе представления и публикации научных результатов:
Эта группа метаданных в основном формируется из документальных источников: пре- принты, статьи, труды конференций и пр., хранящиеся в системе документооборота ЦЕРН
(CERN Document Server), InSpire, на страницах Twiki и JIRA, а также в системе Indico.
Все эти системы независимы и информация между ними не синхронизирована. Частичную связность между ними обеспечивают системы AMI
1
(Metadata Interface and database) – фрейм- ворк для каталогизации и поиска метаданных ATLAS, GLANCE
2
- мощный поисковый движок для коллабораци ATLAS,агрегирующий метаинформацию из различных источников. Однако и они не позволяют представить весь жизненный цикл научного исследования от физической ги- потезы до анализа результатов и научной публикации [Григорьева, Голосова, …, 2015].
3. Прототип архитектуры базы научных знаний
Рисунок 1. Прототип ар хитектуры DKB
В общем виде, база научных знаний представляет собой группу сервисов обработки дан- ных из структурированных и документальных источников, и их интеграции в онтологическом хранилище. Прототип архитектуры разрабатываемой базы научных знаний приведен на рисун- ке 1. Онтологический подход, благодаря целостному описанию предметной области, позволяет значительно расширить понимание взаимосвязей между различными этапами, вспомогатель- ными подсистемами и документами научного эксперимента, и, возможно, найти связи, которые ранее были недоступны, не замечены или неизвестны [Allemang, Hendler, 2011].
1
http://ami.in2p3.fr/index.php/en/
2
https://atglance.web.cern.ch/atglance/
28
4. Разработка онтологической модели научного исследования
Чтобы построить полную онтологическую модель научного исследования, необходимо формализовать описание всех имеющихся в исследовании этапов, параметров, процессов, уча- стников и других сущностей. На сегодняшний день существуют онтологии, позволяющие опи- сывать как научные публикации (Dublin Core, SKOS, CERIF, и др), так и научные эксперимен- ты в целом (EXPO, Detector Final State, CSMD) [Soldatova, King, 2006]. Учитывая наработки существующих онтологических моделей, и специфику метаданных эксперимента ATLAS, был разработан фрагмент онтологического представления научного исследования, который позво- ляет параметрически описывать эксперименты, документы, включая их наследование, авторов, и наборы научных данных.
Рисунок 2. Фрагмент онтологии эксперимента ATLAS
Основной сущностью онтологической модели является документ (Document). Документы могут быть нескольких типов: публикации, внутренняя документация, выпуск журнала, и др.
Все публикации опубликованы в соответствующем выпуске научных журналов (JournalIssue) - связь “publishedIn”/”hasPublication”, и основаны на соответствующих внутренних документах
(связь “isBasedOn”). Любой документ имеет автора (ATLASMember)
- связь
“hasAuthor”/”wrote”. Внутренние документы имеют ссылки на сэмплы данных (Data Sample) - связь “referTo”/“useIn”. Документы и сэмплы данных могут быть отнесены к определенному физическому эксперименту (PhysicsExperiment) по набору общих атрибутов. В настоящее вре- мя такими атрибутами определены: название проекта физического анализа (Project), и кампа- нии (Campaign), ключевые слова (Keywords), название физической группы (Physics Group). В дальнейшем набор общих атрибутов будет увеличиваться, что позволит обеспечить более сильную связность между метаданными.
5. Извлечение информации из текстов научных публикаций
Исходные тексты научных документов находятся в формате PDF. Данный формат весьма удобен для восприятия человеком, но, к сожалению, мало приспособлен для машинной обра- ботки. После изучения имеющихся инструментов по работе с PDF, в качестве средства первич-
29
ной обработки был выбран PDFMiner. Он позволяет извлекать текст из PDF и сохранять его в одном из нескольких форматов, среди которых используются TXT и XML.
В формате TXT все имеющиеся в PDF символы (с добавлением пробелов, пустых строк и т.д.) конвертируются в сплошной поток текста, независимо от размера шрифта. В результи- рующем тексте довольно просто (по сравнению с другими подобными программами) отделить куски основного текста документа от разнообразного «мусора», такого как номера строк.
Именно это послужило причиной выбора PDFMiner в качестве средства первичной обработки.
В формате XML перечисляется каждый символ документа, с указанием положения на странице и размера шрифта. Данный формат сложнее анализировать, но содержащаяся в нем дополнительная информация необходима в тех случаях, когда нужно учитывать относительное положение символов (например, в таблицах).
Для дальнейшей обработки был разработан анализатор - PDFAnalyzer, который осуществ- ляет поиск полезной информации в извлеченном тексте. Простейший случай - поиск датасетов
(то есть наборов данных) в основном тексте статьи с помощью регулярных выражений, воз- можный благодаря существованию строгой номенклатуры именования датасетов. В некоторых документах датасеты содержатся в таблицах, обрабатывать которые значительно сложнее - не- обходимо проанализировать каждую страницу с таблицей в формате XML, отделить данные таблицы от всего остального, а затем сконструировать из них столбцы и строки.
Анализ текстов сильно затрудняется прежде всего двумя факторами: упомянутой вначале сложностью конвертации PDF (к примеру, при мелком размере шрифта символы подчеркива- ния могут считываться как пробелы) и тем, что документы писались с расчетом на чтение людьми, поэтому авторы документов могут именовать разделы с данными и колонки таблиц в довольно свободной форме, употреблять интервалы в названиях датасетов и т.д. Тем не менее, разработанный анализатор обрабатывает 70% имеющихся PDF документов.
6. Реализация и автоматизация рабочего потока при экспорте и им-
порте данных в RDF-хранилище Virtuoso
Задачу заполнения базы научных знаний и поддержания её в актуальном состоянии можно разбить на три подзадачи:
– получение метаданных из внешних источников знаний;
– обработка полученных метаданных (выделение нужной информации и приведение её к виду, в котором она будет храниться в конечных хранилищах базы научных знаний);
– сохранение обработанных метаданных в конечных хранилищах.
Обработка данных может состоять из нескольких последовательных действий. В простей- шем случае процесс можно представить в следующем виде:
Рисунок 3. Схематичное представление по тока данных о т источника к конечному хранилищу
Однако в реальности на каком-то этапе обработки исходных метаданных могут потребо- ваться метаданные из нескольких внешних источников, а результаты обработки - быть задейст- вованы в нескольких последующих шагах обработки. Как правило, основная сложность заклю- чается не в том, чтобы реализовать каждый шаг разветвлённого потока данных, а в том, чтобы связать их все воедино, гарантировать своевременность выполнения каждого шага, а также то, что все входные данные будут обработаны (и не более одного раза) и помещены в конечные хранилища.
После того, как было реализовано несколько ключевых процессов для потока данных из источников метаинформации ATLAS, схема потока данных приняла следующий вид:
30
В формате TXT все имеющиеся в PDF символы (с добавлением пробелов, пустых строк и т.д.) конвертируются в сплошной поток текста, независимо от размера шрифта. В результи- рующем тексте довольно просто (по сравнению с другими подобными программами) отделить куски основного текста документа от разнообразного «мусора», такого как номера строк.
Именно это послужило причиной выбора PDFMiner в качестве средства первичной обработки.
В формате XML перечисляется каждый символ документа, с указанием положения на странице и размера шрифта. Данный формат сложнее анализировать, но содержащаяся в нем дополнительная информация необходима в тех случаях, когда нужно учитывать относительное положение символов (например, в таблицах).
Для дальнейшей обработки был разработан анализатор - PDFAnalyzer, который осуществ- ляет поиск полезной информации в извлеченном тексте. Простейший случай - поиск датасетов
(то есть наборов данных) в основном тексте статьи с помощью регулярных выражений, воз- можный благодаря существованию строгой номенклатуры именования датасетов. В некоторых документах датасеты содержатся в таблицах, обрабатывать которые значительно сложнее - не- обходимо проанализировать каждую страницу с таблицей в формате XML, отделить данные таблицы от всего остального, а затем сконструировать из них столбцы и строки.
Анализ текстов сильно затрудняется прежде всего двумя факторами: упомянутой вначале сложностью конвертации PDF (к примеру, при мелком размере шрифта символы подчеркива- ния могут считываться как пробелы) и тем, что документы писались с расчетом на чтение людьми, поэтому авторы документов могут именовать разделы с данными и колонки таблиц в довольно свободной форме, употреблять интервалы в названиях датасетов и т.д. Тем не менее, разработанный анализатор обрабатывает 70% имеющихся PDF документов.
6. Реализация и автоматизация рабочего потока при экспорте и им-
порте данных в RDF-хранилище Virtuoso
Задачу заполнения базы научных знаний и поддержания её в актуальном состоянии можно разбить на три подзадачи:
– получение метаданных из внешних источников знаний;
– обработка полученных метаданных (выделение нужной информации и приведение её к виду, в котором она будет храниться в конечных хранилищах базы научных знаний);
– сохранение обработанных метаданных в конечных хранилищах.
Обработка данных может состоять из нескольких последовательных действий. В простей- шем случае процесс можно представить в следующем виде:
Рисунок 3. Схематичное представление по тока данных о т источника к конечному хранилищу
Однако в реальности на каком-то этапе обработки исходных метаданных могут потребо- ваться метаданные из нескольких внешних источников, а результаты обработки - быть задейст- вованы в нескольких последующих шагах обработки. Как правило, основная сложность заклю- чается не в том, чтобы реализовать каждый шаг разветвлённого потока данных, а в том, чтобы связать их все воедино, гарантировать своевременность выполнения каждого шага, а также то, что все входные данные будут обработаны (и не более одного раза) и помещены в конечные хранилища.
После того, как было реализовано несколько ключевых процессов для потока данных из источников метаинформации ATLAS, схема потока данных приняла следующий вид:
30
Рисунок 4. Схема потока данных для про тотипа базы научных знаний эксперимента ATLAS
Даже для прототипа, работающего с небольшим количеством источников данных, автома- тизация потока данных стала насущной необходимостью.
Для решения такого рода задач существуют специальное программное обеспечение - ме- неджеры потоков данных, или системы обмена сообщениями между компонентами программ- ной системы (RabbitMQ, Apache Flume, Apache Kafka, и др.). Сравнительный анализ несколь- ких такие систем показал, что для организации потока данных, который включает в себя не только передачу, но и обработку данных, необходима также и система потоковой обработки данных (Apache Spark или Apache Storm).
Одна из изученных систем, Apache Kafka [Kreps, Narkhede, Rao, 2011], с весны 2016 года предоставляет оба функционала - как передачи, так и потоковой обработки данных. Именно это определило выбор технологии для реализации управления потоками метаданных от источников к конечным хранилищам для DKB.
Было разработано приложение, использующее библиотеку Kafka Streams (компонент
Apache Kafka, реализующий потоковую обработку данных), позволяющее встроить уже соз- данные программные модули в архитектуру Kafka (независимо от того, на каких языках про- граммирования модули были написаны). Помимо существенного ускорения процесса автомати- зации управления потоком данных за счёт использования уже существующих наработок, это также существенно расширяет возможности разработчиков по созданию новых программных модулей, не ограничивая их использованием одного языка программирования.
7. Заключение
Разработка системы научных знаний является критически важной для развития и даль- нейшей деятельности крупных научных коллабораций. До последнего времени проблема авто- матизированного сопровождения эксперимента и воспроизводимости результатов решалась через разработку набора сервисов, позволяющих связать между собой различные источники метаданных. Однако, в условиях стремительного роста объемов метаданных, очевидна необхо- димость формализованного описания всех метаданных и хранения их в онтологическом храни-
31
лище. Дальнейшее развитие DKB будет связано с расширением онтологической модели, под- ключением новых источников метаданных, разработкой сервисов и рабочих потоков обработки данных, и усовершенствованием механизмов анализа PDF документов.
Данная работа выполнена при поддержке гранта
Правительства Российской Федерации
(постановление правительства № 220 от 9 апреля 2010 года), договор № 14.Z50.31.0024
Список литературы
Григорьева М., Голосова М., Рябинкин Е., Климентов А. Экзабайтное хранилище научных дан- ных // Открытые системы. СУБД.
2015.
Т. 4.
С. 14-17.
Grigorieva М., Golosova М., Ryabinkin Е., Klimentov А. Ekzabajtnoe hranilishche nauchnyh dannyh // Otkrytye sistemy. SUBD.
2015.
Vol. 4.
P. 14-17.
Soldatova L., King R. An Ontology of Scientific Experiments // Journal of the Royal Society Interface.
2006.
Vol. 3, Issue 11.
P. 795-804.
Allemang D., Hendler J. Semantic Web for the Working Ontologist: Effective Modeling in RDFS and
OWL // Elsevier. — 2011. ISBN 978-0-12-385965-5.
Kreps J., Narkhede N., Rao J. «Kafka: A Distributed Messaging System for Log Processing» // NetDB workshop.
2011. URL: http://research.microsoft.com/en- us/um/people/srikanth/netdb11/netdb11papers/netdb11-final12.pdf.
32
Данная работа выполнена при поддержке гранта
Правительства Российской Федерации
(постановление правительства № 220 от 9 апреля 2010 года), договор № 14.Z50.31.0024
Список литературы
Григорьева М., Голосова М., Рябинкин Е., Климентов А. Экзабайтное хранилище научных дан- ных // Открытые системы. СУБД.
2015.
Т. 4.
С. 14-17.
Grigorieva М., Golosova М., Ryabinkin Е., Klimentov А. Ekzabajtnoe hranilishche nauchnyh dannyh // Otkrytye sistemy. SUBD.
2015.
Vol. 4.
P. 14-17.
Soldatova L., King R. An Ontology of Scientific Experiments // Journal of the Royal Society Interface.
2006.
Vol. 3, Issue 11.
P. 795-804.
Allemang D., Hendler J. Semantic Web for the Working Ontologist: Effective Modeling in RDFS and
OWL // Elsevier. — 2011. ISBN 978-0-12-385965-5.
Kreps J., Narkhede N., Rao J. «Kafka: A Distributed Messaging System for Log Processing» // NetDB workshop.
2011. URL: http://research.microsoft.com/en- us/um/people/srikanth/netdb11/netdb11papers/netdb11-final12.pdf.
32