Файл: Различные способы представления данных в информационных системах.pdf
Добавлен: 29.06.2023
Просмотров: 53
Скачиваний: 3
СОДЕРЖАНИЕ
Глава 1 Информационные системы
1.1 Знания и данные в информационных системах
1.2 Уровни представления данных в информационной системе
1.3 Банк данных и его компоненты
1.4 Архитектура информационной системы, организованной с помощью БД
Глава 3 Практическая часть. Прогнозирование с помощью линейной регрессии
Сетевая модель означает представление данных в виде произвольного графа. Достоинством сетевой и иерархической моделей данных является возможность их эффективной реализации по показателям затрат памяти и оперативности. Недостатком сетевой модели данных является высокая сложность и жесткость схемы БД, построенной на ее основе[14].
Реляционная модель данных.
Понятие реляционный (англ. relation - отношение) связан с разработками известного американского специалиста в области систем баз данных Э.Ф. Кодда. Эти модели характеризуются простотой структуры данных, удобной для пользователя формой представления в виде таблиц и возможностью использования аппарата алгебры отношений и реляционного вычисления для обработки данных.
На языке математики отношение определяется таким образом. Пусть задано n множеств D1,D2, ...,Dn. Тогда R есть отношение над этими множествами, если R есть множеством упорядоченных наборов вида <d1,d2,...,dn>, где d1 - элемент с D1 , d2 - элемент с D2 , ... , dn - элемент с Dn. При этом наборы вида <d1,d2,...,dn> называются кортежами, а множества D1,D2, ...Dn - доменами. Каждый кортеж состоит из элементов, которые выбираются из своих доменов. Эти элементы называются атрибутами, а их значения - значениями атрибутов.
Итак, реляционной модель ориентирована на организацию данных в виде двумерных таблиц, любая из которых имеет следующие свойства:
- каждый элемент таблицы - это один элемент данных;
- все столбцы в таблицы - однородные, т.е все элементы в столбце имеют одинаковый тип (символьный, числовой и т.п.);
- каждый столбец носит уникальное имя;
- одинаковые строки в таблицы отсутствуют.
Таблицы имеют строки, которые отвечают записям (или кортежам), а столбцы -атрибутам отношений (доменам, полям).
Следующие термины являются эквивалентными:
отношение, таблица, файл (для локальных БД);
кортеж, строка, запись;
атрибут, столбик, поле.
Объектно-ориентированные БД объединяют в себе две модели данных, реляционную и сетевую, и используются для создания крупных БД со сложными структурами данных.
Реляционная БД есть совокупностью отношений, которые содержат всю необходимую информацию и объединенную разными связями.
БД считается нормализованной, если выполняются следующие о
- таблица имеет главный ключ;
- поля каждойтаблицы только от ключа;
- таблицах отсутвуютгруппы значений[15].
успешной работы многотабличными как надо установить ними связи.При пользуютсями «базовая (главная) и «подчиненная таблица». между получается благодаря двух одно которых в базовой а втрое в Эти поля иметь значение, повторяются. значение в поле записи таблицы в подчиненной совпадают, то записи связанными.
четыре типа отношений между таблицами: к один многим, много одному, много многим.
один к одному означает, что запись в таблице только записи в таблице.
Отношение один ко что запись из таблицы может связана чем с записью из таблицы.
таблица - которая содержит первичный ключ исоставляетчасть один в один ко
Внешний ключ это поле,содержащее же информации в блице стороны [16].
Глава 2 Различные способы представления данных в информационных системах. Модели представления знаний
Центральным вопросом посторяниясистем основанных на знаниях является выбор формы представления знаний.
Представление – о способ формального выражения о предметной в форме.
формализмы, обеспечивающие о представлении моделями знаний.
Распространенные представления знаний:
- модель;
- модель;
- сеть;
- Формально-логическая
Продукционная модель знаний.
модель модель, основанная правилах, позволяет знания виде типа «ЕСЛИ ТО (действие).Часть «ЕСЛИ» посылкой (антецедентом) состоит из предложений логическими И, а «ТО» выводом действием консеквентом), включает одно или несколько которые либо некоторый либо указание определенное подлежащее использованию[17]
В общем правило так:
А1 и и ….А, В».Это что если условия от до n истинными, то также истинно.
Системы обработки знаний, использующие представление данных продукционными правилами, получили название продукционных систем. В состав продукционных систем входит база правил, база данных и интерпретатор правил. База правил – это область памяти, которая содержит БЗ; БД – это область памяти, содержащая фактические данные. БД могут быть описаны как группа данных, содержащих имя данных, атрибуты и значения атрибутов(триплет: объект, атрибут, знание)[18].
Ввод
Вывод
Интерпретатор
Рабочая память
БД
Рис.3Фреймовая модель представления знаний
Фреймовая модель данных предложена ученым Минским 70- е ХХ века универсальная применимая любой предметной [19].
Фрейм- абстрактный для стереотипа объекта, или ситуации. абстрактным понимается обобщенная и модель или Например, вслух «комната» порождает слушающих образ т.е. помещения. может быть как форма знаний, очерчивает рассматриваемого мира использует для описания системы или [20].
Фрейм имя, для описываемого им понятия , содержит описаний слотов, помощью определяются структурные элементы понятия. слотами следуют в которые данные, текущие слотов. Слот содержать не конкретное но имя процедуры, позволяющей это по алгоритму.
Семантическая .
Семантическая сеть это граф, которого – а дуги отношения ними. – это устанавливающее отношения символами объектами, которые обозначают. Т.е. определяющая знаков[21]
Предложено несколько классификаций семантических сетей, связанных с типами отношений между понятиями:
- По количеству типов отношений:
- однородные ( с единственным типом отношений)
- неоднородные ( с различными типами отношений)
2. По типам отношений:
- бинарные, в которых отношения связывают два объекта;
- N- арные, в которых есть специальные отношения, связывающие более двух понятий.
Наиболее часто в семантических сетях используются следующие отношения:
- элемент класса ( роза- это цветок);
- атрибутивные связи / иметь свойство (память имеет свойство – емкость);
- значение свойства (цвет имеет значение – красный);
- пример элемента класса (роза, например, чайная);
- связи типа «часть- целое» (автомобиль имеет руль);
- функциональные связи («производит», «влияет»);
- количественные (больше, меньше);
- пространственные (далеко, близко, над, под);
- временные (раньше, позже);
- логические (и, или, не).
Рис.4 Формульно-логическая модель представления данных
Формально-логическая модель данных использует качестве теории предикатов первого Это формальный используемый представления между объектами для выявления отношений объектами основе существующих. Логика в со синтаксических правил предикатов имеет организацию, образуют предикаты порядка, второго …, -го однако на логика используется уровне предикатов порядка.
Исчисления перового порядка на высказываний. называется предложение, которого можно значениями: (Т) ложь (). Например: студент». (простое) высказывание разделить на Из высказываний формироваться сложные помощью слов: или, если, [22].
Логика оперирует логическими между ы то есть решает вопросы «Можно на высказывания А получить В?»; ли при истинности при этом высказываний имеет Элементарные высказывания рассматриваются переменные типа, которыми разрешены следующие операции:
(~) – отрицание;
- конъюнкция (логическое «или»);
- дизъюнкция (логическое «и»);
- импликация («если, то»);
- эквивалентность.
Аналитическая платформа Deductor.
Deductor является аналитической платформой - основой для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.
Deductor состоит из пяти частей:
DeductorWarehouse многомерное хранилище аккумулирующее необходимую для предметной области Использование хранилища позволяет непротиворечивость данных централизованное а автоматически обеспечивает необходимую поддержку анализа Deductor оптимизирован для именно аналитических что сказывается скорости доступа данным. В рядеслучаев смыслотказаться традиционного хранилища и альтернативой- хранилищем Virtual[23].
Studio программа, реализующая импорта, обработки, и данных. Studio может функционировать без данных, информацию из других источников, наиболее является их использование. В Studio полный механизмов, позволяющий информацию из источника провести цикл обработки (очистку, данных, моделей), полученные результаты удобным образом таблицы, а деревья и и экспортировать в распространенные [24].
DeductorViewer - программа, ориентированная на конечного пользователя и предназначенная для просмотра подготовленных при помощи DeductorStudio отчетов. DeductorViewer позволяет минимизировать требования к пользователю системы, т.к. все требуемые операции выполняются автоматически при помощи подготовленных ранее сценариев обработки. Пользователю DeduсtorViewer нужно только выбрать и настроить вариант отображения полученных результатов.
DeductorServer – служба, обеспечивающая удаленную аналитическую обработку данных. Она позволяет автоматически обрабатывать данные и переобучать модели на сервере, оптимизирует выполнение сценариев за счет кэширования проектов и использования многопоточной обработки.
Deductor Client – клиентдоступакDeductor Server. Он обеспечивает доступ к серверу из сторонних приложений и управление его работой[25].
Реализованная в Deductor архитектура позволяет добиться максимальной гибкости при создании законченного решения. Благодаря данной архитектуре можно собрать в одном аналитическом приложении все необходимые инструменты анализа и реализовать автоматическое выполнение подготовленного сценария.
Технологическая платформа включает средства, позволяющие максимально сократить сроки разработки, быстро создавать и выводить на рынок новые прикладные решения, а также адаптировать их в соответствии с изменяющимися требованиями предприятий.
Создание законченного решения занимает очень мало времени: достаточно получить данные, определить сценарий обработки и задать место для экспорта полученных результатов. Наличие мощного набора механизмов обработки и визуализации позволяет двигаться по шагам, от наиболее простых способов анализа ко все более мощным. Первые результаты пользователь получает практически сразу, но при этом можно легко наращивать мощность решения.
Применение системы.
Система Deductor предназначена для решения широкого спектра задач, связанных с обработкой структурированных и представленных в виде таблиц данных. При этом область приложения системы может быть практически любой - механизмы, реализованные в системе, с успехом применяются на финансовых рынках, в страховании, торговле, телекоммуникациях, промышленности, медицине, в логических и маркетинговых задачах и множестве других.
Большинство задач анализа можно разделить на классы, внутри которых они решаются схожим образом. Этих классов немного, но для каждого необходимо использовать свои механизмы. Законченное решение может быть составлено из блоков, собранных из унифицированных компонентов для решения прикладной задачи. Именно возможность комбинировать различные механизмы анализа при создании прикладных решений позволяет говорить, что Deductor является аналитической платформой.
Глава 3 Практическая часть. Прогнозирование с помощью линейной регрессии
Линейная регрессия необходима тогда, когда предполагается, что зависимость между входными факторами и результатом линейная. В основном ее применяют для прогнозирования временного ряда. Достоинством ее можно назвать быстроту обработки входных данных.