Файл: Источники данных и хранение информации на предприятии.docx
Добавлен: 25.10.2023
Просмотров: 117
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
НЕГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ ЧАСТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«МОСКОВСКИЙ ФИНАНСОВО-ПРОМЫШЛЕННЫЙ УНИВЕРСИТЕТ «СИНЕРГИЯ»
РЕФЕРАТ
На тему «Источники данных и хранение информации на предприятии»
По дисциплине: «Информационно-аналитические системы»
Обучающийся ФИО
Москва 2023 г.
Оглавление:
Раздел I. Современные подходы к хранению и обработке электронных данных. 3
Раздел II. Современные средства хранения и обработки электронных данных на предприятиях. 6
Заключение 11
Список использованных источников и литературы 12
Ежедневный растущий объём электронных данных ставит сложные задачи перед традиционными способами по организации хранения, обработки и анализа данных. Целесообразность раскрытия данной темы подтверждается наличием высокого спроса на услуги хранения данных и аналитической обработки данных.
В работе использованы различные источники информации, включая научно-методический журнал «Проблемы современной науки и образования»1 и электронный ресурс «Информационные системы в экономике: практикум»2.
Цель работы: сформировать представление об основных источниках данных на предприятии и принципах хранения данных на предприятии.
Задачи:
-
Рассказать о современных подходах к хранению и обработке электронных данных. -
Рассказать о современных средствах хранения и обработки электронных данных на предприятиях.
Реферат состоит из введения, 2 разделов, заключения, списка использованных источников и литературы.
Раздел I. Современные подходы к хранению и обработке электронных данных.
На сегодняшний день нелегко измерить общий объем электронных данных, хранящихся во всем мире, однако по оценкам IDC размер «цифрового мира» в 2006 г. составлял около 0.18 зеттабайта, а через 5 лет к 2011 году должен был достигнуть около 1.8 зеттабайта, тем самым продемонстрировав десятикратный рост. Согласно данным IDC объем данных к 2020 году должен был достигнуть отметки в 44 зеттабайта.
Источниками таких объемов данных являются такие как:
-
Главная фондовая биржа США, генерирует 1 терабайт данных в день. -
Хранилище данных социальной сети Facebook ежедневно увеличивает объем данных на 500 терабайт. -
Internet Archive Stores хранящая данные интернет-сайтов по состоянию на октябрь 2012 уже хранит 10 петабайт данных и ежемесячно прирастает 20 терабайтами в месяц. -
Большой адронный коллайдер, расположенный около Женевы, генерирует около 15 петабайт в год.
Ежедневно растущий объем электронных данных ставит перед нами задачу по организации в хранении, обработке и анализе данных.
Большой объем данных, а также информации хранится в специализированных реляционных базах данных, которые называют хранилищами данных (ХД либо Data Warehouse).
Хранилища данных в отличие от оперативных баз данных OLTP (On-Line Transaction Processing), работающих с приложениями, имеют некоторые функциональные ограничения, что позволяет уменьшить время выполнения запросов. Отличия ХД от обычной базы данных:
Обычные базы данных (БД) предназначены для помощи в выполнении повседневной работе, а ХД для принятия решений;
Обычные БД подвержены постоянному изменению данных, ХД в свою очередь выполняют обновление базы согласно предписанному времени без изменения предыдущих данных;
Обычные БД чаще всего являются источником ХД, а ХД могут также пополняться из других внешних источников;
Зачастую ХД имеет ненормализованную структуру, что позволяет заметно увеличить скорость выполнения запросов.
Ральф Кимбалл, один из авторов концепции хранилищ данных, сформулировал основные требования к хранилищам данных:
-
Поддержка высокой скорости получения данных из ХД; -
Поддержка внутренней непротиворечивости данных; -
Возможность получения и сравнения так называемых срезов данных (slice and dice); -
Наличие удобных утилит просмотра данных в ХД; -
Полнота и достоверность хранимых данных; -
Поддержка качественного процесса пополнения данных.
Одним из основных принципов построения ХД является использование единой структуры метаданных: системные таблицы хранилища данных имеют жестко заданную структуру, а содержащаяся в них информация четко описывает модель данных ХД, в соответствии с которой загружаются и обрабатываются классификаторы и данные. Таким образом, это позволяет начать построение универсальных программных компонентов, взаимодействующих с ХД.
На сегодняшний день не все инструменты способны справиться с большими объемами данных. Hadoop является набором инструментов позволяющих работать с большими данными. Средняя производительность жестких дисков около 100 МБ/с, то есть для обработки 1 ТБ данных потребуется примерно 2.5 часа времени. Параллельная обработка данных с нескольких дисков позволяет улучшить показатели в несколько раз. Например, на обработку 1 ТБ данных с дисков потребуется 2 минуты. Распределенная файловая система HDFS отвечает за организацию и хранение данных в Hadoop кластерах.
Принципы проектирование в Hadoop:
Так как сбои в аппаратной системе неизбежны. HDFS реализует надежные алгоритмы репликации данных, а метаданные файловой системы используют журнал, позволяющий восстановить требуемое состояние.
Система HDFS построена таким образом, что позволяет обработку больших объемов данных с наиболее максимальной производительностью благодаря поточной обработке данных. Система оптимизирована для работы с большим объемом данных.
Вычисления происходят намного эффективнее благодаря программному интерфейсу, который предоставляет HDFS. В Hadoop все вычисления разбиваются на несколько подмножеств, каждое из которых обрабатывается на отдельном узле кластера. Представляется это в виде последовательности map задач и reduce задач. Каждый узел в map задачах получает на вход множество пар.
Вычисления в Hadoop представляются в виде последовательности map и reduce задач. В начале вычислений входное множество данных разбивается на несколько подмножеств. Каждое подмножество обрабатывается на отдельном узле кластера. Map задача на каждом узле получает на вход множество пар ключ-значений и возвращает другое множество. По ключу все пары сортируются, группируются и передаются на вход reduce, которая в свою очередь формирует итоговый результат.
Эффективность использования Hadoop можно заметить в одном из интересных примеров тестирования скорости сортировки данных. Рекордные показатели в 2008 году предоставила компания Google, 1TB данных в Hadoop кластере компании Google удалось отсортировать за 68 с. В 2009 году в отчете компании Yahoo утверждалось, что им удалось это сделать за рекордные 62 с.
Раздел II. Современные средства хранения и обработки электронных данных на предприятиях.
В процессе деятельности предприятия накапливается большое количество информации. Эта информация может быть количественной, т. е. иметь конкретное численное выражение, и качественной, определяющей мнения консультантов, суждения специалистов, экспертные оценки. В свою очередь, количественная информация подразделяется на учетную и неучетную. Источниками учетной информации на предприятии выступают:
-
Бухгалтерский учет и отчетность; -
Статистический учет и отчетность; -
Оперативный учет и отчетность; -
Выборочные учетные данные.
К источникам неучетной информации можно отнести:
Результаты аудиторских проверок (внешних и внутренних), различных ревизий (внутриведомственных и вневедомственных);
-
Результаты проверок налоговой службы; -
Материалы производственных совещаний; -
Протоколы собраний трудовых коллективов; -
Материалы средств массовой информации; -
Докладные и объяснительные записки сотрудников; -
Переписка с вышестоящими организациями; -
Результаты взаимоотношений с финансовыми и кредитными -
организациями; -
Материалы, получаемые в процессе взаимодействия с -
исполнителями.
Кроме этого, может использоваться различный нормативный материал: ГОСТы, внутренние стандарты, справочники, прейскуранты и т. п.
Вся эта информация должна храниться на предприятии и быть в любой момент доступна для пользователя. Для хранения информации могут быть использованы различные средства: файловые системы, оперативные базы данных (OLTP) и хранилища данных (DWH).
В современных условиях большинство рабочих мест сотрудников оснащено персональными компьютерами (АРМ – автоматизированное рабочее место). В процессе работы на каждом АРМе накапливается оперативная информация, документы, сопровождающие те или иные бизнес-процессы. Эта информация хранится на компьютере в виде файлов.
По определению файл – это именованная область внешней памяти, в которую можно записывать и из которой можно считывать данные.
Файлы бывают разных типов: обычные файлы, специальные файлы, файлы-каталоги.
Обычные файлы – это файлы различного формата, такие как офисные документы, отсканированные бумажные документы, Webстраницы, графические изображения, чертежи, видеофайлы, которые можно отобразить на экране и распечатать на принтере.
Специальные файлы – это файлы, которые позволяют пользователю выполнять операции ввода-вывода, используя обычные команды записи в файл или чтения из файла.
Каталог – это группа файлов, объединенных пользователем по определенному признаку. В каталоге содержится список файлов, входящих в него, и устанавливается соответствие между файлами и их характеристиками (атрибутами). В качестве атрибутов файлов могут быть использованы разные характеристики
, например:
-
Владелец или создатель файла; -
Информация о доступе к файлу; -
Пароль для доступа; -
Различные признаки, например: «только для чтения», «системный файл», «архивный файл» и т. п.; -
Время создания или последнего изменения файла; -
Размер файла и т. д.
Для организации хранения и управления файлами на компьютере используется файловая система, представляющая собой функциональную часть операционной системы. Файловая система должна обеспечивать пользователю:
-
Контролируемый доступ к файлам; -
Возможность осуществлять различные операции с файлами: создавать, удалять, копировать, изменять; -
Возможность обмена данными между файлами; -
Возможность восстанавливать свои файлы в случае их повреждения. Файловые системы предназначены для обслуживания многих тысяч файлов и обеспечивают хранение слабо структурированной информации.
Оперативные базы данных (OLTP – Online Transaction Processing – обработка транзакций в реальном времени). Оперативные базы данных используются предприятиями для поддержания их повседневной деятельности, для отслеживания информации, с которой они имеют дело в процессе решения оперативных задач. Это может быть информация о произведенных товарах, принятых заказах, оказанных услугах, выплатах, доходах и т. п.
Результатом фиксации указанной информации становятся одна или несколько записей в оперативной базе данных. Сам процесс фиксации называют бизнес-транзакцией, а информацию – данными транзакции. По определению транзакция – это последовательность операторов манипулирования данными, выполняющаяся как единое целое и переводящая базу данных из одного целостного состояния в другое целостное состояние.
Системы оперативной обработки транзакций служат для хранения данных о выполняемых бизнес-транзакциях. Основная функция подобных систем заключается в одновременном выполнении большого количества коротких транзакций от большого числа пользователей. Примером транзакции может быть следующее действие: «перечислить определенную сумму денег со счета А на счет В».
OLTP-системы призваны сохранять данные бизнес-транзакций по мере их поступления. Они обычно имеют дело с текущими значениями каких-либо параметров. Например, типичное банковское OLTP-приложение имеет дело с текущими остатками денег на клиентском счете.
-
OLTP-системы характеризуются: -
Поддержкой большого числа пользователей; -
Короткими транзакциями; -
Относительно короткими запросами; -
Малым временем отклика на запрос.