Файл: Операции, производимые с данными (Актуальность темы работы заключается в том, что работа с информацией может иметь огромную трудоемкость, и ее надо автоматизировать).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 31.03.2023

Просмотров: 81

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Излагаемые модели данных и алгоритмы доступа к ним составляют “brainware” современной информатики, носят универсальный характер и применяются в большинстве систем, связанных с хранением и обработкой информационных массивов.

Индексирование

Одна из основных задач, возникающих при работе с базами данных, – это задача поиска. При этом, поскольку информации в базе данных, как правило, содержится много, перед программистами встает задача не просто поиска, а эффективного поиска, т.е. поиска за сравнительно короткое время и с достаточно большой точностью. Для этого (для оптимизации производительности запросов) производят индексирование некоторых полей таблицы. Использовать индексы полезно для быстрого поиска строк с указанным значением одного столбца. Без индекса чтение таблицы осуществляется по всей таблице, начиная с первой записи, пока не будут найдены соответствующие строки. Чем больше объем таблицы, тем выше накладные расходы. Если же таблица содержит индекс по рассматриваемым столбцам, то база данных может быстро определить позицию для поиска в середине файла данных без просмотра всех данных. Это происходит потому, что база данных помещает проиндексированные поля поближе в памяти, так, чтобы можно было побыстрее найти их значения.

Сегодня наиболее острые проблемы управления информацией возникают у организаций (например, гостиниц, баз отдыха, оздоровительных учреждений, туристических агентств), работа которых заключается в обработке большого количества разнотипных, взаимонезависимых источников данных. Такой тип системы получил название пространство данных. В отличие от систем интеграции данных, что также предлагают общепринятый доступ к разнородным источникам данных, пространства данных не предполагают, что вcе семантические взаимосвязи между источниками известны и указаны. Многие пользователи, работающие с пространствами данных, проводят исследования данных, и нет единой схемы, по которой они могут создавать запросы.

данные и операции с ними

В структуре возможных операций с данными можно выделить следующие:

• сбор - накопление информации с целью обеспечения достаточной полноты для принятия решений;

Чем больше будет данных для анализа, тем лучше, отбросить их можно на следующих этапах работ - это легче, чем собрать новые сведения.

Однако сбор данных не самоцель. Если информация получить легко, то, естественно, следует ее собрать. Если данные получить сложно, то необходимо посчитать затраты на ее сбор и систематизацию с ожидаемыми результатами.


Есть несколько методов сбора, необходимых для анализа данных:

1. Получение из учетных систем. Конечно, в учетных системах есть различные механизмы построения отчетов и экспорта данных, поэтому извлечение нужной информации, чаще всего, относительно несложная операция.

2. Получение сведений из косвенных данных. На многие показатели можно судить по косвенным признакам и этим нужно воспользоваться. Например, можно оценить реальное финансовое положение жителей определенного региона следующим образом. В большинстве случаев несколько товаров, предназначенных для выполнения одной и той же функции, но отличающихся по цене: товары для бедных, средних и богатых. Если получить отчет о продажах товара в регион, интересует, и проанализировать пропорции, в которых продаются товары для бедных, средних и богатых, то можно предположить, что чем больше доля дорогих изделий из одной товарной группы, тем более способны в среднем жители данного региона [4, с.317].

3. Использование открытых источников. Большое количество данных присутствует в открытых источниках, таких как статистические сборники, отчеты корпораций, опубликованные результаты марке-тингов исследований и др.

4. Проведение собственных маркетинговых исследований и аналогичных мероприятий по сбору данных. Это может быть достаточно дорогостоящим мероприятием, но, в любом случае, такой вариант сбора данных возможен.

5. Ввод данных "вручную", когда данные заносятся по различного рода экспертным оценкам сотрудниками организации. Этот трудоемкий метод.

Стоимость сбора информации различными методами существенно отличается по цене и необходимым для этого время, поэтому нужно просчитать расходы результатам. Возможно, от сбора некоторых данных придется отказаться, но факторы, которые эксперты оценили как наиболее значительные следует собрать обязательно, несмотря на стоимость этих работ, или вообще отказаться от анализа. Модель, не учитывает значимые факторы, не представляет практической ценности.

Собранные данные необходимо преобразовать к единому формату, например, Excel, текстовый файл с разделителями, или любая СУБД. Данные обязательно должны быть унифицированы, одна и та же информация везде должна описываться одинаково. Конечно проблемы с унификацией возникают при сборе информации из разнородных источников.

Очень часто в аналитических приложениях направляют усилия на механизмы анализа данных, не оказывая должного внимания задачам обработки и очистки данных. Хотя именно плохое качество исходных данных является одной из самых серьезных и распространенных проблем. Очевидно, что некорректные исходные данные приводят к некорректным выводам. Поскольку в связи с тем, что в большинстве случаев источником информации для аналитических систем является хранилище данных, в котором аккумулируются сведения из множества разнородных источников, острота проблемы существенно возрастает.


Для анализируемых процессов различной природы данные должны быть подготовлены специальным образом.

• формализация - приведение данных, поступающих из разных источников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, то есть повысить их уровень доступности;

При сборе данных нужно придерживаться следующих принципов.

1. Абстрагироваться от существующих информационных систем и имеющихся данных. Большие объемы накопленных данных совершенно не говорят о том, что их достаточно для анализа в конкретной компании.

Необходимо отталкиваться от задачи и подбирать данные для ее решения, а не брать имеющуюся информацию.

Например, при построении моделей прогноза продаж опрос экспертов показал, что на спрос влияет цветовая характеристика товара. Анализ имеющихся данных показал, что информация о цвете товарной позиции отсутствует в учетной системе. Значит, нужно каким-то образом добавить эти данные, иначе не стоит рассчитывать на хороший результат использования моделей.

2. Описать все факторы, потенциально влияющие на рассматриваемый процесс / объект. Основным инструментом здесь становится опроса экспертов и людей, непосредственно владеют проблемной ситуацией. Необходимо максимально использовать знания экспертов о предметной области и, полагаясь на здравый смысл, постараться собрать и систематизировать максимум возможных предположений и гипотез.

3. Экспертно оценить значимость каждого фактора. Эта оценка не является окончательной, она будет отправной точкой. В процессе анализа вполне может выясниться, что фактор, который эксперты посчитали очень важным, таковым не является, и наоборот, незначительный, с их точки зрения, фактор может оказать значительное влияние на результат.

4. Определить способ представления информации - число, дата, да / нет, категория (то есть тип данных). Определить способ представления, то есть формализовать некоторые данные, просто. Например, объем продаж в рублях - это определенное число. но довольно часто бывает непонятно, как представить фактор.Найчастише такие проблемы возникают с качественными характеристиками

Например, на объемы продаж влияет качество товара. Качество - сложное понятие, но если этот показатель действительно важен, то нужно придумать способ его формализации. Скажем, качество можно определять по количеству брака на тысячу единиц продукции или оценивать экспертно, разбив на несколько категорий - отлично / хорошо / удовлетворительно / плохо.


5. Собрать все легкодоступные факторы. Они содержатся в первую очередь в источниках структурированной информации - учетных системах, базах данных и т. П

6. Обязательно собрать наиболее значимые, с точки зрения экспертов, факторы. Вполне возможно, что без них не удастся построить качественную модель.

7. Оценить сложность и стоимость сбора средних и наименее важных по значимости факторов. Некоторые данные легкодоступны, их можно извлечь из существующих информационных систем. Но есть информация, которую непросто собрать, например сведения о конкурентах, поэтому необходимо оценить, во что обойдется сбор данных. Сбор данных не является самоцелью. Если информация получить легко, то, естественно, нужно ее собрать. Если сложно, то необходимо сравнить затраты на ее сбор и систематизацию с ожидаемыми результатами [4, с.335].

• фильтрация - отсеивание «лишних» данных, в которых нет необходимости для принятия решений; при этом должен уменьшаться уровень «шума», а достоверность и адекватность данных должны возрастать;

Для поиска данных можно использовать фильтрацию. Фильтрация - это процесс поиска и выбора записей в соответствии с установленными критериями. Фильтры также упрощают процесс ввода и удаления записей из списка. При фильтрации записи, не соответствующие указанным критериям, скрываются, но их порядок размещения в таблице остается неизменным и они не изымаются из таблицы.

Фильтрация данных - это достаточно быстрый и простой способ найти отдельную подмножество данных и начать работу с ней в диапазоне ячеек или в столбце таблицы. В результате данных фильтрации отображаются только те строки, соответствующие определенным условиям, и скрываются строки, не отображаются. Также еще можно выполнять фильтрации одновременно по нескольким столбцам. Фильтры могут быть составными - каждый следующий фильтр базируется на текущем фильтре и дальше уменьшается диапазон данных. Можно создать два набора фильтров: по списку значений по критериям Что такое фильтрация? Фильтрация -это процесс выбора из таблицы строк, удовлетворяются определенными условиями. Если говорить о фильтрации данных, то различают простые и составные условия:

Простые - уце языка, созданных с использованием операторов сравнения, таких как <,>, =

Составленные - это условия, которые построены из простых с помощью логических операций, таких как not ( Не), and (и), or (или)

• сортировка - упорядочение данных по заданному признаку с целью удобства использования; эта процедура повышает доступность информации;


Сортировка - это изменение положения данных в списке в соответствии со значением или типа данных. Если возникает необходимость расположить в алфавитном порядке данные, поставить в порядке возрастания, то для этого на панели инструментов есть кнопки, обозначающие сортировки от А до R, или от R до A.Також можно использовать команду меню Данные → Сортировка. Диалоговое окно Сортировка диапазона предназначено для выбора поля, на котором происходит сортировка (выделяем ячейки).

Правила сортировки:

1) пустые ячейки всегда помещаются в конец отсортированного списка;

2) числовые типы данных сортируются от наименьшего отрицательного до наибольшего положительного;

3) текстовые типы данных сортируются познаково слева направо;

4) текстовые данные сортируются в следующем порядке: сначала цифры, затем пробел и символы цифровых клавиш верхнего регистра, и только после этого буквы в алфавитном порядке;

5) при сортировке логических значений значение ЛОЖЬ ставится перед значением ИСТИНА.

• архивация - организация хранения данных в удобной и легкодоступной форме; служит для снижения экономических затрат по хранению данных и повышает общую надежность информационного процесса в целом;

Архивация данных

Несмотря на повышение надежности компьютеров и носителей данных, все же полной гарантии сохранности данных они не дают.

Потеря данных может привести к очень серьезным последствиям. Так, уничтожение данных о вкладах и перечисления средств клиентов приведет к краху банка, потеря данных о продаже билетов повлечет перебои в перевозке пассажиров, потеря результатов опытов может свести на нет многолетние научные исследования. Даже потеря записной книжки с телефонами друзей принесет вам значительные проблемы. Поэтому возникает потребность в создании копий данных. Важнейшие данные дублируют, записывая на другие жесткие диски, на магнитную пленку стримера, на оптические диски и тому подобное.

Размеры файлов, которые нужно хранить, большие и требуют дополнительных затрат. Чтобы уменьшить эти размеры в копиях и соответственно уменьшить расходы, используют сжатие данных. При этом используются методы, обеспечивающие сжатие без потерь данных.

Результатом работы этих программ является архивный файл, или просто архив, который содержит в сжатом либо не сжатом состоянии файлы и папки. В процессе архивации могут быть использованы дополнительные меры по защите данных от несанкционированного доступа, например установки пароля на доступ к данным в архиве.