Способы представления данных в составе машинной информационной базы

Данные в составе машинной информационной базы автоматизированных систем (долговременной или внешней памяти компьютера) могут быть представлены в виде локальных (независимых) файлов, в базах и банках данных, хранилищах данных, базах знаний. Основным критерием выбора способа организации машинной информационной базы является достижение минимальных трудовых и стоимостных затрат на ее проектирование, а также на перепроектирование при возникновении новых задач. При организации машинной информационной базы АБИС в настоящее время используются следующие способы к представлению данных: в виде локальных файлов, в базах (банках) данных (рисунок 2). Сущность, а также достоинства и недостатки каждого подхода к организации машинной информационной базы АБИС изложены ниже.

Способы представления данных в составе машинной информационной базы АБИС

Рисунок 2. Способы представления данных в составе машинной информационной базы АБИС

Машинная информационная база, организованная на основе локальных файлов, состоит из совокупности файлов, поддерживаемых функциональными пакетами прикладных программ, предназначенными для решения отдельных задач, практически не связанных между собой. Локальные файлы вследствие специализации структуры данных под конкретные задачи обеспечивают, как правило, высокую скорость обработки данных. Недостатки организации локальных файлов, связаны с большим дублированием данных в информационной системе и, как следствие, несогласованностью данных в разных приложениях, а также негибкостью доступа к информации. Основным же недостатком машинной информационной базы, организованной на основе локальных файлов, является отсутствие независимости структур обрабатываемых данных и программ, необходимых для их обработки при решении конкретных задач. Любое изменение структуры входных массивов данных вызывает при этом необходимость изменения программ, а это, в свою очередь, приводит к большим затратам на поддержание информационной базы. Кроме того, при такой организации информационная база несет в себе значительную долю избыточности данных из-за повторения одних и тех же элементов данных в разных файлах, ориентированных на решение различных локальных задач. Поэтому организация машинной информационной базы как совокупности локальных файлов применяется только в специализированных пользовательских приложениях, требующих высокой скорости обработки данных.

Ориентация на базы данных является ведущим направлением организации машинной информационной базы АБИС. Она основывается на использовании универсальных прикладных программных средств, обеспечивающих загрузку, хранение, обработку, поиск и ведение данных. Этими программными средствами являются системы управления базами данных (СУБД). При таком подходе к организации машинной информационной базы файлы не являются независимыми, ибо логическая структура одних файлов (состав полей) базы данных зависит от структуры других. Файлы баз данных разрабатываются с соблюдением определенных принципов представления данных в базах данных и ориентацией на одну из моделей базы данных (иерархическую, сетевую, реляционную и т. д.). Организация машинной информационной базы на основе концепции баз данных позволяет обеспечить многоаспектный доступ к совокупности взаимосвязанных данных, интеграцию и централизацию управления данными, устранение излишней избыточности данных.

По организации и технологии обработки данных базы данных подразделяются на централизованные и распределенные. Основным критерием выбора способа организации данных в БД является достижение минимальных трудовых и стоимостных затрат на проектирование (перепроектирование при возникновении новых задач) ее структуры и эксплуатацию в составе машинной информационной базы. Централизованная БД характеризуется тем, что ее содержимое полностью размещено на центральном высокопроизводительном компьютере (мэйнфрейме, от англ, mainframe). Пользователи базы данных с помощью своих компьютеров обращаются за информацией к центральному компьютеру. Управление базой данных (её корректировка и процедуры, поддерживающие её целостность, безопасность и др.) осуществляется централизованно. Централизация управления данными с помощью СУБД обеспечивает совместимость этих данных, уменьшение их семантической избыточности и возможность подключения новых пользователей. Но поскольку автоматизированная система, организованная на основе централизованных БД обслуживает много различных пользователей, а пользовательские приложения и СУБД работают на одном компьютере, каждый из пользователей ощущает снижение быстродействия по мере увеличения нагрузки на систему. Кроме того, централизация управления и интеграция данных порождает потребность в усилении контроля вводимых данных, требует необходимости обеспечения соглашения между пользователями по поводу состава и структуры данных, разграничения доступа и секретности данных.

Централизованные БД в зависимости от расположения данных, а также способа разделения данных между несколькими пользователями могут быть локальными и сетевыми. Данные (файлы данных) локальной базы данных находятся на одном (локальном) устройстве, в качестве которого может выступать диск компьютера или сетевой диск (диск другого компьютера, работающего в сети). Для обеспечения разделения данных (доступа к данным) между несколькими пользователями в локальных базах данных применяется метод, получивший название блокировка файлов. Суть этого метода заключается в том, что пока данные используются одним пользователем, другой пользователь не может работать с этими данными, то есть данные для него закрыты.

Централизованные БД с сетевым доступом размещаются на сетевом диске сервера. Они предполагают организацию работы с использованием технологий «файл-сервер» и «клиент-сервер». При использовании технологии «файл-сервер» приложение, выполняемое на ПК, может получить доступ к файл-серверу, на котором хранятся совместно используемые файлы БД, и получить данные из совместно используемого файла. Программные средства, работающие на удаленном сервере, проектируются таким образом, чтобы обеспечить одновременный доступ к информации нескольким пользователям. При этом для обеспечения доступа к данным вместо механизма блокировки файлов используют механизм транзакций. В условиях технологии «клиент-сервер» функции СУБД разделены на две части: клиентскую и серверную. Клиентская часть программы, работающая на компьютере пользователя, обеспечивает взаимодействие с серверной программой посредством запросов, передаваемых на удаленный компьютер, и предоставляет доступ к данным. Хранение данных и управление ими обеспечиваются сервером. Серверная часть программы, работающая на удаленном компьютере, принимает запросы, выполняет их и пересылает данные клиентской программе. Соответственно функции работы с пользователем (такие как обработка ввода и отображение данных) выполняются на ПК пользователя; функции работы с данными (такие как дисковый ввод-вывод и выполнение запросов) выполняются сервером БД. Стандартным языком, предназначенным для обработки и чтения данных, содержащихся в реляционных БД, управляемых соответствующей системой управления базами данных, в рамках этой технологии стал язык SQL (аббр. от англ. Structured query language - «язык структурированных запросов»), обеспечивающий четко определенный интерфейс между клиентской и серверной системами, эффективно передавая запросы на доступ к БД.

Распределенные базы данных предоставляют более гибкие формы обслуживания многочисленных удаленных пользователей при работе со значительными объемами данных в условиях географической или структурной разобщенности; являются более адаптивными и менее чувствительными к выходу из строя оборудования. Распределенная база данных состоит из нескольких, возможно пересекающихся или даже дублирующих друг друга частей, хранимых в различных компьютерах вычислительной сети. Работа с такой БД осуществляется с помощью системы управления распределенной базой данных (СУРБД). В условиях крупных организаций увеличение числа пользователей, расширение географических размеров системы, увеличение физических узлов сети усложняет администрирование распределенных баз данных в силу создания угрозы рассогласования данных, хранящихся в различных частях системы; возникновения проблем целостности и безопасности данных.

При увеличении объёмов информации для многоцелевого применения и эффективного удовлетворения информационных потребностей различных пользователей используется интегрированный подход к созданию машинной информационной базы. При интегрированном подходе к созданию машинной информационной базы, ее компоненты должны представлять собой взаимоувязанное целое, обеспечивающее адекватное отображение предметной области. Принцип интеграции предполагает организацию хранения информации в виде банка данных (БнД), к которому обеспечен широкий доступ различных пользователей. К числу основных требований к БнД относятся: интегрированность баз данных и целостность каждой из них; независимость и минимальная избыточность хранимых данных, которая допускает их использование оптимальным образом для множества приложений. Информационные ресурсы банков данных являются основой для многоаспектного и многократного обращения к ним различных пользователей. Преимущества работы с БнД для пользователей заключаются в повышении производительности работы, снижении затрат не только на создание и хранение данных, но и на поддержание их в актуальном динамичном состоянии.

Банк данных (БнД) — система специальным образом организованных данных (баз данных), программных, технических, языковых, организационно-методических средств, предназначенных для обеспечения централизованного накопления и коллективного многоцелевого использования данных

Основными компонентами любого банка данных являются базы данных, система управления базой данных, справочник баз данных, а также библиотеки запросов и прикладных программных средств. С помощью системы управления базой данных реализуются централизованное управление данными, хранимыми в базе данных; доступ к данным и поддержание их в состоянии, соответствующем состоянию предметной области. Для хранения информации о структурах данных, взаимосвязях файлов БД друг с другом, типах данных и форматах их представления, кодах защиты и разграничения доступа и т. п. предусматривается особая подсистема банка данных - справочник баз данных. Как и базы данных, банки данных, в случае размещения на одном компьютере, именуются локальными, а при расположении на нескольких компьютерах, соединенных компьютерной сетью, - распределенными.

Ответной реакцией на решение проблем неадекватности данных, отраженных в базах и банках данных, информационным потребностям лиц, принимающих управленческие решения, стала реализация технологии хранилищ данных (информационных хранилищ, ХД) как основы информационно-аналитических систем (ИАС).

Хранилище данных (англ. Data warehouse) - предметно-ориентированная интегрированная совокупность данных из различных источников, накопленных за большой интервал времени и обеспечивающих оперативное представление аналитической информации в удобном для пользователя виде при принятии оперативных решений в технологиях OLAP - анализа, Reporting; а также при информационной поддержке принятия стратегических решений в технологиях интеллектуального (углубленного) анализа данных Data mining

Хранилище данных предназначено для предоставления в режиме реального времени пользователям различных уровней управления всей необходимой совокупности данных, необходимых при принятии управленческих решений по всем видам деятельности организации (учреждения, предприятия, корпорации и др.). Особое значение хранилища данных имеют при принятии решений в целях стратегического планирования и прогнозирования. Источниками исходных данных для создания ХД служат данные, извлеченные из существующих внутренних БД организации, а также из внешних источников (например, статистических отчетов). Технологии хранилищ данных нацелены на их хранение и эксплуатацию по всем видам деятельности организации как единого целого. Особенностями хранилищ данных являются:

  • • большой объем и сложные взаимосвязи данных (объем хранилища данных организации может достигнуть нескольких сотен гигабайт);
  • • предметная ориентация данных (информация в ХД организована в соответствии с основными аспектами деятельности организации;
  • • интегрированность хранимых данных, собираемых из различных источников;
  • • неизменяемость (инвариантность) и целостность данных во времени (попав в определенный исторический слой ХД, данные уже никогда не будут изменены, что дает возможность анализировать информацию в хронологическом аспекте при выявлении трендов, построении прогнозов);
  • • возможность формировать произвольные запросы к системе.

Хранилища данных могут иметь различную архитектуру. Информационные хранилища двухуровневой архитектуры имеют структуру, в которой на первом уровне представлены разнообразные источники данных; а на втором - центральное хранилище данных, в котором концентрируются все данные системы и к которому имеют доступ все пользователи. Информационные хранилища трехуровневой архитектуры включают: первый уровень - разнообразные источники данных; второй уровень - центральное хранилище данных; третий уровень - набор предметноориентированных витрин данных. Витрина данных (англ. Data marts, киоск данных, подмножество общего хранилища данных, подсистема представления данных) - предметно-ориентированное хранилище данных, предназначенное для использования группой пользователей в рамках конкретного вида деятельности организации для проведения целевого делового анализа, например, маркетингового, финансово-экономического и т. д. С точки зрения пользователя, отличие витрин данных от хранилища данных заключается в том, что хранилище данных соответствует уровню всей организации, а каждая витрина обычно обслуживает уровень не выше отдельного подразделения организации и иногда может создаваться для индивидуального использования, отличаясь достаточно узкой целевой специализацией.

К категориям данных, которые располагаются в хранилище, наряду с фактическими данными, отражающими состояние предметной области в конкретные моменты времени, а также суммарные данные, полученные на основе проведенных аналитических расчетов, относятся метаданные, необходимые для управления хранилищем данных. Видами метаданных могут быть: информация о структуре данных в хранилище данных; информация о структурах данных, импортируемых из различных источников; информация о самих источниках, методах загрузки и агрегирования данных; сведения о средствах доступа, а также бизнес-правилах оценки и представления информации; информация о структуре понятий, отражающих специфику предметной области (например, бизнес-понятий конкретной предметной области).

Создание хранилищ данных предусматривает следующие виды работ с данными:

• сбор данных - извлечение необходимых для анализа данных из нескольких локальных баз данных в соответствии со схемой отображения, представленной в репозитории;

• преобразование исходных данных в аналитические данные, включающее:

Репозиторий - база данных, предназначенная для хранения проектных метаданных (версий проекта и его отдельных компонентов), синхронизации поступления информации от различных разработчиков при групповой разработке, контроля метаданных на полноту и непротиворечивость

S «очистку» данных (англ.

Data scrubbing) - устранение ненужной для анализа информации, проверку целостности, исключение дублирования данных, отбраковку случайных данных, восстановление отсутствующих данных;

S агрегатирование данных (англ. Data aggregation) - вычисление суммарных, средних, минимальных и других статистических показателей;

S преобразование данных (англ. Data transfer) к единому формату, в том числе данных, одинаковых по наименованию, но имеющих различный формат представления;

S согласование данных во времени (англ. Harmonization of data over time) - приведение данных в соответствие к одному моменту времени.

Комплекс программных средств создания хранилищ данных включает: программные средства, которые: экстрагируют данные из источников данных; выполняют операции преобразования данных; реализуют поиск данных в хранилище данных. В качестве технических средств для хранения данных, входящих в хранилище данных, обычно используются выделенные серверы, или кластеры серверов.

Мера качества хранилища данных - это, прежде всего, полнота и достоверность входящих в него данных, а также степень разнообразия реализуемых аналитических запросов и удобство доступа к нему для конечных пользователей, ориентированных на принятие управленческих решений.

Несмотря на всю значимость создания и использования хранилищ данных, принятие управленческих решений на основе информационноаналитических систем в конечном счете остается сегодня прерогативой человека. Вместе с тем все более характерными для XXI века становятся информационные ресурсы и технологии, направленные на автоматизацию решения управленческих задач. В их основе лежит генерация ЭВМ нового знания на основе введенных в автоматизированную информационную систему данных. Перспективы развития этого направления связаны с интеграцией информационно-коммуникационных и когнитивных технологий, воплощенной в создании систем искусственного интеллекта и баз знаний, порождающих возможность нахождения решений сложных задач в некоторой предметной области.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >