Технология создания баз данных

Инфологическое проектирование базы данных - определение семантического наполнения базы данных

Даталогическое проектирование базы данных - разработка способов представления на машинных носителях и компьютерной обработки информации, подлежащей отражению в базе данных

Создание баз данных любого вида предполагает последовательное выполнение на базе интегрированной технологии создания ЭИР комплекса работ на предпроектной, проектной и послепроектной стадиях (параграф 4.2 данного учебника). Особенности состава и содержания этих работ определяются сложившейся в XX веке теорией баз данных. В соответствии с устоявшимся в теории баз данных подходом выделяют два уровня проектирования баз данных: инфологическое проектирование (макропроектирование) и даталогическое проектирование (микропроектирование).

Сравнительная характеристика содержания и результатов работ, выполняемых на этих уровнях проектирования баз данных, представлена в таблице 23.

Сравнительная характеристика уровней и этапов проектирования базы данных

Таблица 23

Уровень

проекти

рования

Этап

проектирования

Результат

проектирования

Особенности

результата

проектирования

Инфологическое проектирование (макропроектирование)

Предпроектное обследование (пред- проектный анализ) предметной области

Семантическая модель предметной области (модель «объект - свойство - отношение»)

Использование естественного языка; независимость от структуры базы данных и СУБД

Концептуальное

проектирование

ER-модель предметной области (модель «сущность - связь» предметной области

Использование формализованного языка; независимость от структуры базы данных и СУБД

Уровень

проекти

рования

Этап

проектирования

Результат

проектирования

Особенности

результата

проектирования

Даталоги- ческое проектирование (микропроектирование)

Логическое

(внешнее

даталогическое)

проектирование

Логическая модель базы данных, СУБД-ориентиро- ванная модель базы данных

Независимость от технических средств

Физическое (внутреннее даталогическое) проектирование

Физическая модель базы данных

Полная зависимость от программных и технических средств

Результатом инфологического проектирования базы данных является концептуальная модель предметной области. В ее состав входят семантическая модель предметной области и ER-модель предметной области. Нормативные требования к построению концептуальной модели базы данных диктуются ГОСТ 34.320-96 «Информационные технологии. Система стандартов по базам данных. Концепции и терминология для концептуальной схемы и информационной базы». На уровне даталогического проектирования вначале разрабатывается логическая модель базы данных, на следующем этапе она трансформируется в физическую модель базы данных.

В соответствии с двумя основными видами информационных запросов пользователей библиотечно-информационных учреждений (библиографических и фактографических), в данном учебнике технологии создания баз данных рассматриваются с позиций соответствующих им видов баз данных: документальных и фактографических (ДБД и ФБД). В основе разработки баз данных АБИС лежит предпроектное обследование предметной области - библиотечно-информационного учреждения в целом или его подразделения. Полученные сведения должны стать опорой для обоснования потребности в создании БД. Необходимость создания базы данных может быть обусловлена, например, низкой оперативностью информационного поиска; большой трудоемкостью решения поисковых задач; ограниченным набором атрибутов информационного поиска; недостаточным составом решаемых задач; низкой степенью аналитичности формируемых выходных документов; невозможностью одновременного доступа (в том числе удаленного) нескольких пользователей к одному источнику информации и т. п.

Подходы к изучению предметной области предусматривают ее анализ как «сверху - вниз», так и «снизу - вверх». Подход к изучению предметной области «сверху - вниз» (объектный или интуитивный подход) нацелен на определение семантических и формальных границ предметной области и построение семантической модели предметной области, модели «объект - свойство - отношение». Важнейшим требованием к семантической модели предметной области является обеспечение ее адекватности исходной реальной системе (предметной области). Подход к изучению предметной области «снизу - вверх» (процессный или аналитический подход) связан с определением состава категорий потенциальных пользователей базы данных (управляющего персонала и специалистов библиотечно-информационного учреждения, конечных пользователей) и выявлением их информационных потребностей.

Система управления базами данных (СУБД, data base management system, DBMS, по ГОСТ P ИСО МЭК TO 10032-2007) - совокупность программных и лингвистических средств общего или специального назначения, обеспечивающих управление созданием и использованием баз данных

Полученная информация о предметной области составляет основу построения ER-модели, представляющей собой формализованное описание объектов предметной области. Категория «ER-модель» предложена Питером Пин-Шеи Ченом (англ. Peter Pin-Shen Chen), американским профессором компьютерных наук в университете штата Луизиана) в 1976 году. К ER-модели предметной области в соответствии с ее назначением предъявляются следующие требования: адекватное отображение предметной области, непротиворечивость, однозначность трактовки, легкость восприятия различными категориями пользователей (специалистами в предметной области, проектировщиками баз данных, программистами).

Основными элементами ER-моделей являются: сущность - абстрактное представление реально существующего объекта, процесса или явления предметной области в ее модели; атрибут - одна из характеристик, описывающих свойства сущности (объекта, процесса или явления) в модели БД; связь - это функциональная зависимость между сущностями (1:1, 1:N, N:M). В ходе построения ER- модели предметной области осуществляется конвертирование выявленных в ходе предпроектного обследования и отраженных в семантической модели предметной области компонентов (объект, свойство, связь) в адекватные им компоненты ER-модели (сущность, атрибут, связь). ER-mo- дель предметной области строится без ориентации на какую-либо конкретную логическую модель данных и программные средства, предназначенные для создания и ведения базы данных (СУБД). В соответствии с выбранной СУБД, на основе ER-модели предметной области на уровне даталогического проектирования может быть порождена любая логическая модель базы данных (иерархическая, сетевая, реляционная, объектная). При этом ориентация на ER-модель предметной области призвана обеспечить осмысленное, аргументированное принятие решений по структурированию базы данных; снижение субъективизма разработчиков базы данных; значительное упрощение и упорядочение процедуры логического проектирования базы данных.

С целью обеспечения наглядности информации о предметной области ER-модель обычно представляется в графической форме. Визуализация ER-модели порождает ER-диаграмму (англ. Entity-Relationship diagram, ERD). Конвертирование ER-модели в ER-диаграмму предполагает графическое изображение сущностей, атрибутов и связей, делающее информационную интерпретацию предметной области наглядной, а значит удобной для проектирования базы данных. Создание ER-диаграмм осуществляется с использованием различных знаковых систем. Для обозначения сущностей обычно используются прямоугольники; для обозначения атрибутов - овалы (эллипсы), которые связываются линией с сущностью (см. рисунок 5).

ER-диаграмма сущности «...»

Рисунок 5. ER-диаграмма сущности «...»

Пример объединения сущностей в составе ER-диаграммы представлен на рисунке 6.

ER-диаграмма предметной области «...»

Рисунок 6. ER-диаграмма предметной области «...»

ER-диаграмма в концепции базы данных дополняется текстовым описанием, в котором дается характеристика сущностей; перечисляются атрибуты, в том числе ключевые атрибуты («ключи») сущностей, указываются форматы и логические ограничения данных, характеризуются связи.

Специфика концепции базы данных и технического задания на ее создание среди других видов ЭИР в значительной мере зависит от требований к постановке решаемых на ее основе задач и необходимых для этого обеспечивающих средств. Постановка решаемых на основе БД задач является главным условием принятия общесистемных и локальных проектных решений по созданию базы данных. К факторам, определяющим в целом состав задач, подлежащих решению в условиях эксплуатации базы данных, относятся: важность решения задачи для выполнения функций библиотечно-информационного учреждения; трудоемкость и стоимость решения конкретной задачи; низкая оперативность решения задачи в условиях традиционной технологии; недостаточность количества аналитических показателей, получаемых при обработке первичных документов в условиях традиционной технологии.

Постановка задачи - генерирование и описание задачи, дающее представление о ее сущности, результатах и условиях их получения

Состав задач, решаемых конкретной базой данных обусловливается как результатами изучения предметной области «сверху - вниз», так и «снизу - вверх». Задачи, подлежащие решению базой данных, подразделяются в зависимости от степени новизны на регламентные и инновационные; по характеру производимых действий над данными - на логические и математические; по получаемому результату - на поисковые и расчетные; по степени типизации - на типовые и оригинальные.

Регламентные задачи являются традиционными для заданной предметной области. Содержание инновационных задач должно быть ориентировано на получение нетривиальной, аналитической информации, предназначенной, прежде всего, для принятия обоснованных управленческих решений различного уровня. Генерирование таких задач имеет особую важность для эффективного функционирования любой предметной области, ибо именно они определяют перспективы ее прогрессивного развития. В составе этих задач могут быть предусмотрены ранее не решавшиеся задачи, для реализации которых созрели объективные предпосылки, однако отсутствует необходимая ресурсная база. Логические задачи направлены на осуществление логической обработки данных (например, выборка, сортировка данных и т. и.). Математические задачи позволяют обеспечить вычисление количественных показателей. Поисковые задачи связаны с использованием алгоритма обработки информации, которая не приводит к созданию новой информации, отличной от исходной. Решение расчетных задач направлено на создание новой информации, непосредственно не содержащейся в исходной. Типовые задачи - это задачи, в решении которых накоплено наибольшее количество информации и разработаны методы оценки и использования имеющейся информации, независимо от присущих конкретному объекту автоматизации отличительных особенностей. Оригинальные задачи характеризуются тем, что они ориентированы на особенности проектируемой базы данных.

Нормативные требования к описанию задач автоматизированной обработки информации установлены РД 50-34.698-90 [29]. Характеристика задач, подлежащих решению на основе проектируемой базы данных, может быть представлена в табличной форме (таблица 24).

Таблица 24

Характеристика задач, решаемых базой данных «...»

Наименование

задачи

Тип

задачи

Выходной

документ

Входной

документ

Периодичность решения задачи

Состав

пользователей

Требования к необходимым для создания БД обеспечивающим средствам должны, как минимум, рассматриваться на уровне информационного, лингвистического, программного и технического обеспечения. В требования к информационному обеспечению в составе технического задания на создание базы данных должны быть включены требования к структуре (формату) библиографической или фактографической записи, составу поискового образа документа или факта в зависимости от типа базы данных (документографическая или фактографическая), форматам выходных и входных документов (использованию унифицированных форм документов при разработке форматов выходных и входных документов), экранным формам ввода и вывода данных, информационной совместимости со смежными базами данных, защите данных от разрушений при авариях и сбоях в электропитании системы; защите информации от несанкционированного доступа и способам сохранности информации; контролю, хранению, обновлению и восстановлению данных; технологии процессов сбора, обработки, передачи данных в системе и представлению данных. Особое внимание при установлении требований к обеспечивающим средствам БД должно быть уделено вопросам совместимости разрабатываемой базы данных со смежными БД. С позиций информационной совместимости ДБД на мировом уровне принципиальное значение при проектировании документальных БД имеет ориентация на выбор унифицированного формата библиографической записи. В настоящее время это достигается за счет использования коммуникативных форматов семейства MARC. Решение вопросов обеспечения информационной совместимости ФБД при отсутствии специальных средств унификации фактографической записи и коммуникативных форматов, разработанных и принятых на международном или национальном уровнях, достигается разработкой и утверждением такого рода документов в рамках отрасли, корпорации, отдельного учрежде- ния/организации.

Логическое проектирование базы данных - создание схемы базы данных на основе конкретной модели данных, например, реляционной модели данных

Отношение - двумерная таблица, включающая множество однотипных записей

Проектные решения по созданию базы данных принимаются в ходе ее логического и физического проектирования. Его результаты воплощаются в логической и физической моделях базы данных. В настоящее время наибольшее распространение при разработке логических моделей БД получила реляционная модель данных, представляющая собой совокупность двумерных таблиц - отношений (англ. Relation). Реляционную модель данных поддерживают большинство современных СУБД.

Логическая запись (кортеж, строка таблицы) - совокупность значений всех атрибутов, характеризующих экземпляр сущности, входящей в структуру базы данных

Строки таблицы называются логическими записями, а столбцы полями. Поле является элементарной единицей логической организации данных и характеризуется именем, типом, длиной, точностью данных.

Ключ таблицы - особый атрибут (минимальный набор атрибутов) сущности; столбец (несколько столбцов) таблицы, по значению которого можно однозначно найти требуемый экземпляр сущности и установить связь с записями в другой таблице

Типичными полями логической записи документальной базы данных в соответствии со структурой библиографической записи являются: Ф. И. О. автора; Ф. И. О. составителя; заглавие издания; вид издания; место издания; название издательства; язык; цена; год выпуска; аннотация или реферат; лексические единицы поискового образа документов (ПОД) - классификационные индексы, предметные рубрики, ключевые слова и т. п.; шифры хранения документа, сведения служебного характера и т. п. Набор значений какого-либо атрибута для различных экземпляров сущности образует домен (столбец таблицы). Связи между записями в таблицах реляционных БД устанавливаются через уникальные идентификаторы («ключи») или ключевые поля. Каждая сущность может обладать одним или несколькими возможными ключами: первичными и вторичными или внешними.

Структура записей в логической модели базы данных представлена ниже в таблице 25.

Таблица 25

Структура логических записей реляционной базы данных

Имя поля

Признак

ключа

Формат поля

Условное

обозначение

Полное

наименование

Тип

поля

Длина

поля

Область

допустимых

значений

Каждая СУБД поддерживает тот или иной набор типов данных. Тип поля данных указывает, как обрабатывать эти данные. В большинстве случаев в базах данных используются четыре основных типа данных: текстовый (символьный), числовой, дата и логический. Длина поля задает максимальный размер данных, сохраняемых в поле. Ограничение значения данных поля характеризует область допустимых значений поля данных. Наличие условий на ограничение значения данных позволяет осуществлять контроль ввода данных, запрещая его при нарушении заданного ограничения и сообщая об ошибке выводимым на экран текстовым сообщением.

Физическое проектирование базы данных - создание схемы базы данных для конкретной СУБД

Физическая модель базы данных

(внутренняя датологическая модель) - модель данных, указывающая на то, каким образом логические записи размещаются на машинных носителях и как осуществить доступ к данным

Физическое проектирование БД связано с определением способов организации данных на машинных носителях, а также методов доступа к данным с использованием возможностей, предоставляемых выбранной СУБД. Результатом физического проектирования является физическая модель базы данных. Логическая модель БД может быть отражена множеством физических моделей с учетом следующих факторов: сохранение семантики логической модели; максимальное быстродействие при поиске и выборе данных; максимальная экономия памяти ЭВМ; минимальные затраты на ведение БД.

Состав работ на этапе изготовления опытного образца послепроект- ной стадии создания как документальных, так и фактографических баз данных включает: отбор документов для отражения в базе данных, формирование библиографической или фактографической записи, ввод данных в базу данных. Отбор документов для формирования базы данных осуществляется в соответствии с установленными формальными и семантическими границами предметной области. Основное требование, предъявляемое к разработке на данном этапе, - это обеспечение полноты и точности отобранной информации.

Выполнение работ по формированию массива библиографических (фактографических) записей в машиночитаемой форме в итоге обеспечивает подготовку контента документальной (фактографической) базы данных. Представление библиографических или фактографических записей на машиночитаемом носителе предусматривает заполнение полей соответствующей экранной формы ввода данных в БД с последующим их контролем, а при необходимости корректировкой.

Проверка корректности функционирования базы данных и решения поставленных задач осуществляется в ходе ее тестирования, а также испытаний (предварительных, опытной эксплуатации, приемочных). Сущность тестирования и всех видов испытаний ЭИР описана в параграфе 4.2 данного учебника. Положительные результаты приемочных испытаний БД определяют возможность передачи ее в постоянную эксплуатацию в условиях конкретного библиотечно-информационного учреждения - заказчика базы данных. Оценка качества баз данных должна осуществляться по следующим основным направлениям: оценка качества содержания (контента); оценка функциональных возможностей; оценка качества программной реализации.

С учетом того что контент любой базы данных с течением времени устаревает, она начинает терять свою ценность. Решение этой проблемы обеспечивает регулярная актуализация базы данных в ходе ее ведения. Ведение базы данных - это процесс постоянного поддержания БД в рабочем состоянии, включающий: необходимое изменение записей, ввод новых записей, исключение устаревших записей. Регулярное осуществление операций ведения БД является залогом ее эффективного функционирования.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >