ПБД (9) - Лекция №11 - Интеграция информации

Материал из Кафедра ИУ5 МГТУ им. Н.Э.Баумана, студенческое сообщество
Перейти к навигации Перейти к поиску
Этот конспект ещё не дописан.
Здесь не хватает:
   - изображения куба для OLAP;
   - примеров таблиц измерений и размерностей;
   - материализованных представлений;
   - сетки представления;
   - сотни формул и алгоритмов датамайнинга;
   - многого другого.


Интеграция информации

Несколько вариантов:

  • федеративные БД. Плюсы: соединяем каждого с каждым, минусы: слишком много интерфейсов;
  • хранилища данных. В них заливается информация из источников данных (с необходимыми преобразованиями). Изменение информации не предусматривается, только просмотр. Слив информации может осуществляться: раз в сутки, пакетами (инкриментами) или онлайн-транзакциями (мгновенно). Промежуточные компоненты хранилища:
    • извлечение данных. Шаблоны запросов с наборами функций для обращения к источникам данных;
    • слияние и преобразование;
  • медиаторы (виртуальные хранилища данных). Отличие от просто хранилищ - не существует физически, просто транслирует запросы к источникам данных. Обеспечивают представление данных в виде единой обобщённой структуры. Функции:
    • оболочка - аналогично компонентам извлечения у хранилищ данных;
    • фильтрация данных;
    • агрегация;
    • произ.чтототам. Не удалось разобрать из-за хардкорной экономии мела.

Хранилища данных

Являются:

  • предметно-ориентированными. Используются в системах поддержки принятия решений. Ориентированы на предметную область;
  • интегрированными;
  • неизменными. Необходимо сохранять переодичность и изменчивость данных (в какой момент на каком счету у какого клиенты было сколько денег). Потому новые данные не изменяют старые, а дополняют;
  • имеют структуру для хранения хронологических данных.

Есть OLTP и OLAP системы.

Пользовательские интерфейсы:

  • заранее предопределённые запросы;
  • система поддержки принятия решений;
  • программный датамайнинг (автоматический, без человека).

Хранилища данных предназначены для решения аналитических задач.

Есть витрины данных, используются для сокращения вариантов хранения данных для конкретной группы пользователей. Возможно, это совсем не это, но встроенный OCR смог распознать только так.

Есть комбинированные разновидности:

  • независимые витрины данных;
  • двухуровневые хранилища данных;
  • трёхуровневые хранилища данных.

Архитектура хранилищ данных

Архитектура может быть представлена следующей схемой:

ETL:

  • extraction - извлечение;
  • tranzaction - преобразование. Есть такое понятие - грязные данные. Это данные с ошибками, опечатками и так далее. Производится операция очистки грязных данных. Кроме очистки также могут осуществляться объединение, дублирование и другие операции;
  • loading - загрузка.

OLAP системы

Запросы выполняются к большому объёму данных. Запросы на чтение, извлечение данных.

Пример запроса:

SELECT month, sum(price)
FROM Sales
WHERE city ='Москва'
GROUP BY month

Зачем он нужен, например:

  • оценка работы фирмы;
  • прогноз продаж;
  • выявление причин.

Что есть в OLAP системах:

  1. факты и таблицы фактических значений - сведения о событиях, транзакциях, действиях;
  2. измерения (товары, магазины).

Ещё есть кубы данных. Бывают:

  • фактические - хранят фактические данные;
  • формальные - кроме фактических данных хранят ещё и агрегированные данные.

Для сокращения времени выполнения запросов некоторые данные заранее агрегируются.

Преимущества использования куба - не идёт агрегация, а осуществляется извлечение уже агрегированных данных.

А ещё есть ROLAP - реляционные OLAP, хранятся в обычных реляционных СУБД. Используются схемы "звезда" или "снежинка".

Схема "звезда"

Используются таблицы измерений.

Типовой запрос:

SELECT *
FROM ТФ3 |><| TP1 |><| ... |><| ... TPN
WHERE условие
GROUP BY группирующий атрибут

Операции:

  • рассечение - выделение из куба некоторого пространства для анализа его содержимого. Рассечение задаётся оператором GROUP BY и группирующими атрибутами;
  • расслоение - выбор слоя для проведения анализа внутри него. Задаётся оператором WHERE;
  • уточнение - уменьшение шага разбиения;
  • округление - увеличение шага разбиения.

Плюсы:

  • быстрее выполняются запросы.

Минусы:

  • дублирование данных.

Схема "снежинка"

Те же таблицы измерений.

Плюсы:

  • удобно работать с размерностями;
  • нет дублирования данных.

Минусы:

  • дольше выполняются запросы.

Сетка представлений

Это правила разбиения некоторого измерения на части. Например, можно делить по дням, а можно по месяцам.

Датамайнинг

Автоматическое извлечение данных:

  • новые данные;
  • практические значения;
  • нетривиальные данные;
  • интерпретируемые человеком.

Задачи датамайнинга:

  • классификация;
  • регрессия;
  • кластеризация;
  • ассоциативные правила - наборы объектов;
  • сиквенциальный анализ - последовательности.

Классификация

$$I = {i_j}$$ - множество объектов.

$$i_j = {x_1, x_2 ... x_m, y}$$, где $$y$$ - характеристика.

Задачи классификации

  • создать правило 1Rule если ... то. Определять класс объекта по одной характеристике;
  • поиск ассоциативных правил.

Кластеризация

$$I = {i_j}$$ - множество объектов.

$$i_j = {x_1, x_2 ... x_m}$$.

Нужно выделить объекты по кластерам. Два подхода:

  • неиерархический;
  • иерархический.