НиД (10) - Лекция №9 - Качество информации

Материал из Кафедра ИУ5 МГТУ им. Н.Э.Баумана, студенческое сообщество
Перейти к навигации Перейти к поиску

Качество информации

Существует два взгляда на информационную систему:

  • внешний - как на "чёрный ящик". Рассматривается назначение системы, её эффективность и работа в целом;
  • внутренний - организация системы изнутри:
    • архитектура;
    • операции.

Мы будем говорить о внутреннем взгляде на систему.

Модель качества данных

Предположения модели:

  • о представлении: информационная система - это отображение реальной системы, воспринимаемой человеком;
  • об интерпретации: ИС создана для пользователя, чьё видение реального мира отражено в этой ИС;
  • о следствии: ИС может создать такое отображение, из которого наблюдатель в состоянии оценить вид системы реального мира так, как она отражена в ИС;
  • о внутреннем взгляде: рассматривается архитектура и операции.

Искажение информации - это несоответствие между взглядом человека на систему реального мира и взглядом на ту же систему, полученным при использовании ИС.

Краткие основы онтологии:

  • все предметы обладают свойствами;
  • каждый предмет состоит из набора более мелких;
  • состояние объекта в момент времени характеризуется значениями его свойств (или значениями более мелких предметов).

Говорят, что ИС является отображение системы реального мира, если состояние ИС в момент времени позволяет сделать вывод о состоянии системы реального мира в этот же момент или в другой.

Состояния системы:

  • рабочее - СРМ отражена правильно, если:
    • для каждого состояния СРМ есть отображение в состояние ИС;
    • не существует двух или более состояний СРМ, отображённых в одно состояние ИС;
  • неполное - почта может доставлять только по России, потому международные доставляться не будут;
  • многозначное - у человека есть мобильный и домашний телефон, а ИС понимает это просто как телефон;
  • бессмысленное - есть состояния в ИС, которых нет в СРМ.

Дефекты операций:

  • искажение информации;
  • связанные с декомпозицией.

Характеристики качества информации:

  • полнота;
  • точность:
    • однозначность (недвусмысленность);
    • значимость;
    • корректность.
Характеристика Проблема отображения Проблема информации Способы улучшения
Полнота существует состояние СРМ, не отображённое в ИС нехватка информации по данной области добавление в ИС новых состояний
Однозначность существуют состояния ИС, которые отображают несколько состояний СРМ неясность, информация интерпретируется несколькими способами изменение архитектуры системы, добавление новых состояний в ИС
Значимость существуют состояния ИС, которые невозможно отобразить в СРМ невозможность восприятия данных пользователем сокращение состояний ИС, чтобы остались только значимые
Корректность состояние ИС отображает неверное состояние СРМ объекты, описываемые ИС, не соответствуют реальности введение способов нормирования данных, приведение ссылочной целостности

Математическая оценка качества реляционных операций

Всё строится на предположении, что точность кортежей может быть оценена.

Некоторые определения:

  • реляционное отношение: $$R$$
  • точность кортежа $$t$$: $$A_t$$
  • количество кортежей, содержащих неточное значение атрибута: $$P$$
  • количество точных кортежей: $$N$$
  • количество кортежей, попавших в $$R$$ по ошибке, которые являются ложными его членами: $$M$$

Пример отношения $$R$$ - сотрудники мужского пола:

ID Зарплата Фамилия Имя
1 100 Иванов Иван
2 120 Петров Пётр
3 120 Сидорова Катя

Кортеж Сидоровой здесь является ложным.

Кортеж $$t\in R$$ является точным, когда:

  • он является истинным членом отношения $$R$$;
  • все атрибуты кортежа $$t$$ точны.

Точность отношения $$R$$: $$A_R = \frac{N}{\mid R\mid}$$, где $$\mid R\mid$$ - мощность отношения $$R$$.

Неточность, связанная с наличием ложных членов: $$IM_R = \frac{M}{\mid R\mid }$$

Неточность, связанная с наличием в кортежах неточных атрибутов: $$IA_R = \frac{P}{\mid R\mid }$$

$$A_R + IM_R + IA_R = 1$$

Если $$R = \varnothing$$, то $$A_R = 1$$

Точность атрибута: $$A_a = \sqrt[D]{A_R} = A_R^{\frac{1}{D} }$$

Будем считать, что вероятность ошибки в атрибуте кортежа распределена равномерно.

Точность селекции

Равномерное распределение

$$R = \sigma_C^S$$ - некоторое подмножество отношения $$S$$ по условию $$C$$.

Граничные условия:

если $$A_S = 0$$, то $$A_R = 0$$
если $$A_S = 1$$, то $$A_R = 1$$

$$A_R = \frac{N}{\mid R\mid } = \frac{\mid R\mid\cdot A_S}{\mid R\mid } = A_S$$

$$IM_R = IM_S$$

$$IA_R = IA_S$$

Неравномерное распределение

Граничные случаи:

лучший - в селекцию попадает максимум точных кортежей
если $$\mid S_a\mid \ge \mid R\mid$$, то $$A_R = 1$$
если $$\mid S_a\mid < \mid R\mid$$, то $$A_R = \frac{A_S\cdot \mid S\mid }{\mid R\mid }$$
худший - в селекцию попадает максимум неточных кортежей
$$A_R = \frac{\mid R\mid - (\mid S\mid \cdot (1 - A_S))}{\mid R\mid } = 1 - \frac{\mid S\mid }{\mid R\mid }\cdot (1 - A_S)$$

Точность проекции

Равномерное распределение

$$R(A) = \Pi_A S(B)$$

Пример отношения $$S$$:

ID Зарплата Фамилия Имя
1 110 Иванов Иван
2 110 Иванов Сергей
3 120 Петров Пётр
4 150 Сидоров Сидор
  1. $$S(B)\rightarrow Q(A)$$
  2. $$Q(A)\rightarrow R(A)$$

Проекция отношения без имён:

ID Зарплата Фамилия
2 110 Иванов
3 120 Петров
4 150 Сидоров

Дубликаты удаляются.

Пусть $${V_1 ... V_n}$$ - кортеж из $$S$$, а $$p$$ - вероятностная точность атрибута, $$p = \sqrt[m]{A_S}$$

Первый шаг:

$$A_Q = \sqrt[m]{A_S^n}$$
$$IM_Q = IM_S$$
$$IA_Q = 1 - (IM_Q + A_Q) = 1 - (IM_S + \sqrt[m]{A_S^n})$$

Теперь удаляем дубликаты (по сути, селекция):

$$A_R = \frac{\mid Q\mid \cdot A_Q - (\mid Q\mid - \mid R\mid )\cdot A_Q}{\mid R\mid } = A_Q = \sqrt[m]{A_S^n}$$
Неравномерное распределение

Худший случай:

если все кортежи из $$Q$$ неточны, то $$A_R = 0$$
если в $$Q$$ есть и точные кортежи, и неточные, и при удалении дубликатов все точные схлопнутся в один, то $$A_R = \frac{1}{1 + ((1 - \sqrt[m]{A_S^n} })\cdot \mid S\mid )$$

Лучший случай

если все кортежи из $$Q$$ точны, то $$A_R = 1$$
если в $$Q$$ есть и точные кортежи, и неточные, и при удалении дубликатов все неточные схлопнутся в один, то $$A_R = \frac{\sqrt[m]{A_S^n}\cdot \mid S\mid}{1 + (\sqrt[m]{A_S^n})\cdot \mid S\mid}$$

Повышение качества данных

Классификация мер по повышению качества данных:

  • сбор новых данных;
  • стандартизация и нормализация;
  • композиция качества;
  • оптимизация затрат;
  • идентификация объектов - обнаружение объектов реального мира в ИС;
  • локализация и коррекция ошибок - задание шаблонов и определение кортежей, неудовлетворяющих этим шаблонам;
  • интеграция данных - из нескольких систем в одну и проверка.