что такое реляционная алгебра

Что такое реляционная алгебра

Во вторую группу входят операции, применимые только к отношениям:

Рис. 1. Операции реляционной алгебры

Нужно объединить два отношения Физ_лица и Юр_лица.

Отношение Физ_лица
ФИОАдр_регистрацииФакт_адр
Иванов Ю.М.Москва, Тверская 2С.-Петербург,Садовая ул. 12
Сергеев И.А.С.-Петербург, Седова 23С.-Петербург, Гороховая ул. 34
...

Отношение Юр_лица
НаимАдр_регистрацииАдр_офиса
АльфаНовгород, Садовая ул. 2С.-Петербург,Садовая ул. 42
Бета.С.-Петербург, Московский пр. 23Гатчина, Лесная ул. 34
...

Результат запроса:

ИМЯАдр_официальныйФактический_адр
Иванов Ю.М.Москва, Тверская 2С.-Петербург,Садовая ул. 12
Сергеев И.А.С.-Петербург, Седова 23С.-Петербург, Гороховая ул. 34
АльфаНовгород, Садовая ул. 2С.-Петербург,Садовая ул. 42
Бета.С.-Петербург, Московский пр. 23Гатчина, Лесная ул. 34
...

Операции объединения, пересечения и разности имеют следующие особенности:

Из отношения Жители нужно выбрать жителей, младше 30 лет

Отношение Жители
ФИОВозраст
Андреев31
Иванов21
Перов40
Яковлев27

На языке SQL запрос запрос выглядит так:

Результат выборки

ФИОВозраст
Андреев31
Перов40

Из отношения Жители нужно выбрать только фамилии жителей

Отношение Жители
ИмяФИОВозраст
ЮрийИванов31
СергейИванов21
ВладимирПеров40
ИгорьПеров27

На языке SQL запрос запрос выглядит так:

Результат выборки

ФИО
Иванов
Перов

Язык SQL предназначен для работы с реальными таблицами и допускает несколько одинаковых строк в таблице с результатами запроса. Для исключения одинаковых строк служит служебное слово DISTINCT

Семантически общие атрибуты описывают общие свойства соединяемых отношений. Общие атрибуты должны иметь один тип

Даны два отношения Рабочие и Инструменты

Рабочие
ТабНомерФИОДолжность
1АндреевСлесарь
2ИвановСлесарь
3ПеровТокарь
4ЯковлевФрезеровщик

Инструменты
ТабНомерИнструмент
1Штангельциркуль
1Микрометр
1Линейка
2Штангельциркуль
2Скоба

ТабНомерФИОДолжностьИнструмент
1АндреевСлесарьШтангельциркул
1АндреевСлесарьМикрометр
1АндреевСлесарьЛинейка
2ИвановСлесарьШтангельциркул
2ИвановСлесарьСкоба

Если в запросе не указать общий атрибут, то получится декартово произведение, состоящее из 4*5=20 кортежей.

При выполнении запроса SELECT, как правило, делаются несколько реляционных операций. Например, для выборки из отношения Рабочие всех кортежей со слесарями и атрибутов ФИО и Должность служит оператор

Выполнение этого запроса состоит из двух реляционных операций: выборки и проекции.

Источник

Заметки о SQL и реляционной алгебре

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

На Хабре и за его пределами часто обсуждают реляционную алгебру и SQL, но далеко не так часто акцентируют внимание на связи между этими формализмами. В данной статье мы отправимся к самым корням теории запросов: реляционному исчислению, реляционной алгебре и языку SQL. Мы разберем их на простых примерах, а также увидим, что бывает полезно переключаться между формализмами для анализа и написания запросов.

Зачем это может быть нужно сегодня? Не только специалистам по анализу данных и администраторам баз данных приходится работать с данными, фактически мало кому не приходится что-то извлекать из (полу-)структурированных данных или трансформировать уже имеющиеся. Для того, чтобы иметь хорошее представление почему языки запросов устроены определенным образом и осознанно их использовать нужно разобраться с ядром, лежащим в основе. Об этом мы сегодня и поговорим.

Большую часть статьи составляют примеры с вкраплениями теории. В конце разделов приведены ссылки на дополнительные материалы, а для заинтересовавшихся и небольшая подборка литературы и курсов в конце.

Реляционная алгебра

Основные операторы

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— само отношение А (отношение здесь синонимично с таблицей и предикатом) является выражением реляционной алгебры, более того, так как это алгебра, любое выражение реляционной алгебры возвращает отношение (свойство замыкания операторов)

Selection (выборка; ограничение)

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— selection (выборка; ограничение), A — отношение (предикат, таблица), что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра– булева формула, по которой происходит отбор строк (кортежей, записей, etc)

Selection является по сути горизонтальным фильтром строк, т.е., можно представить, что мы идем по каждой строке и оставляем только те, что удовлетворяют условию что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра. Простой пример для наглядности:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Projection (проекция)

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— projection (проекция) на атрибуты A, B, …. Возвращает таблицу, в которой остаются только колонки (атрибуты) A, B, …. Простой пример ниже. По сути является фильтром по атрибутам т.е. это в некотором смысле вертикальный фильтр.

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Переименование

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— переименовывает колонку a в b в отношении A (атрибут, аргумент предиката, etc); два чая тому господину, который покажет, что алгебра строго более выразима с оператором переименования (нужно привести пример запроса, который не выразим без этого оператора, но выразим с что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра)

Декартово произведение

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— Декартово произведение двух отношений, большое отношение из всевозможных сочетаний строк в A и B.

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Операции над множествами

Реляционная алгебра является расширением классического набора операторов над множествами (отношение — это множество упорядоченных кортежей; заметьте, что это совсем не равно упорядоченному множеству кортежей). Пусть у нас есть таблица StudentMark(Name, Mark, Subject, Date) – тогда кортеж (Вася, 5, Информатика, 05.10.2010) является упорядоченным – сначала строка Name на первой (ок, или нулевой) позиции, целое число на второй, строка на третьей и дата на четвертой. При этом сами упорядоченные кортежи (Name, Mark, Subject, Date) не упорядочены «внутри» отношения.

Объединение

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— объединение всех строк в A и B, ограничение — одинаковые аттрибуты

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Пересечение

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— пересечение строк, такое же ограничение

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Разница множеств

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— B минус A, все строки, что присутствуют в B, но не присутствуют в A, такое же ограничение

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

(B\A; A — слева, B — справа)

Вспомогательные операторы

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— join (соединение); join соединяет две записи таблиц A и B, при условии, что для этих двух записей выполнено условие φ.

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Задачи для разогрева

Мы будем работать со следующей схемой
что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра
(Схема взята из книги: Elmasri, Navathe – Fundamentals of Database systems; на всякий: крайне НЕ рекомендую книгу; см подборку в конце)

Далее рассмотрим несколько простых задач на реляционную алгебру.

Задача первая. Вывести имена всех работников 5го департамента, которые работают более 10 часов в неделю над проектом Х.

(Промежуточные результаты можно «сохранять» в новых отношениях, но это не обязательно.)

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Задача вторая. Вывести имена всех работников, которыми напрямую руководит Франклин Вонг (и найти небольшую ошибку в решении ниже)

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Задача третья потребует использования нового оператора — «агрегация». Рассмотрим его на примере:

Для каждого проекта вывести название и общее число часов в неделю, которое все работники тратят на этот проект.

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Заметим, что запрос имеет вид a F b (A), где a, b — колонки, A — отношение, а – агрегационная функция (например, SUM, MIN, MAX, COUNT, etc). Читается следующим образом: для каждого значения в колонке а, посчитай b. То есть одному значению в колонке a может соотвестовать несколько строк, поместим значения колонки b из этого множества строк в функцию и создадим новый атрибут fun_b с соотвествующим значением.

Данный запрос не выразим в «классической» реляционной алгебре (без оператора агрегации F). То есть, нельзя написать единственный запрос, который бы для любой базы данных, удовлетворяющей схеме, выдавал бы правильный ответ.

Откуда в точности следует данные результат мы разберем позднее, сейчас можно лишь отметить, что запросы с агрегацией принадлежат более высокому классу вычислительной сложности.

Мы рассмотрим и проанализируем более интересные примеры задач далее в статье. Там же небольшая подборка задач на реляционную алгебру с решениями доступна здесь

В данной части мы поговорим о SQL (Structured Query Language) и покажем, как SQL соответствует реляционной алгебре на простых примерах.

Рассмотрим самую первую задачу еще раз:

Задача первая. Вывести имена всех работников 5го департамента, которые работают более 10 часов в неделю над проектом Х.

Классическое решение выглядит следующим образом:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Альтернативно можно написать вот так:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Или совсем альтернативно:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

(далее решения не убраны под спойлеры)

Проводим аналогию между SQL и реляционной алгеброй

На втором решении мы видим отчетливую аналогию c реляционной алгеброй:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Теперь используем равенство для join и увидим аналогию между SQL и реляционной алгеброй в первом решении

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Как бы это не было иронично, но SELECT в SQL — это project (π; проекция) в реляционной алгебре.

Теперь рассмотрим задачу с агрегацией и сравним её с решением на реляционной алгебре:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Более интересные задачи мы рассмотрим далее в статье (также небольшая подборка здесь), а сейчас рассмотрим еще один формализм запросов.

Реляционное исчисление

Внимательный читатель сейчас мог бы воскликнуть: для чего козе баян? Нам тут что не хватает двух формализмов для написания запросов, к чему третий?

Реляционное исчисление — это адаптация логики первого порядка (FOL: first order logic) для написания запросов. FOL является одним из самых хорошо изученных формализмов математики и даёт возможность использовать уже созданный теоретический аппарат и классические результаты для анализа и написания запросов.

Многие результаты в сложности, (не)выразимости и формировании запросов пришли в базы данных из логики, именно благодаря реляционному исчислению, поэтому и стоит ознакомиться с данным формализмом.

Для разбора и рассказа о реляционном исчислении нам потребуется логика первого порядка, освежить знания о которой можно тут.

Пусть φ(Х) — формула первого порядка, а X — это свободные переменные, т.е., они не квантифицированы (∀ – квантор всеобщности, ∃ – квантор существования), тогда запрос в реляционном исчислении задает множество:

Рассмотрим простые примеры, на которых и разберем формализм:

Пусть R – отношение с тремя атрибутами a,b,c; тогда перепишем следующий запрос реляционной алгебры:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебрав реляционном исчислении как:

Переводя на простой язык r — это кортеж в R (то есть строка с атрибутами, значения которых можно получить через точку по имени, i.e., r.a — атрибут а кортежа r (строки) в отношении R (таблице)). Как мы видим никаких кванторов здесь нет, так как r — на выходе запроса и должен быть свободным кортежем.

Рассмотрим еще один простой пример: R(a,b,c) ∗ S(c,d,e), где * — это natural join, т.е. join по имени – в качестве условия объединения берут атрибуты с одинаковым именем.

Если бы s.D и S.e не было среди выходных параметров, запрос бы имел следующий вид:

Мы были бы обязаны поставить квантор существования, так как S содержится только в «теле» запроса.

Составляя подобные запросы всегда следует быть внимательным с квантором всеобщности, если мы запишем следующее выражение (исключительно в качестве иллюстрации):

То, данный запрос всегда будет возвращать пустое множество, так как для того, чтобы условия запроса было выполнено необходимо, чтобы каждый кортеж в мире длины три принадлежал S и имел в качестве значения последнего атрибута «банан».

Обычно вместе с квантором всеобщности используют импликацию «=>», мы можем переписать запрос следующим образом:

Если s принадлежит S и значения C совпадает с C в R, тогда последний атрибут должен иметь значение «банан».

Здесь можно найти краткую подборку задач на реляционное исчисление с решениями.

Равенство формализмов (теорема Кодда)

Говоря простым языком, теорема Кодда звучит так: все три формализма SQL, реляционная алгебра и реляционное исчисление равны. Вот тут много теории для заинтересовавшихся

То есть любой запрос выраженный на одном языке может быть переформулирован на другом. Данный результат прежде всего удобен тем, что позволяет использовать наиболее удобный формализм для анализа запроса, а во вторых он связывает декларативные языки SQL и реляционное исчисление с императивной реляционной алгеброй. То есть, транслируя запрос из SQL в реляционную алгебру, мы уже получаем способ выполнения запроса (и его оптимизации).

Conjunctive Queries (CQ)

Запросы, которые состоят из select(σ)-project(π)-join(⋈) сегмента реляционной алгебры называют conjunctive queries (ок, я опустил переименование, считаем его неявно присутствующим).

Если вы дочитали до этой строки попробуйте решить следующую задачу используя только эти три оператора (ну и отношения конечно же):

Задача. Выведите имена всех работников, которые работают над каждым проектом.

Подумайте какому сегменту SQL и реляционного исчисления относится данный класс реляционной алгебры.

Вычислительная сложность

Существует несколько различных способов измерить вычислительную сложность выполнения запроса, между ними часто путаются поэтому выпишем определения и их названия:

Пусть Q — запрос, D — база данных, и нужно вычислить Q(D)

Важные факты: сложность SQL по данным (и всех остальных) принадлежит классу AC0 – это очень хороший класс сложности, т.е., запросы можно вычислять очень эффективно.

С теоретической точки зрения можно взглянуть на вот эту картинку:
что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

AC0 лежит внутри NL (точнее даже внутри одного из «слоёв» NC внутри NL).

Рассмотрим следующий интересный вопрос, связанный с вычислительной сложностью: пусть f – функция выполнимости формулы, то есть для каждого запроса она говорит, существует ли база данных такая, что Q(D) истинно. Из теоремы Кодда мы знаем, что реляционная алгебра и SQL эквиваленты реляционному исчислению. А значит, вычисление f – эквивалентно проблеме останова (SAT для логики первого порядка невычислим). Отсюда: не существуют алгоритма, который бы для произвольного SQL запроса мог определить его непротиворечивость.

Для заинтересовавшихся также рекомендую: теорема Трахтенброта

Сложность Conjunctive Queries

CQ являются одним из самых изученных классов запросов так как они составляют всю основную массу запросов к базам данных (я видел на одной презентации цифру в 90%, но не могу сейчас найти источник). Поэтому рассмотрим подробнее их сложность и докажем, что на самом деле их комбинированная сложность равна NP, т.е. задача является NP полной. (Про NP полному можно почитать вот тут и тут.)

Для этого запишем произвольный CQ запрос в реляционном исчислении в виде:

Где [.] – опциональность квантора. Почему такое представление всегда допустимо? Потому что project здесь всегда может быть выражен через X т.е. что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра, join выражен через равенство переменных в что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра, а select через условия на что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебрав теле запроса.

Чтобы показать, что задача принадлежит классу NP-полных, нужно сделать две вещи

Первое условие выполняется тривиально: так как значения отношений конечны (т.е. множество всевозможных значений), то мы можем недетерминированно «угадать» функцию что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебратакую, что делает истинными каждое отношение под кванторами существования.

Покажем, что задача о раскраске графа сводится к задаче выполнимости CQ запроса.

Пусть D состоит из одного отношения edge = <(red,green),(green,red), (blue, red), (green,blue) … >— всех возможных правильных раскрасок графа, таких что никакие две вершины не имеют одинакового цвета.

Пусть исходный граф задан в виде множества ребер что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Тогда, запишем следующий запрос

То есть каждой дуге в исходном графе в запросе будет соответствовать отношение edge с соответствующими аргументами. Если запрос вернул пустой кортеж, то значит, что существует такая функция что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра, которая отображает что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра, причем никакие две вершины не будут иметь одинаковую расцветку (следует из определения D). Ч.Т.Д.

Вопрос со звёздочкой: из сегмента select-project-join выкидываем project, как изменится вычислительная сложность?

Транзитивное замыкание

Определения сложности по данными и по запросу также проливают свет на один известный результат — в классическом SQL (без with) транзитивное замыкание невыразимо при фиксированном запросе т.е. нельзя написать один запрос такой, что для любой базы данных он вычислял бы замыкание предиката. То есть, если у нас есть граф сохраненный в виде отношения edge, то нельзя написать один фиксированный запрос, который бы для произвольного графа вычислял отношение достижимости. Хотя интуитивно кажется, что такой запрос явно должен лежать в классе СQ.

Это можно заметить либо из вычислительной сложности «по данным», либо гораздо более конструктивно и интересно это следует из теоремы о компактности и теоремы Кодда (SQL = First Order Logic).

Доказательство нетривиально и его можно пропустить без потери понимания дальнейшего материала.

Теорема о компактности: бесконечное множество формул выполнимо (имеет модель — интерпретацию, в которой все формулы верны), тогда и только тогда когда любое конечное подмножество этого множества выполнимо.

Гёдель: логика первого порядка компактна.
Кодд: SQL — логика первого порядка

Доказательство от противного, пусть T(a,b) — есть путь из а в б. P_n(a,b) — это путь из а в b длины n. Тогда

P_n(a,b) — из а нет пути в b длины n.

Возьмем следующее конечное множество

P_k(a,b)> — оно выполнимо, так как возьмем путь длины k+1 и T(a,b) выполнено и все

P_k тоже выполнены. Более того любое конечное множество такого вида выполнимо, а значит по теореме о компактности и их бесконечное объединение должно быть выполнимо.

P_k — должно быть верно для ЛЮБОГО k, то есть не должно существовать пути никакой длины из а в b, а для выполнения T(a,b) такой путь должен существовать. Противоречие. Q.E.D.

Если запрос не фиксирован, то задача становится тривиально разрешимой. Пусть у меня всего k ребер в базе данных, значит самый большой путь не более k, значит можно в явном виде записать запрос, как объединение путей длины 1, 2,… k и таким образом получить запрос вычисляющий достижимость в графе.

Свойства и анализ запросов

Теперь вернемся к задаче предложенной ранее:

Выведите имена всех работников, которые работают над каждым проектом.

Почему эта задача не имеет решения в классе CQ мы можем понять, определив ключевые свойства самого запроса и класса CQ.

Определение, запрос Q называется монотонным, тогда и только тогда когда, для любых двух баз данных что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебраверно, что что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра. То есть увеличение базы данных может только увеличить количество кортежей на выходе или останется прежним.

Наблюдение: CQ — класс монотонно возрастающих запросов. Представим произвольный CQ запрос Q — он состоит из select-project-join. Покажем, что каждый из них является монотонным оператором:

Пусть мы добавили еще одну запись в D

select — фильтрует записи по вертикали, если новая запись удовлетворяет запросу, то множество ответов увеличивается, если нет остается прежним.

project — не влияет на дополнительный кортеж

join — если соответствующая запись имеется и во втором множестве, то ответное множество расширится, иначе останется прежним.

Суперпозиция монотонных операторов монотонна => CQ — класс монотонных запросов.

Вопрос: является ли исходная задача монотонной? На самом деле нет. Пусть у нас только один работник Петя, который работает над двумя проектами А и Б, и всего у нас 2 проекта А и Б, значит Петя должен быть в выдаче запроса. Пусть мы добавили третий проект C => теперь Пети нет в ответе и ответное множество пусто, а значит запрос не монотонен.

Отсюда логически следует следующий вопрос: что нужно добавить к select-project-join, чтобы задача решалась? Это что-то должно быть немонотонным!

Как конечно же читатель догадался — разница множеств. Его несимметричность как бы подсказывала нам и выделяла его с самого начала.

Однако прежде, чем писать решение сделаем еще одно наблюдение: если контр-примера к утверждению не существуют, то это утверждение всегда верно. Формально:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра— не существует х, такой что p(x) неверен.

В задаче мы видим в явном виде квантор «для всех» и мы можем его эмулировать используя двойное отрицание, то есть перефразируем запрос следующим образом: вывести имена всех сотрудников для которых не существуют проекта, над которым они бы не работали

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Этот же запрос выглядит невероятно просто, если бы у нас был что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра(а он есть в реляционном исчислении):

Пример использования RA для оптимизации запросов

Также трансформация SQL в реляционную алгебру позволяет оптимизировать выполнение запроса. Рассмотрим простой пример:

Задача
Вывести все номера проектов, в которых бы работал сотрудник с фамилией Шмидт в качестве менеджера департамента, управляющего этим проектом.

Простое решение выглядит следующим образом:
что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Которое можно переписать в реляционную алгебру следующим образом:

что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Первая оптимизация — нужно использовать select как можно раньше, тогда Декартово произведение получит на вход отношения меньшего размера:
что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Select c равенством константе сильное ограничение, поэтому его нужно вычислять и соединять как можно раньше:
что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Сворачиваем Декартово произведение и select в join (который реализован эффективно с индексами и специализированными структурами данных)
что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Опускаем project как можно ниже, чтобы только необходимая информация была передана наверх по дереву
что такое реляционная алгебра. Смотреть фото что такое реляционная алгебра. Смотреть картинку что такое реляционная алгебра. Картинка про что такое реляционная алгебра. Фото что такое реляционная алгебра

Литература, материалы и слайды

Мартин Грабер — SQL — довольно простые и детальные объяснения работы алгоритмов и синтаксиса SQL

Хабра-статьи про P-NP — ознакомительный материал часть первая и вторая

Мои слайды по теме (исключительно полезно из-за примеров решений задач в разных формализмах — местами смесь голландского и английского)

Неплохие слайды по теории (нетривиальный теоретический материал)

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *