Для группировки данных в PostgreSQL применяются операторы GROUP BY и HAVING, для использования которых применяется следующий формальный синтаксис:
SELECT столбцы FROM таблица [WHERE условие_фильтрации_строк] [GROUP BY столбцы_для_группировки] [HAVING условие_фильтрации_групп] [ORDER BY столбцы_для_сортировки]
Для рассмотрения операторов возьмем следующую таблицу:
CREATE TABLE Products ( Id SERIAL PRIMARY KEY, ProductName VARCHAR(30) NOT NULL, Company VARCHAR(20) NOT NULL, ProductCount INT DEFAULT 0, Price NUMERIC NOT NULL, IsDiscounted BOOL );
Оператор GROUP BY определяет, как строки будут группироваться.
Например, сгруппируем товары по производителю
SELECT Company, COUNT(*) AS ModelsCount FROM Products GROUP BY Company;
Первый столбец в выражении SELECT - Company представляет название группы, а второй столбец - ModelsCount представляет результат функции Count, которая вычисляет количество строк в группе.
Стоит учитывать, что любой столбец, который используется в выражении SELECT (не считая столбцов, которые хранят результат агрегатных функций), должны быть указаны после оператора GROUP BY. Так, например, в случае выше столбец Company указан и в выражении SELECT, и в выражении GROUP BY.
И если в выражении SELECT производится выборка по одному или нескольким столбцам и также используются агрегатные функции, то необходимо использовать выражение GROUP BY. Так, следующий пример работать не будет, так как он не содержит выражение группировки:
SELECT Company, COUNT(*) AS ModelsCount FROM Products;
Другой пример, добавим группировку по количеству товаров:
SELECT Company, ProductCount, COUNT(*) AS ModelsCount FROM Products GROUP BY Company, ProductCount;
Оператор GROUP BY
может выполнять группировку по множеству столбцов.
Если столбец, по которому производится группировка, содержит значение NULL, то строки со значением NULL составят отдельную группу.
Следует учитывать, что выражение GROUP BY
должно идти после выражения WHERE
, но до выражения
ORDER BY
:
SELECT Company, COUNT(*) AS ModelsCount FROM Products WHERE Price > 30000 GROUP BY Company ORDER BY ModelsCount DESC;
Оператор HAVING указывает, какие группы будут включены в выходной результат, то есть выполняет фильтрацию групп. Его использование аналогично применению оператора WHERE.
Например, сгруппируем по производителям и найдем все группы, для которых определено более 1 модели:
SELECT Company, COUNT(*) AS ModelsCount FROM Products GROUP BY Company HAVING COUNT(*) > 1;
При этом в одной команде мы можем использовать выражения WHERE и HAVING:
SELECT Company, COUNT(*) AS ModelsCount FROM Products WHERE Price * ProductCount > 80000 GROUP BY Company HAVING COUNT(*) > 1;
То есть в данном случае сначала фильтруются строки: выбираются те товары, общая стоимость которых больше 80000. Затем выбранные товары группируются по производителям. И далее фильтруются сами группы - выбираются те группы, которые содержат больше 1 модели.
Если при этом необходимо провести сортировку, то выражение ORDER BY идет после выражения HAVING:
SELECT Company, COUNT(*) AS Models, SUM(ProductCount) AS Units FROM Products WHERE Price * ProductCount > 80000 GROUP BY Company HAVING SUM(ProductCount) > 2 ORDER BY Units DESC;
Здесь группировка идет по производителям, и также выбирается количество моделей для каждого производителя (Models) и общее количество всех товаров по всем этим моделям (Units). Затем группы сортируются по количеству товаров по убыванию.
В дополнение к оператору GROUP BY PostgreSQL поддерживает еще три специальных расширения для группировки данных: GROUPING SETS, ROLLUP и CUBE.
Оператор GROUPING SETS группирует получемые наборы отдельно:
SELECT Company, COUNT(*) AS Models, ProductCount FROM Products GROUP BY GROUPING SETS(Company, ProductCount);
В выражении SELECT производится выборка компаний, количества моделей и количества товаров. То есть мы получаем три категории. Оператор GROUPING SETS производит группировку по двум столбцам - Company и ProductCount. В итоге будет создаваться две группы: 1) компании и количество моделей и 2)количество моделей и количество товаров.
Оператор ROLLUP добавляет суммирующую строку в результирующий набор:
SELECT Company, COUNT(*) AS Models, SUM(ProductCount) AS Units FROM Products GROUP BY ROLLUP(Company);
Как видно из скриншота, в конце таблицы была добавлена дополнительная строка, которая суммирует значение столбцов.
При группировке по нескольким критериям ROLLUP будет создавать суммирующую строку для каждой из подгрупп:
SELECT Company, COUNT(*) AS Models, SUM(ProductCount) AS Units FROM Products GROUP BY ROLLUP(Company, ProductCount) ORDER BY Company;
При сортировке с помощью ORDER BY следует учитывать, что она применяется уже после добавления суммирующей строки.
CUBE похож на ROLLUP за тем исключением, что CUBE добавляет суммирующие строки для каждой комбинации групп.
SELECT Company, COUNT(*) AS Models, SUM(ProductCount) AS Units FROM Products GROUP BY CUBE(Company, ProductCount);