PostgreSQL: 文档: 17: 9.21. 聚合函数

支持的版本: 当前 (17) / 16 / 15 / 14 / 13

开发版本: devel

不支持的版本: 12 / 11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3 / 8.2 / 8.1 / 8.0 / 7.4 / 7.3 / 7.2 / 7.1

9.21. 聚合函数
上一个	向上	第 9. 章函数和操作符	主页	下一个

9.21. 聚合函数 #

聚合函数 从一组输入值计算单个结果。内置的通用聚合函数在表 9.60 中列出，而统计聚合函数在表 9.61 中列出。内置的组内有序集聚合函数在表 9.62 中列出，而内置的组内假设集聚合函数在表 9.63 中列出。与聚合函数密切相关的分组操作在表 9.64 中列出。聚合函数的特殊语法注意事项在第 4.2.7 节中解释。有关其他入门信息，请参阅第 2.7 节。

支持部分模式的聚合函数有资格参与各种优化，例如并行聚合。

虽然以下所有聚合函数都接受可选的 ORDER BY 子句（如第 4.2.7 节中所述），但该子句仅已添加到其输出受排序影响的聚合函数中。

表 9.60. 通用聚合函数

函数描述	部分模式
`any_value` ( `anyelement` ) → `与输入类型相同` 从非空输入值中返回任意值。	是
`array_agg` ( `anynonarray` `ORDER BY` `input_sort_columns` ) → `anyarray` 将所有输入值（包括 null 值）收集到一个数组中。	是
`array_agg` ( `anyarray` `ORDER BY` `input_sort_columns` ) → `anyarray` 将所有输入数组连接成一个更高维度的数组。（输入必须具有相同的维度，且不能为空或 null。）	是
`avg` ( `smallint` ) → `numeric` `avg` ( `integer` ) → `numeric` `avg` ( `bigint` ) → `numeric` `avg` ( `numeric` ) → `numeric` `avg` ( `real` ) → `double precision` `avg` ( `double precision` ) → `double precision` `avg` ( `interval` ) → `interval` 计算所有非空输入值的平均值（算术平均值）。	是
`bit_and` ( `smallint` ) → `smallint` `bit_and` ( `integer` ) → `integer` `bit_and` ( `bigint` ) → `bigint` `bit_and` ( `bit` ) → `bit` 计算所有非空输入值的按位与。	是
`bit_or` ( `smallint` ) → `smallint` `bit_or` ( `integer` ) → `integer` `bit_or` ( `bigint` ) → `bigint` `bit_or` ( `bit` ) → `bit` 计算所有非空输入值的按位或。	是
`bit_xor` ( `smallint` ) → `smallint` `bit_xor` ( `integer` ) → `integer` `bit_xor` ( `bigint` ) → `bigint` `bit_xor` ( `bit` ) → `bit` 计算所有非空输入值的按位异或。可以作为无序值集的校验和非常有用。	是
`bool_and` ( `boolean` ) → `boolean` 如果所有非空输入值均为 true，则返回 true，否则返回 false。	是
`bool_or` ( `boolean` ) → `boolean` 如果任何非空输入值为 true，则返回 true，否则返回 false。	是
`count` ( `*` ) → `bigint` 计算输入行数。	是
`count` ( `"any"` ) → `bigint` 计算输入值不为 null 的输入行数。	是
`every` ( `boolean` ) → `boolean` 这是 SQL 标准中与 `bool_and` 等效的函数。	是
`json_agg` ( `anyelement` `ORDER BY` `input_sort_columns` ) → `json` `jsonb_agg` ( `anyelement` `ORDER BY` `input_sort_columns` ) → `jsonb` 将所有输入值（包括 null 值）收集到一个 JSON 数组中。值按照 `to_json` 或 `to_jsonb` 的方式转换为 JSON。	否
`json_agg_strict` ( `anyelement` ) → `json` `jsonb_agg_strict` ( `anyelement` ) → `jsonb` 将所有输入值（跳过 null 值）收集到一个 JSON 数组中。值按照 `to_json` 或 `to_jsonb` 的方式转换为 JSON。	否
`json_arrayagg` ( [ `value_expression` ] [ `ORDER BY` `sort_expression` ] [ { `NULL` \| `ABSENT` } `ON NULL` ] [ `RETURNING` `data_type` [ `FORMAT JSON` [ `ENCODING UTF8` ] ] ]) 行为方式与 `json_array` 相同，但作为聚合函数，因此它只接受一个 `value_expression` 参数。如果指定了 `ABSENT ON NULL`，则会省略任何 NULL 值。如果指定了 `ORDER BY`，则元素将按该顺序显示在数组中，而不是按输入顺序显示。 `SELECT json_arrayagg(v) FROM (VALUES(2),(1)) t(v)` → `[2, 1]`	否
`json_objectagg` ( [ { `key_expression` { `VALUE` \| ':' } `value_expression` } ] [ { `NULL` \| `ABSENT` } `ON NULL` ] [ { `WITH` \| `WITHOUT` } `UNIQUE` [ `KEYS` ] ] [ `RETURNING` `data_type` [ `FORMAT JSON` [ `ENCODING UTF8` ] ] ]) 行为方式与 `json_object` 类似，但作为聚合函数，因此它只接受一个 `key_expression` 和一个 `value_expression` 参数。 `SELECT json_objectagg(k:v) FROM (VALUES ('a'::text,current_date),('b',current_date + 1)) AS t(k,v)` → `{ "a" : "2022-05-10", "b" : "2022-05-11" }`	否
`json_object_agg` ( `key` `"any"`, `value` `"any"` `ORDER BY` `input_sort_columns` ) → `json` `jsonb_object_agg` ( `key` `"any"`, `value` `"any"` `ORDER BY` `input_sort_columns` ) → `jsonb` 将所有键/值对收集到 JSON 对象中。键参数会被强制转换为文本；值参数会按照 `to_json` 或 `to_jsonb` 进行转换。值可以为 null，但键不能为 null。	否
`json_object_agg_strict` ( `key` `"any"`, `value` `"any"` ) → `json` `jsonb_object_agg_strict` ( `key` `"any"`, `value` `"any"` ) → `jsonb` 将所有键/值对收集到 JSON 对象中。键参数会被强制转换为文本；值参数会按照 `to_json` 或 `to_jsonb` 进行转换。`key` 不能为 null。如果 `value` 为 null，则会跳过该条目。	否
`json_object_agg_unique` ( `key` `"any"`, `value` `"any"` ) → `json` `jsonb_object_agg_unique` ( `key` `"any"`, `value` `"any"` ) → `jsonb` 将所有键/值对收集到 JSON 对象中。键参数会被强制转换为文本；值参数会按照 `to_json` 或 `to_jsonb` 进行转换。值可以为 null，但键不能为 null。如果存在重复的键，则会引发错误。	否
`json_object_agg_unique_strict` ( `key` `"any"`, `value` `"any"` ) → `json` `jsonb_object_agg_unique_strict` ( `key` `"any"`, `value` `"any"` ) → `jsonb` 将所有键/值对收集到 JSON 对象中。键参数会被强制转换为文本；值参数会按照 `to_json` 或 `to_jsonb` 进行转换。`key` 不能为 null。如果 `value` 为 null，则会跳过该条目。如果存在重复的键，则会引发错误。	否
`max` ( `see text` ) → `same as input type` 计算非 null 输入值的最大值。可用于任何数值、字符串、日期/时间或枚举类型，以及 `inet`、`interval`、`money`、`oid`、`pg_lsn`、`tid`、`xid8` 以及这些类型的数组。	是
`min` ( `see text` ) → `same as input type` 计算非 null 输入值的最小值。可用于任何数值、字符串、日期/时间或枚举类型，以及 `inet`、`interval`、`money`、`oid`、`pg_lsn`、`tid`、`xid8` 以及这些类型的数组。	是
`range_agg` ( `value` `anyrange` ) → `anymultirange` `range_agg` ( `value` `anymultirange` ) → `anymultirange` 计算非 null 输入值的并集。	否
`range_intersect_agg` ( `value` `anyrange` ) → `anyrange` `range_intersect_agg` ( `value` `anymultirange` ) → `anymultirange` 计算非 null 输入值的交集。	否
`string_agg` ( `value` `text`, `delimiter` `text` ) → `text` `string_agg` ( `value` `bytea`, `delimiter` `bytea` `ORDER BY` `input_sort_columns` ) → `bytea` 将非 null 输入值连接成一个字符串。第一个值之后的每个值都以相应的 `delimiter` 开头（如果它不为 null）。	是
`sum` ( `smallint` ) → `bigint` `sum` ( `integer` ) → `bigint` `sum` ( `bigint` ) → `numeric` `sum` ( `numeric` ) → `numeric` `sum` ( `real` ) → `real` `sum` ( `double precision` ) → `double precision` `sum` ( `interval` ) → `interval` `sum` ( `money` ) → `money` 计算非 null 输入值的总和。	是
`xmlagg` ( `xml` `ORDER BY` `input_sort_columns` ) → `xml` 连接非 null XML 输入值（请参见第 9.15.1.8 节）。	否

应该注意的是，除了 count 之外，当没有选择任何行时，这些函数会返回一个 null 值。特别是，没有行的 sum 会返回 null，而不是像人们可能期望的那样返回零，并且当没有输入行时，array_agg 会返回 null 而不是空数组。在必要时，可以使用 coalesce 函数将零或空数组替换为 null。

聚合函数 array_agg、json_agg、jsonb_agg、json_agg_strict、jsonb_agg_strict、json_object_agg、jsonb_object_agg、json_object_agg_strict、jsonb_object_agg_strict、json_object_agg_unique、jsonb_object_agg_unique、json_object_agg_unique_strict、jsonb_object_agg_unique_strict、string_agg 和 xmlagg 以及类似的用户定义的聚合函数，会根据输入值的顺序产生明显不同的结果值。默认情况下，此排序是未指定的，但可以通过在聚合调用中编写 ORDER BY 子句来控制，如第 4.2.7 节中所示。或者，从排序的子查询提供输入值通常会起作用。例如

SELECT xmlagg(x) FROM (SELECT x FROM test ORDER BY y DESC) AS tab;

请注意，如果外部查询级别包含额外的处理（例如连接），此方法可能会失败，因为这可能会导致子查询的输出在计算聚合之前被重新排序。

注意

布尔聚合函数 bool_and 和 bool_or 对应于标准 SQL 聚合函数 every 和 any 或 some。PostgreSQL 支持 every，但不支持 any 或 some，因为标准语法中存在歧义。

SELECT b1 = ANY((SELECT b2 FROM t2 ...)) FROM t1 ...;

这里，如果子查询返回一行布尔值，则 ANY 可以被认为是引入子查询，也可以被认为是聚合函数。因此，不能将标准名称赋予这些聚合函数。

注意

习惯于使用其他 SQL 数据库管理系统的用户可能会对 count 聚合函数应用于整个表时的性能感到失望。像这样的查询

SELECT count(*) FROM sometable;

将需要与表大小成比例的工作量：PostgreSQL 将需要扫描整个表，或者扫描包含表中所有行的索引。

表 9.61 显示了通常用于统计分析的聚合函数。（将它们分开仅仅是为了避免使更常用的聚合列表显得杂乱。）显示为接受 numeric_type 的函数可用于所有类型 smallint、integer、bigint、numeric、real 和 double precision。如果描述中提到 N，则表示所有输入表达式均为非空值的输入行数。在所有情况下，如果计算没有意义，则返回空值，例如当 N 为零时。

表 9.61. 用于统计的聚合函数

函数描述	部分模式
`corr` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算相关系数。	是
`covar_pop` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算总体协方差。	是
`covar_samp` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算样本协方差。	是
`regr_avgx` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算自变量的平均值，`sum(X)/N`。	是
`regr_avgy` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算因变量的平均值，`sum(Y)/N`。	是
`regr_count` ( `Y` `double precision`, `X` `double precision` ) → `bigint` 计算两个输入均为非空值的行数。	是
`regr_intercept` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算由 (`X`, `Y`) 对确定的最小二乘拟合线性方程的 y 轴截距。	是
`regr_r2` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算相关系数的平方。	是
`regr_slope` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算由 (`X`, `Y`) 对确定的最小二乘拟合线性方程的斜率。	是
`regr_sxx` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算自变量的“平方和”，`sum(X^2) - sum(X)^2/N`。	是
`regr_sxy` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算自变量乘以因变量的“乘积和”，`sum(XY) - sum(X) sum(Y)/N`。	是
`regr_syy` ( `Y` `double precision`, `X` `double precision` ) → `double precision` 计算因变量的“平方和”，`sum(Y^2) - sum(Y)^2/N`。	是
`stddev` ( `numeric_type` ) → 对于 `real` 或 `double precision` 类型，返回 `double precision`，否则返回 `numeric` 类型这是 `stddev_samp` 的历史别名。	是
`stddev_pop` ( `numeric_type` ) → 对于 `real` 或 `double precision` 类型，返回 `double precision`，否则返回 `numeric` 类型计算输入值的总体标准差。	是
`stddev_samp` ( `numeric_type` ) → 对于 `real` 或 `double precision` 类型，返回 `double precision`，否则返回 `numeric` 类型计算输入值的样本标准差。	是
`variance` ( `numeric_type` ) → 对于 `real` 或 `double precision` 类型，返回 `double precision`，否则返回 `numeric` 类型这是 `var_samp` 的历史别名。	是
`var_pop` ( `numeric_type` ) → 对于 `real` 或 `double precision` 类型，返回 `double precision`，否则返回 `numeric` 类型计算输入值的总体方差（总体标准差的平方）。	是
`var_samp` ( `numeric_type` ) → 对于 `real` 或 `double precision` 类型，返回 `double precision`，否则返回 `numeric` 类型计算输入值的样本方差（样本标准差的平方）。	是

表 9.62 显示了一些使用有序集聚合语法的聚合函数。这些函数有时被称为“逆分布”函数。它们的聚合输入由 ORDER BY 引入，并且它们还可以接受一个直接参数，该参数不是聚合的，而是只计算一次。所有这些函数都会忽略其聚合输入中的空值。对于那些接受 fraction 参数的函数，分数的值必须在 0 和 1 之间；否则会抛出错误。但是，空值 fraction 只会产生空结果。

表 9.62. 有序集聚合函数

函数描述	部分模式
`mode` () `WITHIN GROUP` ( `ORDER BY` `anyelement` ) → `anyelement` 计算众数，即聚合参数中最频繁的值（如果有多个频率相等的值，则任意选择第一个）。聚合参数必须是可排序的类型。	否
`percentile_cont` ( `fraction` `double precision` ) `WITHIN GROUP` ( `ORDER BY` `double precision` ) → `double precision` `percentile_cont` ( `fraction` `double precision` ) `WITHIN GROUP` ( `ORDER BY` `interval` ) → `interval` 计算连续百分位数，该值对应于聚合参数值排序集合中指定的`fraction`。如果需要，它将在相邻的输入项之间进行插值。	否
`percentile_cont` ( `fractions` `double precision[]` ) `WITHIN GROUP` ( `ORDER BY` `double precision` ) → `double precision[]` `percentile_cont` ( `fractions` `double precision[]` ) `WITHIN GROUP` ( `ORDER BY` `interval` ) → `interval[]` 计算多个连续百分位数。结果是一个与`fractions`参数具有相同维度的数组，其中每个非空元素都被替换为与该百分位数对应的（可能是插值的）值。	否
`percentile_disc` ( `fraction` `double precision` ) `WITHIN GROUP` ( `ORDER BY` `anyelement` ) → `anyelement` 计算离散百分位数，即聚合参数值排序集合中，排序位置等于或超过指定的`fraction`的第一个值。聚合参数必须是可排序的类型。	否
`percentile_disc` ( `fractions` `double precision[]` ) `WITHIN GROUP` ( `ORDER BY` `anyelement` ) → `anyarray` 计算多个离散百分位数。结果是一个与`fractions`参数具有相同维度的数组，其中每个非空元素都被替换为与该百分位数对应的输入值。聚合参数必须是可排序的类型。	否

在表 9.63中列出的每个“假设集合”聚合函数，都在第 9.22 节中定义了具有相同名称的窗口函数。在每种情况下，聚合函数的结果都是关联的窗口函数为从args构造的“假设”行返回的值，如果这样的行已添加到由sorted_args表示的已排序的行组中。对于这些函数中的每一个，在args中给出的直接参数列表必须与在sorted_args中给出的聚合参数的数量和类型相匹配。与大多数内置聚合函数不同，这些聚合函数不是严格的，也就是说，它们不会删除包含空值的输入行。空值根据ORDER BY子句中指定的规则排序。

表 9.63. 假设集合聚合函数

函数描述	部分模式
`rank` ( `args` ) `WITHIN GROUP` ( `ORDER BY` `sorted_args` ) → `bigint` 计算假设行的排名，带间隙；也就是说，其对等组中第一行的行号。	否
`dense_rank` ( `args` ) `WITHIN GROUP` ( `ORDER BY` `sorted_args` ) → `bigint` 计算假设行的排名，不带间隙；此函数实际上是对等组进行计数。	否
`percent_rank` ( `args` ) `WITHIN GROUP` ( `ORDER BY` `sorted_args` ) → `double precision` 计算假设行的相对排名，即 (`rank` - 1) / (总行数 - 1)。因此，该值范围从 0 到 1（包括 0 和 1）。	否
`cume_dist` ( `args` ) `WITHIN GROUP` ( `ORDER BY` `sorted_args` ) → `double precision` 计算累积分布，即（假设行之前或与其对等的行数）/（总行数）。因此，该值范围从 1/`N` 到 1。	否

表 9.64. 分组操作

函数描述
`GROUPING` ( `group_by_expression(s)` ) → `integer` 返回一个位掩码，指示当前分组集中未包含哪些`GROUP BY`表达式。位被分配，最右边的参数对应于最低有效位；如果相应的表达式包含在生成当前结果行的分组集的分组标准中，则每一位为 0，如果未包含则为 1。

函数

描述

GROUPING ( group_by_expression(s) ) → integer

返回一个位掩码，指示当前分组集中未包含哪些GROUP BY表达式。位被分配，最右边的参数对应于最低有效位；如果相应的表达式包含在生成当前结果行的分组集的分组标准中，则每一位为 0，如果未包含则为 1。

在表 9.64中显示的分组操作与分组集（请参阅第 7.2.4 节）结合使用，以区分结果行。GROUPING函数的参数实际上并未进行评估，但它们必须与关联查询级别的GROUP BY子句中给出的表达式完全匹配。例如

=> SELECT * FROM items_sold;
 make  | model | sales
-------+-------+-------
 Foo   | GT    |  10
 Foo   | Tour  |  20
 Bar   | City  |  15
 Bar   | Sport |  5
(4 rows)

=> SELECT make, model, GROUPING(make,model), sum(sales) FROM items_sold GROUP BY ROLLUP(make,model);
 make  | model | grouping | sum
-------+-------+----------+-----
 Foo   | GT    |        0 | 10
 Foo   | Tour  |        0 | 20
 Bar   | City  |        0 | 15
 Bar   | Sport |        0 | 5
 Foo   |       |        1 | 30
 Bar   |       |        1 | 20
       |       |        3 | 50
(7 rows)

这里，前四行中的grouping值0表示它们已在两个分组列上正常分组。值1表示在倒数第二行中model没有被分组，而值3表示最后一行中make和model都没有被分组（因此它是对所有输入行的聚合）。

上一个	向上	下一个
9.20. 范围/多范围函数和操作符	主页	9.22. 窗口函数

提交更正

如果您在文档中看到任何不正确、与您对特定功能的体验不符或需要进一步澄清的内容，请使用此表格报告文档问题。