支持的版本: 当前 (17) / 16 / 15 / 14 / 13
开发版本: devel
不支持的版本: 12 / 11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3 / 8.2 / 8.1 / 8.0 / 7.4 / 7.3 / 7.2 / 7.1

9.21. 聚合函数 #

聚合函数 从一组输入值计算单个结果。内置的通用聚合函数在 表 9.60 中列出,而统计聚合函数在 表 9.61 中列出。内置的组内有序集聚合函数在 表 9.62 中列出,而内置的组内假设集聚合函数在 表 9.63 中列出。与聚合函数密切相关的分组操作在 表 9.64 中列出。聚合函数的特殊语法注意事项在 第 4.2.7 节中解释。有关其他入门信息,请参阅 第 2.7 节

支持部分模式的聚合函数有资格参与各种优化,例如并行聚合。

虽然以下所有聚合函数都接受可选的 ORDER BY 子句(如 第 4.2.7 节中所述),但该子句仅已添加到其输出受排序影响的聚合函数中。

表 9.60. 通用聚合函数

函数

描述

部分模式

any_value ( anyelement ) → 与输入类型相同

从非空输入值中返回任意值。

array_agg ( anynonarray ORDER BY input_sort_columns ) → anyarray

将所有输入值(包括 null 值)收集到一个数组中。

array_agg ( anyarray ORDER BY input_sort_columns ) → anyarray

将所有输入数组连接成一个更高维度的数组。(输入必须具有相同的维度,且不能为空或 null。)

avg ( smallint ) → numeric

avg ( integer ) → numeric

avg ( bigint ) → numeric

avg ( numeric ) → numeric

avg ( real ) → double precision

avg ( double precision ) → double precision

avg ( interval ) → interval

计算所有非空输入值的平均值(算术平均值)。

bit_and ( smallint ) → smallint

bit_and ( integer ) → integer

bit_and ( bigint ) → bigint

bit_and ( bit ) → bit

计算所有非空输入值的按位与。

bit_or ( smallint ) → smallint

bit_or ( integer ) → integer

bit_or ( bigint ) → bigint

bit_or ( bit ) → bit

计算所有非空输入值的按位或。

bit_xor ( smallint ) → smallint

bit_xor ( integer ) → integer

bit_xor ( bigint ) → bigint

bit_xor ( bit ) → bit

计算所有非空输入值的按位异或。可以作为无序值集的校验和非常有用。

bool_and ( boolean ) → boolean

如果所有非空输入值均为 true,则返回 true,否则返回 false。

bool_or ( boolean ) → boolean

如果任何非空输入值为 true,则返回 true,否则返回 false。

count ( * ) → bigint

计算输入行数。

count ( "any" ) → bigint

计算输入值不为 null 的输入行数。

every ( boolean ) → boolean

这是 SQL 标准中与 bool_and 等效的函数。

json_agg ( anyelement ORDER BY input_sort_columns ) → json

jsonb_agg ( anyelement ORDER BY input_sort_columns ) → jsonb

将所有输入值(包括 null 值)收集到一个 JSON 数组中。值按照 to_jsonto_jsonb 的方式转换为 JSON。

json_agg_strict ( anyelement ) → json

jsonb_agg_strict ( anyelement ) → jsonb

将所有输入值(跳过 null 值)收集到一个 JSON 数组中。值按照 to_jsonto_jsonb 的方式转换为 JSON。

json_arrayagg ( [ value_expression ] [ ORDER BY sort_expression ] [ { NULL | ABSENT } ON NULL ] [ RETURNING data_type [ FORMAT JSON [ ENCODING UTF8 ] ] ])

行为方式与 json_array 相同,但作为聚合函数,因此它只接受一个 value_expression 参数。如果指定了 ABSENT ON NULL,则会省略任何 NULL 值。 如果指定了 ORDER BY,则元素将按该顺序显示在数组中,而不是按输入顺序显示。

SELECT json_arrayagg(v) FROM (VALUES(2),(1)) t(v)[2, 1]

json_objectagg ( [ { key_expression { VALUE | ':' } value_expression } ] [ { NULL | ABSENT } ON NULL ] [ { WITH | WITHOUT } UNIQUE [ KEYS ] ] [ RETURNING data_type [ FORMAT JSON [ ENCODING UTF8 ] ] ])

行为方式与 json_object 类似,但作为聚合函数,因此它只接受一个 key_expression 和一个 value_expression 参数。

SELECT json_objectagg(k:v) FROM (VALUES ('a'::text,current_date),('b',current_date + 1)) AS t(k,v){ "a" : "2022-05-10", "b" : "2022-05-11" }

json_object_agg ( key "any", value "any" ORDER BY input_sort_columns ) → json

jsonb_object_agg ( key "any", value "any" ORDER BY input_sort_columns ) → jsonb

将所有键/值对收集到 JSON 对象中。键参数会被强制转换为文本;值参数会按照 to_jsonto_jsonb 进行转换。值可以为 null,但键不能为 null。

json_object_agg_strict ( key "any", value "any" ) → json

jsonb_object_agg_strict ( key "any", value "any" ) → jsonb

将所有键/值对收集到 JSON 对象中。键参数会被强制转换为文本;值参数会按照 to_jsonto_jsonb 进行转换。key 不能为 null。如果 value 为 null,则会跳过该条目。

json_object_agg_unique ( key "any", value "any" ) → json

jsonb_object_agg_unique ( key "any", value "any" ) → jsonb

将所有键/值对收集到 JSON 对象中。键参数会被强制转换为文本;值参数会按照 to_jsonto_jsonb 进行转换。值可以为 null,但键不能为 null。如果存在重复的键,则会引发错误。

json_object_agg_unique_strict ( key "any", value "any" ) → json

jsonb_object_agg_unique_strict ( key "any", value "any" ) → jsonb

将所有键/值对收集到 JSON 对象中。键参数会被强制转换为文本;值参数会按照 to_jsonto_jsonb 进行转换。key 不能为 null。如果 value 为 null,则会跳过该条目。如果存在重复的键,则会引发错误。

max ( see text ) → same as input type

计算非 null 输入值的最大值。可用于任何数值、字符串、日期/时间或枚举类型,以及 inetintervalmoneyoidpg_lsntidxid8 以及这些类型的数组。

min ( see text ) → same as input type

计算非 null 输入值的最小值。可用于任何数值、字符串、日期/时间或枚举类型,以及 inetintervalmoneyoidpg_lsntidxid8 以及这些类型的数组。

range_agg ( value anyrange ) → anymultirange

range_agg ( value anymultirange ) → anymultirange

计算非 null 输入值的并集。

range_intersect_agg ( value anyrange ) → anyrange

range_intersect_agg ( value anymultirange ) → anymultirange

计算非 null 输入值的交集。

string_agg ( value text, delimiter text ) → text

string_agg ( value bytea, delimiter bytea ORDER BY input_sort_columns ) → bytea

将非 null 输入值连接成一个字符串。第一个值之后的每个值都以相应的 delimiter 开头(如果它不为 null)。

sum ( smallint ) → bigint

sum ( integer ) → bigint

sum ( bigint ) → numeric

sum ( numeric ) → numeric

sum ( real ) → real

sum ( double precision ) → double precision

sum ( interval ) → interval

sum ( money ) → money

计算非 null 输入值的总和。

xmlagg ( xml ORDER BY input_sort_columns ) → xml

连接非 null XML 输入值(请参见第 9.15.1.8 节)。


应该注意的是,除了 count 之外,当没有选择任何行时,这些函数会返回一个 null 值。 特别是,没有行的 sum 会返回 null,而不是像人们可能期望的那样返回零,并且当没有输入行时,array_agg 会返回 null 而不是空数组。 在必要时,可以使用 coalesce 函数将零或空数组替换为 null。

聚合函数 array_aggjson_aggjsonb_aggjson_agg_strictjsonb_agg_strictjson_object_aggjsonb_object_aggjson_object_agg_strictjsonb_object_agg_strictjson_object_agg_uniquejsonb_object_agg_uniquejson_object_agg_unique_strictjsonb_object_agg_unique_strictstring_aggxmlagg 以及类似的用户定义的聚合函数,会根据输入值的顺序产生明显不同的结果值。默认情况下,此排序是未指定的,但可以通过在聚合调用中编写 ORDER BY 子句来控制,如第 4.2.7 节中所示。或者,从排序的子查询提供输入值通常会起作用。例如

SELECT xmlagg(x) FROM (SELECT x FROM test ORDER BY y DESC) AS tab;

请注意,如果外部查询级别包含额外的处理(例如连接),此方法可能会失败,因为这可能会导致子查询的输出在计算聚合之前被重新排序。

注意

布尔聚合函数 bool_andbool_or 对应于标准 SQL 聚合函数 everyanysomePostgreSQL 支持 every,但不支持 anysome,因为标准语法中存在歧义。

SELECT b1 = ANY((SELECT b2 FROM t2 ...)) FROM t1 ...;

这里,如果子查询返回一行布尔值,则 ANY 可以被认为是引入子查询,也可以被认为是聚合函数。因此,不能将标准名称赋予这些聚合函数。

注意

习惯于使用其他 SQL 数据库管理系统的用户可能会对 count 聚合函数应用于整个表时的性能感到失望。像这样的查询

SELECT count(*) FROM sometable;

将需要与表大小成比例的工作量:PostgreSQL 将需要扫描整个表,或者扫描包含表中所有行的索引。

表 9.61 显示了通常用于统计分析的聚合函数。(将它们分开仅仅是为了避免使更常用的聚合列表显得杂乱。)显示为接受 numeric_type 的函数可用于所有类型 smallintintegerbigintnumericrealdouble precision。如果描述中提到 N,则表示所有输入表达式均为非空值的输入行数。在所有情况下,如果计算没有意义,则返回空值,例如当 N 为零时。

表 9.61. 用于统计的聚合函数

函数

描述

部分模式

corr ( Y double precision, X double precision ) → double precision

计算相关系数。

covar_pop ( Y double precision, X double precision ) → double precision

计算总体协方差。

covar_samp ( Y double precision, X double precision ) → double precision

计算样本协方差。

regr_avgx ( Y double precision, X double precision ) → double precision

计算自变量的平均值,sum(X)/N

regr_avgy ( Y double precision, X double precision ) → double precision

计算因变量的平均值,sum(Y)/N

regr_count ( Y double precision, X double precision ) → bigint

计算两个输入均为非空值的行数。

regr_intercept ( Y double precision, X double precision ) → double precision

计算由 (X, Y) 对确定的最小二乘拟合线性方程的 y 轴截距。

regr_r2 ( Y double precision, X double precision ) → double precision

计算相关系数的平方。

regr_slope ( Y double precision, X double precision ) → double precision

计算由 (X, Y) 对确定的最小二乘拟合线性方程的斜率。

regr_sxx ( Y double precision, X double precision ) → double precision

计算自变量的平方和sum(X^2) - sum(X)^2/N

regr_sxy ( Y double precision, X double precision ) → double precision

计算自变量乘以因变量的乘积和sum(X*Y) - sum(X) * sum(Y)/N

regr_syy ( Y double precision, X double precision ) → double precision

计算因变量的平方和sum(Y^2) - sum(Y)^2/N

stddev ( numeric_type ) → 对于 realdouble precision 类型,返回 double precision,否则返回 numeric 类型

这是 stddev_samp 的历史别名。

stddev_pop ( numeric_type ) → 对于 realdouble precision 类型,返回 double precision,否则返回 numeric 类型

计算输入值的总体标准差。

stddev_samp ( numeric_type ) → 对于 realdouble precision 类型,返回 double precision,否则返回 numeric 类型

计算输入值的样本标准差。

variance ( numeric_type ) → 对于 realdouble precision 类型,返回 double precision,否则返回 numeric 类型

这是 var_samp 的历史别名。

var_pop ( numeric_type ) → 对于 realdouble precision 类型,返回 double precision,否则返回 numeric 类型

计算输入值的总体方差(总体标准差的平方)。

var_samp ( numeric_type ) → 对于 realdouble precision 类型,返回 double precision,否则返回 numeric 类型

计算输入值的样本方差(样本标准差的平方)。


表 9.62 显示了一些使用有序集聚合语法的聚合函数。这些函数有时被称为逆分布函数。它们的聚合输入由 ORDER BY 引入,并且它们还可以接受一个直接参数,该参数不是聚合的,而是只计算一次。所有这些函数都会忽略其聚合输入中的空值。对于那些接受 fraction 参数的函数,分数的值必须在 0 和 1 之间;否则会抛出错误。但是,空值 fraction 只会产生空结果。

表 9.62. 有序集聚合函数

函数

描述

部分模式

mode () WITHIN GROUP ( ORDER BY anyelement ) → anyelement

计算众数,即聚合参数中最频繁的值(如果有多个频率相等的值,则任意选择第一个)。聚合参数必须是可排序的类型。

percentile_cont ( fraction double precision ) WITHIN GROUP ( ORDER BY double precision ) → double precision

percentile_cont ( fraction double precision ) WITHIN GROUP ( ORDER BY interval ) → interval

计算连续百分位数,该值对应于聚合参数值排序集合中指定的fraction。如果需要,它将在相邻的输入项之间进行插值。

percentile_cont ( fractions double precision[] ) WITHIN GROUP ( ORDER BY double precision ) → double precision[]

percentile_cont ( fractions double precision[] ) WITHIN GROUP ( ORDER BY interval ) → interval[]

计算多个连续百分位数。结果是一个与fractions参数具有相同维度的数组,其中每个非空元素都被替换为与该百分位数对应的(可能是插值的)值。

percentile_disc ( fraction double precision ) WITHIN GROUP ( ORDER BY anyelement ) → anyelement

计算离散百分位数,即聚合参数值排序集合中,排序位置等于或超过指定的fraction的第一个值。聚合参数必须是可排序的类型。

percentile_disc ( fractions double precision[] ) WITHIN GROUP ( ORDER BY anyelement ) → anyarray

计算多个离散百分位数。结果是一个与fractions参数具有相同维度的数组,其中每个非空元素都被替换为与该百分位数对应的输入值。聚合参数必须是可排序的类型。


表 9.63中列出的每个假设集合聚合函数,都在第 9.22 节中定义了具有相同名称的窗口函数。在每种情况下,聚合函数的结果都是关联的窗口函数为从args构造的假设行返回的值,如果这样的行已添加到由sorted_args表示的已排序的行组中。对于这些函数中的每一个,在args中给出的直接参数列表必须与在sorted_args中给出的聚合参数的数量和类型相匹配。与大多数内置聚合函数不同,这些聚合函数不是严格的,也就是说,它们不会删除包含空值的输入行。空值根据ORDER BY子句中指定的规则排序。

表 9.63. 假设集合聚合函数

函数

描述

部分模式

rank ( args ) WITHIN GROUP ( ORDER BY sorted_args ) → bigint

计算假设行的排名,带间隙;也就是说,其对等组中第一行的行号。

dense_rank ( args ) WITHIN GROUP ( ORDER BY sorted_args ) → bigint

计算假设行的排名,不带间隙;此函数实际上是对等组进行计数。

percent_rank ( args ) WITHIN GROUP ( ORDER BY sorted_args ) → double precision

计算假设行的相对排名,即 (rank - 1) / (总行数 - 1)。因此,该值范围从 0 到 1(包括 0 和 1)。

cume_dist ( args ) WITHIN GROUP ( ORDER BY sorted_args ) → double precision

计算累积分布,即(假设行之前或与其对等的行数)/(总行数)。因此,该值范围从 1/N 到 1。


表 9.64. 分组操作

函数

描述

GROUPING ( group_by_expression(s) ) → integer

返回一个位掩码,指示当前分组集中未包含哪些GROUP BY表达式。位被分配,最右边的参数对应于最低有效位;如果相应的表达式包含在生成当前结果行的分组集的分组标准中,则每一位为 0,如果未包含则为 1。


表 9.64中显示的分组操作与分组集(请参阅第 7.2.4 节)结合使用,以区分结果行。GROUPING函数的参数实际上并未进行评估,但它们必须与关联查询级别的GROUP BY子句中给出的表达式完全匹配。例如

=> SELECT * FROM items_sold;
 make  | model | sales
-------+-------+-------
 Foo   | GT    |  10
 Foo   | Tour  |  20
 Bar   | City  |  15
 Bar   | Sport |  5
(4 rows)

=> SELECT make, model, GROUPING(make,model), sum(sales) FROM items_sold GROUP BY ROLLUP(make,model);
 make  | model | grouping | sum
-------+-------+----------+-----
 Foo   | GT    |        0 | 10
 Foo   | Tour  |        0 | 20
 Bar   | City  |        0 | 15
 Bar   | Sport |        0 | 5
 Foo   |       |        1 | 30
 Bar   |       |        1 | 20
       |       |        3 | 50
(7 rows)

这里,前四行中的grouping0表示它们已在两个分组列上正常分组。值1表示在倒数第二行中model没有被分组,而值3表示最后一行中makemodel都没有被分组(因此它是对所有输入行的聚合)。

提交更正

如果您在文档中看到任何不正确、与您对特定功能的体验不符或需要进一步澄清的内容,请使用此表格报告文档问题。