一个复合类型表示行或记录的结构;它本质上只是一个字段名及其数据类型的列表。PostgreSQL 允许以与使用简单类型相同的方式使用复合类型。例如,可以将表的列声明为复合类型。
以下是定义复合类型的两个简单示例
CREATE TYPE complex AS ( r double precision, i double precision ); CREATE TYPE inventory_item AS ( name text, supplier_id integer, price numeric );
该语法与 CREATE TABLE
类似,但只能指定字段名和类型;目前不能包含约束(例如 NOT NULL
)。请注意,AS
关键字至关重要;如果没有它,系统会认为是要使用另一种 CREATE TYPE
命令,并且会出现奇怪的语法错误。
定义了类型后,我们可以使用它们来创建表
CREATE TABLE on_hand ( item inventory_item, count integer ); INSERT INTO on_hand VALUES (ROW('fuzzy dice', 42, 1.99), 1000);
或函数
CREATE FUNCTION price_extension(inventory_item, integer) RETURNS numeric AS 'SELECT $1.price * $2' LANGUAGE SQL; SELECT price_extension(item, 10) FROM on_hand;
每当您创建表时,还会自动创建一个与该表同名的复合类型,用于表示该表的行类型。例如,如果我们说
CREATE TABLE inventory_item ( name text, supplier_id integer REFERENCES suppliers, price numeric CHECK (price > 0) );
那么上面显示的相同 inventory_item
复合类型将作为副产品出现,并且可以像上面一样使用。但请注意当前实现的一个重要限制:由于没有约束与复合类型关联,因此表定义中显示的约束不适用于表外复合类型的值。(要解决此问题,请在复合类型上创建一个域,并将所需的约束作为域的 CHECK
约束应用。)
要将复合值写为文字常量,请将字段值括在括号中,并用逗号分隔。您可以将双引号放在任何字段值周围,如果它包含逗号或括号,则必须这样做。(更多详细信息请参见下面。)因此,复合常量的通用格式如下
'(val1
,val2
, ... )'
一个例子是
'("fuzzy dice",42,1.99)'
这将是上面定义的 inventory_item
类型的有效值。要使字段为 NULL,请在其在列表中的位置中不写任何字符。例如,此常量指定一个 NULL 的第三个字段
'("fuzzy dice",42,)'
如果需要的是空字符串而不是 NULL,请写双引号
'("",42,)'
这里,第一个字段是非 NULL 的空字符串,第三个字段为 NULL。
(这些常量实际上只是在第 4.1.2.7 节中讨论的通用类型常量的特殊情况。常量最初被视为字符串并传递给复合类型的输入转换例程。可能需要显式类型规范来告知要将常量转换为哪种类型。)
ROW
表达式语法也可以用于构造复合值。在大多数情况下,这比字符串文字语法更易于使用,因为您不必担心多层引号。我们已经在上面使用了这种方法
ROW('fuzzy dice', 42, 1.99) ROW('', 42, NULL)
只要表达式中有多个字段,ROW 关键字实际上是可选的,因此可以简化为
('fuzzy dice', 42, 1.99) ('', 42, NULL)
ROW
表达式语法在第 4.2.13 节中进行了更详细的讨论。
要访问复合列的字段,可以像从表名中选择字段一样,写入点号和字段名。事实上,它非常像从表名中选择字段,以至于您通常需要使用括号来避免混淆解析器。例如,您可能会尝试使用类似以下内容从我们的 on_hand
示例表中选择一些子字段
SELECT item.name FROM on_hand WHERE item.price > 9.99;
由于 SQL 语法规则,名称 item
被视为表名,而不是 on_hand
的列名,因此这将不起作用。您必须这样写
SELECT (item).name FROM on_hand WHERE (item).price > 9.99;
或者,如果您也需要使用表名(例如在多表查询中),则可以这样写
SELECT (on_hand.item).name FROM on_hand WHERE (on_hand.item).price > 9.99;
现在,带括号的对象被正确地解释为对 item
列的引用,然后可以从中选择子字段。
每当您从复合值中选择字段时,都会应用类似的语法问题。例如,要从返回复合值的函数的结果中仅选择一个字段,您需要编写类似以下内容的内容
SELECT (my_func(...)).field FROM ...
如果没有额外的括号,这将产生语法错误。
特殊的字段名 *
表示“所有字段”,如第 8.16.5 节中进一步解释的那样。
以下是一些用于插入和更新复合列的正确语法示例。首先,插入或更新整个列
INSERT INTO mytab (complex_col) VALUES((1.1,2.2)); UPDATE mytab SET complex_col = ROW(1.1,2.2) WHERE ...;
第一个示例省略了 ROW
,第二个示例使用了它;我们可以使用任何一种方式。
我们可以更新复合列的单个子字段
UPDATE mytab SET complex_col.r = (complex_col).r + 1 WHERE ...;
请注意,这里我们不需要(实际上也不能)在 SET
之后立即出现的列名称周围加上括号,但是在引用等号右边的表达式中的同一列时,我们需要使用括号。
我们也可以将子字段指定为 INSERT
的目标
INSERT INTO mytab (complex_col.r, complex_col.i) VALUES(1.1, 2.2);
如果我们没有为列的所有子字段提供值,则其余的子字段将填充为 null 值。
查询中的复合类型存在各种特殊的语法规则和行为。这些规则提供了有用的快捷方式,但如果您不了解其背后的逻辑,可能会令人困惑。
在 PostgreSQL 中,对查询中表名(或别名)的引用实际上是对表当前行的复合值的引用。例如,如果我们有一个表 inventory_item
,如上面所示,我们可以这样写
SELECT c FROM inventory_item c;
此查询生成一个复合值列,因此我们可能会得到如下输出
c ------------------------ ("fuzzy dice",42,1.99) (1 row)
但请注意,简单名称会先与列名称匹配,然后再与表名称匹配,因此此示例仅在查询的表中没有名为 c
的列时才有效。
普通的限定列名语法 table_name
.
column_name
可以理解为将字段选择应用于表当前行的复合值。(出于效率原因,它实际上不是这样实现的。)
当我们写
SELECT c.* FROM inventory_item c;
然后,根据 SQL 标准,我们应该将表的内容展开为单独的列
name | supplier_id | price ------------+-------------+------- fuzzy dice | 42 | 1.99 (1 row)
就像查询是
SELECT c.name, c.supplier_id, c.price FROM inventory_item c;
PostgreSQL 将此展开行为应用于任何复合值表达式,尽管如上面所示,当 .*
应用于的值不是简单的表名时,您需要在该值周围加上括号。例如,如果 myfunc()
是一个返回带有列 a
、b
和 c
的复合类型的函数,则这两个查询的结果相同
SELECT (myfunc(x)).* FROM some_table; SELECT (myfunc(x)).a, (myfunc(x)).b, (myfunc(x)).c FROM some_table;
PostgreSQL 通过实际将第一种形式转换为第二种形式来处理列展开。因此,在此示例中,对于任何一种语法,myfunc()
将每行调用三次。如果它是一个昂贵的函数,您可能希望避免这种情况,可以使用如下查询来做到这一点
SELECT m.* FROM some_table, LATERAL myfunc(x) AS m;
将函数放在 LATERAL
FROM
项中可防止其每行被调用多次。m.*
仍然展开为 m.a、m.b、m.c
,但现在这些变量只是对 FROM
项输出的引用。(这里的 LATERAL
关键字是可选的,但我们显示它是为了阐明该函数正在从 some_table
获取 x
。)
当 composite_value
.*
语法出现在 SELECT
输出列表的顶层、INSERT
/UPDATE
/DELETE
/MERGE
中的 RETURNING
列表、VALUES
子句或行构造器时,会产生这种列扩展。在所有其他上下文中(包括嵌套在这些构造内部时),将 .*
附加到复合值不会更改该值,因为它表示“所有列”,因此会再次生成相同的复合值。例如,如果 somefunc()
接受一个复合值参数,则以下查询是相同的
SELECT somefunc(c.*) FROM inventory_item c; SELECT somefunc(c) FROM inventory_item c;
在这两种情况下,inventory_item
的当前行都作为单个复合值参数传递给函数。即使 .*
在这种情况下不起作用,使用它也是一种良好的风格,因为它清楚地表明需要的是一个复合值。特别是,解析器会将 c
在 c.*
中视为表名或别名,而不是列名,因此不会产生歧义;而如果没有 .*
,则不清楚 c
指的是表名还是列名,实际上,如果存在名为 c
的列,则会优先选择列名的解释。
另一个展示这些概念的例子是,所有这些查询都表示相同的意思
SELECT * FROM inventory_item c ORDER BY c; SELECT * FROM inventory_item c ORDER BY c.*; SELECT * FROM inventory_item c ORDER BY ROW(c.*);
所有这些 ORDER BY
子句都指定了行的复合值,从而根据 第 9.25.6 节 中描述的规则对行进行排序。但是,如果 inventory_item
包含名为 c
的列,则第一种情况将与其他情况不同,因为它表示仅按该列排序。假设之前显示的列名,则以下查询也与上面的查询等效
SELECT * FROM inventory_item c ORDER BY ROW(c.name, c.supplier_id, c.price); SELECT * FROM inventory_item c ORDER BY (c.name, c.supplier_id, c.price);
(最后一种情况使用了省略关键字 ROW
的行构造器。)
与复合值相关的另一个特殊语法行为是,我们可以使用函数表示法来提取复合值的字段。简单来说,
和 field
(table
)
的表示法是可互换的。例如,以下查询是等效的table
.field
SELECT c.name FROM inventory_item c WHERE c.price > 1000; SELECT name(c) FROM inventory_item c WHERE price(c) > 1000;
此外,如果我们有一个函数接受复合类型的单个参数,我们可以使用这两种表示法来调用它。以下查询都是等效的
SELECT somefunc(c) FROM inventory_item c; SELECT somefunc(c.*) FROM inventory_item c; SELECT c.somefunc FROM inventory_item c;
函数表示法和字段表示法之间的这种等效性使得可以在复合类型上使用函数来实现“计算字段”。 使用上面最后一个查询的应用程序不需要直接知道 somefunc
不是表的真实列。
由于这种行为,将接受单个复合类型参数的函数命名为与该复合类型的任何字段相同的名称是不明智的。如果存在歧义,则如果使用字段名称语法,将选择字段名称的解释,而如果使用函数调用语法,则将选择该函数。但是,在 11 之前的 PostgreSQL 版本中,总是选择字段名称的解释,除非调用的语法要求它是函数调用。在较旧版本中强制使用函数解释的一种方法是使用模式限定函数名,即写入
。schema
.func
(compositevalue
)
复合值的外部文本表示形式由根据单个字段类型的 I/O 转换规则解释的项目,以及指示复合结构的修饰组成。修饰包括整个值的圆括号((
和 )
),以及相邻项目之间的逗号(,
)。括号外的空白将被忽略,但在括号内,它被视为字段值的一部分,并且可能重要也可能不重要,具体取决于字段数据类型的输入转换规则。例如,在
'( 42)'
如果字段类型是整数,则空白将被忽略,但如果它是文本则不会。
如前所示,在编写复合值时,可以在任何单个字段值周围编写双引号。如果字段值会混淆复合值解析器,则必须这样做。特别是,包含括号、逗号、双引号或反斜杠的字段必须用双引号引起来。要在带引号的复合字段值中放入双引号或反斜杠,请在其前面加上反斜杠。(此外,双引号引起来的字段值中的一对双引号被认为表示一个双引号字符,类似于 SQL 文字字符串中单引号的规则。)或者,您可以避免引号,并使用反斜杠转义来保护所有其他情况下会被视为复合语法的数据字符。
完全空的字段值(逗号或括号之间没有任何字符)表示 NULL。要写入一个空字符串而不是 NULL 的值,请写入 ""
。
如果字段值为空字符串或包含括号、逗号、双引号、反斜杠或空格,则复合输出例程会将字段值用双引号引起来。(对空格执行此操作不是必需的,但有助于提高可读性。)嵌入字段值中的双引号和反斜杠将被加倍。
请记住,您在 SQL 命令中写入的内容将首先被解释为字符串文字,然后再被解释为复合值。这将使您需要的反斜杠数量加倍(假设使用了转义字符串语法)。例如,要在复合值中插入包含双引号和反斜杠的 text
字段,您需要写入
INSERT ... VALUES ('("\"\\")');
字符串文字处理器删除一个级别的反斜杠,因此到达复合值解析器的内容看起来像 ("\"\\")
。反过来,馈送到 text
数据类型输入例程的字符串变为 "\
。(如果我们使用的数据类型的输入例程也特殊处理反斜杠,例如 bytea
,我们可能需要在命令中使用多达八个反斜杠才能将一个反斜杠放入存储的复合字段中。)可以使用美元引号(请参阅第 4.1.2.4 节)来避免需要加倍反斜杠。
当在 SQL 命令中编写复合值时,ROW
构造器语法通常比复合文字语法更易于使用。在 ROW
中,单个字段值的编写方式与它们不是复合成员时的编写方式相同。
如果您在文档中发现任何不正确、与您对特定功能的体验不符或需要进一步澄清的内容,请使用此表单报告文档问题。