bytea
数据类型允许存储二进制字符串;请参阅 表 8.6。
表 8.6. 二进制数据类型
名称 | 存储大小 | 描述 |
---|---|---|
bytea |
1 或 4 字节加上实际的二进制字符串 | 可变长度的二进制字符串 |
二进制字符串是由八位字节(或字节)组成的序列。二进制字符串与字符字符串的区别在于两个方面。首先,二进制字符串特别允许存储值为零和其他“不可打印”的八位字节(通常是十进制范围 32 到 126 之外的八位字节)。字符字符串不允许零八位字节,也不允许根据数据库选择的字符集编码无效的任何其他八位字节值和八位字节值序列。其次,二进制字符串上的操作处理实际字节,而字符字符串的处理取决于区域设置。简而言之,二进制字符串适用于存储程序员认为是“原始字节”的数据,而字符字符串适用于存储文本。
bytea
类型支持两种输入和输出格式:“十六进制”格式和PostgreSQL的历史“转义”格式。这两种格式始终在输入时被接受。输出格式取决于配置参数 bytea_output;默认值为十六进制。(请注意,十六进制格式是在 PostgreSQL 9.0 中引入的;早期版本和某些工具不理解它。)
该SQL标准定义了一种不同的二进制字符串类型,称为 BLOB
或 BINARY LARGE OBJECT
。输入格式与 bytea
不同,但提供的函数和运算符大部分相同。
bytea
十六进制格式 #“十六进制”格式将二进制数据编码为每个字节 2 个十六进制数字,最高有效半字节在前。整个字符串以序列 \x
开头(以将其与转义格式区分开来)。在某些情况下,初始反斜杠可能需要通过加倍来转义(请参阅第 4.1.2.1 节)。对于输入,十六进制数字可以是大小写,并且允许在数字对之间存在空格(但不能在数字对内或起始 \x
序列中)。十六进制格式与各种外部应用程序和协议兼容,并且它往往比转义格式转换更快,因此首选使用它。
示例
SET bytea_output = 'hex'; SELECT '\xDEADBEEF'::bytea; bytea ------------ \xdeadbeef
bytea
转义格式 #“转义”格式是 bytea
类型的传统 PostgreSQL 格式。它采用将二进制字符串表示为 ASCII 字符序列的方法,同时将那些无法表示为 ASCII 字符的字节转换为特殊的转义序列。如果从应用程序的角度来看,将字节表示为字符是有意义的,那么这种表示形式可能很方便。但在实践中,它通常会造成混淆,因为它模糊了二进制字符串和字符字符串之间的区别,而且所选择的特定转义机制也有些笨拙。因此,对于大多数新应用程序,应尽可能避免使用此格式。
在以转义格式输入 bytea
值时,某些值的八位字节必须转义,而所有八位字节值可以转义。通常,要转义一个八位字节,将其转换为三位八进制值并在其前面加上反斜杠。反斜杠本身(八位字节十进制值 92)也可以用双反斜杠表示。表 8.7 显示了必须转义的字符,并给出了适用的替代转义序列。
表 8.7. bytea
字面转义八位字节
十进制八位字节值 | 描述 | 转义输入表示形式 | 示例 | 十六进制表示形式 |
---|---|---|---|---|
0 | 零八位字节 | '\000' |
'\000'::bytea |
\x00 |
39 | 单引号 | '''' 或 '\047' |
''''::bytea |
\x27 |
92 | 反斜杠 | '\\' 或 '\134' |
'\\'::bytea |
\x5c |
0 到 31 和 127 到 255 | “不可打印”的八位字节 | '\ (八进制值) |
'\001'::bytea |
\x01 |
是否需要转义不可打印八位字节取决于区域设置。在某些情况下,您可以不转义就使用它们。
如表 8.7所示,单引号必须加倍的原因是,这对于 SQL 命令中的任何字符串文字都是如此。通用的字符串文字解析器会消耗最外层的单引号,并将任何一对单引号简化为一个数据字符。bytea
输入函数看到的是一个单引号,它将其视为普通的数据字符。但是,bytea
输入函数将反斜杠视为特殊字符,并且表 8.7中显示的其他行为由该函数实现。
在某些情况下,反斜杠必须比上面显示的加倍,因为通用的字符串文字解析器也会将成对的反斜杠简化为一个数据字符;请参阅第 4.1.2.1 节。
Bytea
八位字节默认以 hex
格式输出。如果您将 bytea_output 更改为 escape
,则“不可打印”的八位字节将转换为其等效的三位八进制值,并在其前面加上一个反斜杠。大多数“可打印”的八位字节将以其在客户端字符集中的标准表示形式输出,例如:
SET bytea_output = 'escape'; SELECT 'abc \153\154\155 \052\251\124'::bytea; bytea ---------------- abc klm *\251T
十进制值为 92(反斜杠)的八位字节在输出中加倍。详细信息请参见表 8.8。
表 8.8. bytea
输出转义八位字节
十进制八位字节值 | 描述 | 转义输出表示形式 | 示例 | 输出结果 |
---|---|---|---|---|
92 | 反斜杠 | \\ |
'\134'::bytea |
\\ |
0 到 31 和 127 到 255 | “不可打印”的八位字节 | \ (八进制值) |
'\001'::bytea |
\001 |
32 到 126 | “可打印”的八位字节 | 客户端字符集表示形式 | '\176'::bytea |
~ |
根据您使用的 PostgreSQL 前端不同,您可能需要进行额外的 bytea
字符串转义和反转义工作。例如,如果您的接口自动转换换行符和回车符,您可能还需要对其进行转义。
如果您发现文档中任何不正确、与您使用特定功能的经验不符或需要进一步澄清的地方,请使用此表格报告文档问题。