fuzzystrmatch
模块提供了几个函数来确定字符串之间的相似度和距离。
目前,soundex
、metaphone
、dmetaphone
和 dmetaphone_alt
函数在使用多字节编码(例如 UTF-8)时效果不佳。请使用 daitch_mokotoff
或 levenshtein
处理此类数据。
此模块被认为是““可信””,也就是说,拥有当前数据库 CREATE
权限的非超级用户可以安装它。
Soundex 系统是一种通过将发音相似的名称转换为相同的代码来匹配它们的方法。它最初由美国人口普查局在 1880 年、1900 年和 1910 年使用。请注意,Soundex 对于非英语名称不是很有用。
fuzzystrmatch
模块提供了两个用于处理 Soundex 代码的函数
soundex(text) returns text difference(text, text) returns int
soundex
函数将字符串转换为其 Soundex 代码。difference
函数将两个字符串转换为其 Soundex 代码,然后报告匹配代码位置的数量。由于 Soundex 代码有四个字符,因此结果范围从零到四,其中零表示不匹配,四表示完全匹配。(因此,该函数被误命名 — similarity
会是一个更好的名称。)
以下是一些使用示例
SELECT soundex('hello world!'); SELECT soundex('Anne'), soundex('Ann'), difference('Anne', 'Ann'); SELECT soundex('Anne'), soundex('Andrew'), difference('Anne', 'Andrew'); SELECT soundex('Anne'), soundex('Margaret'), difference('Anne', 'Margaret'); CREATE TABLE s (nm text); INSERT INTO s VALUES ('john'); INSERT INTO s VALUES ('joan'); INSERT INTO s VALUES ('wobbly'); INSERT INTO s VALUES ('jack'); SELECT * FROM s WHERE soundex(nm) = soundex('john'); SELECT * FROM s WHERE difference(s.nm, 'john') > 2;
与原始 Soundex 系统一样,Daitch-Mokotoff Soundex 通过将发音相似的名称转换为相同的代码来匹配它们。但是,Daitch-Mokotoff Soundex 对于非英语名称比原始系统更有用。相对于原始系统的主要改进包括
代码基于前六个有意义的字母而不是四个字母。
一个字母或字母组合映射到十个可能的代码而不是七个代码。
如果两个连续的字母具有单个发音,则它们被编码为单个数字。
当一个字母或字母组合可能有不同的发音时,会发出多个代码以涵盖所有可能性。
此函数为其输入生成 Daitch-Mokotoff soundex 代码
daitch_mokotoff(source
text) returns text[]
结果可能包含一个或多个代码,具体取决于有多少个合理的发音,因此它表示为一个数组。
由于 Daitch-Mokotoff soundex 代码仅由 6 位数字组成,因此最好source
是单个单词或名称。
以下是一些示例
SELECT daitch_mokotoff('George'); daitch_mokotoff ----------------- {595000} SELECT daitch_mokotoff('John'); daitch_mokotoff ----------------- {160000,460000} SELECT daitch_mokotoff('Bierschbach'); daitch_mokotoff ----------------------------------------------------------- {794575,794574,794750,794740,745750,745740,747500,747400} SELECT daitch_mokotoff('Schwartzenegger'); daitch_mokotoff ----------------- {479465}
为了匹配单个名称,可以使用 &&
运算符直接匹配返回的文本数组:任何重叠都可以被视为匹配。可以使用 GIN 索引来提高效率,请参见 第 64.4 节 和此示例
CREATE TABLE s (nm text); CREATE INDEX ix_s_dm ON s USING gin (daitch_mokotoff(nm)) WITH (fastupdate = off); INSERT INTO s (nm) VALUES ('Schwartzenegger'), ('John'), ('James'), ('Steinman'), ('Steinmetz'); SELECT * FROM s WHERE daitch_mokotoff(nm) && daitch_mokotoff('Swartzenegger'); SELECT * FROM s WHERE daitch_mokotoff(nm) && daitch_mokotoff('Jane'); SELECT * FROM s WHERE daitch_mokotoff(nm) && daitch_mokotoff('Jens');
为了索引和匹配任何顺序的任意数量的名称,可以使用全文搜索功能。请参见 第 12 章 和此示例
CREATE FUNCTION soundex_tsvector(v_name text) RETURNS tsvector BEGIN ATOMIC SELECT to_tsvector('simple', string_agg(array_to_string(daitch_mokotoff(n), ' '), ' ')) FROM regexp_split_to_table(v_name, '\s+') AS n; END; CREATE FUNCTION soundex_tsquery(v_name text) RETURNS tsquery BEGIN ATOMIC SELECT string_agg('(' || array_to_string(daitch_mokotoff(n), '|') || ')', '&')::tsquery FROM regexp_split_to_table(v_name, '\s+') AS n; END; CREATE TABLE s (nm text); CREATE INDEX ix_s_txt ON s USING gin (soundex_tsvector(nm)) WITH (fastupdate = off); INSERT INTO s (nm) VALUES ('John Doe'), ('Jane Roe'), ('Public John Q.'), ('George Best'), ('John Yamson'); SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('john'); SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('jane doe'); SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('john public'); SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('besst, giorgio'); SELECT * FROM s WHERE soundex_tsvector(nm) @@ soundex_tsquery('Jameson John');
如果希望避免在索引重新检查期间重新计算 soundex 代码,则可以使用单独列上的索引而不是表达式上的索引。可以使用存储的生成列来实现此目的;请参见 第 5.4 节。
此函数计算两个字符串之间的 Levenshtein 距离
levenshtein(source text, target text, ins_cost int, del_cost int, sub_cost int) returns int levenshtein(source text, target text) returns int levenshtein_less_equal(source text, target text, ins_cost int, del_cost int, sub_cost int, max_d int) returns int levenshtein_less_equal(source text, target text, max_d int) returns int
source
和 target
都可以是任何非空字符串,最多包含 255 个字符。成本参数分别指定字符插入、删除或替换的费用。您可以省略成本参数,如函数的第二个版本所示;在这种情况下,它们都默认为 1。
levenshtein_less_equal
是 Levenshtein 函数的加速版本,用于仅对小距离感兴趣的情况。如果实际距离小于或等于 max_d
,则 levenshtein_less_equal
返回正确的距离;否则,它返回某个大于 max_d
的值。如果 max_d
为负数,则行为与 levenshtein
相同。
示例
test=# SELECT levenshtein('GUMBO', 'GAMBOL'); levenshtein ------------- 2 (1 row) test=# SELECT levenshtein('GUMBO', 'GAMBOL', 2, 1, 1); levenshtein ------------- 3 (1 row) test=# SELECT levenshtein_less_equal('extensive', 'exhaustive', 2); levenshtein_less_equal ------------------------ 3 (1 row) test=# SELECT levenshtein_less_equal('extensive', 'exhaustive', 4); levenshtein_less_equal ------------------------ 4 (1 row)
与 Soundex 类似,Metaphone 基于为输入字符串构建代表性代码的想法。如果两个字符串具有相同的代码,则认为它们相似。
此函数计算输入字符串的 Metaphone 代码
metaphone(source text, max_output_length int) returns text
source
必须是一个非空字符串,最多包含 255 个字符。max_output_length
设置输出 Metaphone 代码的最大长度;如果更长,输出将被截断到此长度。
示例
test=# SELECT metaphone('GUMBO', 4); metaphone ----------- KM (1 row)
Double Metaphone 系统为给定的输入字符串计算两个““听起来像””字符串——一个““主要””和一个““替代””。在大多数情况下,它们是相同的,但对于非英语名称,尤其是根据发音,它们可能会略有不同。这些函数计算主要代码和替代代码
dmetaphone(source text) returns text dmetaphone_alt(source text) returns text
输入字符串的长度没有限制。
示例
test=# SELECT dmetaphone('gumbo'); dmetaphone ------------ KMP (1 row)
如果您在文档中发现任何不正确、与您使用特定功能的体验不符或需要进一步澄清的地方,请使用此表单报告文档问题。