正则表达式参考

替换参考

配对文本和反向引用

本网站更多信息

正则表达式 Unicode 语法参考

此参考页面说明在字符类别外使用 Unicode 标记时，这些标记的作用。除了 \X 之外，所有这些标记都可以在字符类别内使用。在字符类别内，这些标记会将它们通常配对的字符添加到字符类别中。

功能	语法	说明	范例	.NET	Java	Perl	PCRE	PCRE2	PHP	Delphi	R	JavaScript	VBScript	XRegExp	Python	Ruby	std::regex	Boost	Tcl ARE	POSIX BRE	POSIX ERE	GNU BRE	GNU ERE	Oracle	XML	XPath
音位	`\X`	配对单一 Unicode 音位，无论是以单一码点或使用组合标记编码为多个码点。音位最接近日常概念中的「字符」。	`\X` 配对编码为 U+0061 U+0300 的 `à`、编码为 U+00E0 的 `à`、`©` 等。	否	9	是	5.0	是	5.0.5	是	是	否	否	否	否	2.0	否	ECMA 延伸 egrep awk	否	否	否	否	否	否	否	否
代码点	`\uFFFF` 其中 FFFF 为 4 个十六进位数字	比对特定 Unicode 代码点。	`\u00E0` 仅比对编码为 U+00E0 的 `à`。 `\u00A9` 仅比对 `©`	是	是	否	否	否	否	否	否	是	是	是	3.3 2.4 字符串	1.9	ECMA	否	是	否	否	否	否	否	否	否
代码点	`\u{FFFF}` 其中 FFFF 为 1 至 4 个十六进位数字	比对特定 Unicode 代码点。	`\u{E0}` 仅比对编码为 U+00E0 的 `à`。 `\u{A9}` 仅比对 `©`	否	否	否	否	否	7.0.0 字符串	否	否	否	否	3	否	1.9	否	否	否	否	否	否	否	否	否	否
代码点	`\xFFFF` 其中 FFFF 为 4 个十六进位数字	比对特定 Unicode 代码点。	`\x00E0` 仅比对编码为 U+00E0 的 `à`。 `\x00A9` 仅比对 `©`	否	否	否	否	否	否	否	否	否	否	否	否	否	字符串	否	8.4–8.5	否	否	否	否	否	否	否
代码点	`\x{FFFF}` 其中 FFFF 为 1 至 4 个十六进位数字	比对特定 Unicode 代码点。	`\x{E0}` 仅比对编码为 U+00E0 的 `à`。 `\x{A9}` 仅比对 `©`	否	7	是	是	是	是	是	是	否	否	否	否	否	否	ECMA 延伸 egrep awk	否	否	否	否	否	否	否	否
Unicode 类别	`\pL` 其中 L 是 Unicode 类别	比对指定 Unicode 类别中的单一 Unicode 代码点。	`\pL` 比对编码为 U+00E0 的 `à`；`\pS` 比对 `©`	否	是	是	5.0	是	5.0.5	是	是	否	否	3	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 类别	`\PL` 其中 L 是 Unicode 类别	比对不在指定 Unicode 类别中的单一 Unicode 代码点。	`\PS` 比对编码为 U+00E0 的 `à`；`\PL` 比对 `©`	否	是	是	5.0	是	5.0.5	是	是	否	否	3	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 类别	`\p{L}` 其中 L 是 Unicode 类别	比对指定 Unicode 类别中的单一 Unicode 代码点。	`\p{L}` 比对编码为 U+00E0 的 `à`；`\p{S}` 比对 `©`	是	是	是	5.0	是	5.0.5	是	是	否	否	是	否	1.9	否	否	否	否	否	否	否	否	是	是
Unicode 类别	`\p{IsL}` 其中 L 是 Unicode 类别	比对指定 Unicode 类别中的单一 Unicode 代码点。	`\p{IsL}` 比对编码为 U+00E0 的 `à`；`\p{IsS}` 比对 `©`	否	是	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 类别	`\p{Category}`	比对指定 Unicode 类别中的单一 Unicode 代码点。	`\p{Letter}` 比对编码为 U+00E0 的 `à`；`\p{Symbol}` 比对 `©`	否	否	是	否	否	否	否	否	否	否	是	否	1.9	否	否	否	否	否	否	否	否	否	否
Unicode 类别	`\p{IsCategory}`	比对指定 Unicode 类别中的单一 Unicode 代码点。	`\p{IsLetter}` 符合编码为 U+00E0 的 `à`；`\p{IsSymbol}` 符合 `©`	否	否	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 码	`\p{Script}`	符合属于指定 Unicode 码的单一 Unicode 码点。每个 Unicode 码点都属于一个码。码从不包含未指派的码点。	`\p{Greek}` 符合 `Ω`	否	否	是	6.5	是	5.1.3	是	是	否	否	是	否	1.9	否	否	否	否	否	否	否	否	否	否
Unicode 码	`\p{IsScript}`	符合属于指定 Unicode 码的单一 Unicode 码点。每个 Unicode 码点都属于一个码。码从不包含未指派的码点。	`\p{IsGreek}` 符合 `Ω`	否	7	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 区块	`\p{Block}`	符合属于指定 Unicode 区块的单一 Unicode 码点。每个 Unicode 码点都属于一个区块。区块可能包含未指派的码点。	`\p{Arrows}` 符合从 U+2190 到 U+21FF (`←` 到 `⇿`) 的任何码点	否	否	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 区块	`\p{InBlock}`	符合属于指定 Unicode 区块的单一 Unicode 码点。每个 Unicode 码点都属于一个区块。区块可能包含未指派的码点。	`\p{InArrows}` 符合从 U+2190 到 U+21FF (`←` 到 `⇿`) 的任何码点	否	是	是	否	否	否	否	否	否	否	2–4	否	2.0	否	否	否	否	否	否	否	否	否	否
Unicode 区块	`\p{IsBlock}`	符合属于指定 Unicode 区块的单一 Unicode 码点。每个 Unicode 码点都属于一个区块。区块可能包含未指派的码点。	`\p{IsArrows}` 符合从 U+2190 到 U+21FF (`←` 到 `⇿`) 的任何码点	是	否	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	是	是
否定的 Unicode 属性	`\P{Property}`	符合不具备指定属性（类别、码或区块）的单一 Unicode 码点。	`\P{L}` 符合 `©`	是	是	是	5.0	是	5.0.5	是	是	否	否	是	否	1.9	否	ECMA 延伸 egrep awk	否	否	否	否	否	否	是	是
否定的 Unicode 属性	`\p{^Property}`	符合不具备指定属性（类别、码或区块）的单一 Unicode 码点。	`\p{^L}` 符合 `©`	否	否	是	5.0	是	5.0.5	是	是	否	否	是	否	1.9	否	否	否	否	否	否	否	否	否	否
Unicode 属性	`\P{^Property}`	符合具有指定属性（类别、码或区块）的单一 Unicode 码点。双重否定视为肯定。	`\P{^L}` 符合 `q`	否	否	是	5.0	是	5.0.5	是	是	否	否	否	否	1.9	否	否	否	否	否	否	否	否	否	否
功能	语法	说明	范例	.NET	Java	Perl	PCRE	PCRE2	PHP	Delphi	R	JavaScript	VBScript	XRegExp	Python	Ruby	std::regex	Boost	Tcl ARE	POSIX BRE	POSIX ERE	GNU BRE	GNU ERE	Oracle	XML	XPath

關於正規表示式 » 正規表示式參考 » 正規表示式 Unicode 語法參考

正規表示式參考

替換參考

本網站更多資訊

正規表示式 Unicode 語法參考

此參考頁面說明在字元類別外使用 Unicode 標記時，這些標記的作用。除了 \X 之外，所有這些標記都可以在字元類別內使用。在字元類別內，這些標記會將它們通常配對的字元新增到字元類別中。

功能	語法	說明	範例	.NET	Java	Perl	PCRE	PCRE2	PHP	Delphi	R	JavaScript	VBScript	XRegExp	Python	Ruby	std::regex	Boost	Tcl ARE	POSIX BRE	POSIX ERE	GNU BRE	GNU ERE	Oracle	XML	XPath
音位	`\X`	配對單一 Unicode 音位，無論是以單一碼點或使用組合標記編碼為多個碼點。音位最接近日常概念中的「字元」。	`\X` 配對編碼為 U+0061 U+0300 的 `à`、編碼為 U+00E0 的 `à`、`©` 等。	否	9	是	5.0	是	5.0.5	是	是	否	否	否	否	2.0	否	ECMA 延伸 egrep awk	否	否	否	否	否	否	否	否
代碼點	`\uFFFF` 其中 FFFF 為 4 個十六進位數字	比對特定 Unicode 代碼點。	`\u00E0` 僅比對編碼為 U+00E0 的 `à`。 `\u00A9` 僅比對 `©`	是	是	否	否	否	否	否	否	是	是	是	3.3 2.4 字串	1.9	ECMA	否	是	否	否	否	否	否	否	否
代碼點	`\u{FFFF}` 其中 FFFF 為 1 至 4 個十六進位數字	比對特定 Unicode 代碼點。	`\u{E0}` 僅比對編碼為 U+00E0 的 `à`。 `\u{A9}` 僅比對 `©`	否	否	否	否	否	7.0.0 字串	否	否	否	否	3	否	1.9	否	否	否	否	否	否	否	否	否	否
代碼點	`\xFFFF` 其中 FFFF 為 4 個十六進位數字	比對特定 Unicode 代碼點。	`\x00E0` 僅比對編碼為 U+00E0 的 `à`。 `\x00A9` 僅比對 `©`	否	否	否	否	否	否	否	否	否	否	否	否	否	字串	否	8.4–8.5	否	否	否	否	否	否	否
代碼點	`\x{FFFF}` 其中 FFFF 為 1 至 4 個十六進位數字	比對特定 Unicode 代碼點。	`\x{E0}` 僅比對編碼為 U+00E0 的 `à`。 `\x{A9}` 僅比對 `©`	否	7	是	是	是	是	是	是	否	否	否	否	否	否	ECMA 延伸 egrep awk	否	否	否	否	否	否	否	否
Unicode 類別	`\pL` 其中 L 是 Unicode 類別	比對指定 Unicode 類別中的單一 Unicode 代碼點。	`\pL` 比對編碼為 U+00E0 的 `à`；`\pS` 比對 `©`	否	是	是	5.0	是	5.0.5	是	是	否	否	3	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 類別	`\PL` 其中 L 是 Unicode 類別	比對不在指定 Unicode 類別中的單一 Unicode 代碼點。	`\PS` 比對編碼為 U+00E0 的 `à`；`\PL` 比對 `©`	否	是	是	5.0	是	5.0.5	是	是	否	否	3	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 類別	`\p{L}` 其中 L 是 Unicode 類別	比對指定 Unicode 類別中的單一 Unicode 代碼點。	`\p{L}` 比對編碼為 U+00E0 的 `à`；`\p{S}` 比對 `©`	是	是	是	5.0	是	5.0.5	是	是	否	否	是	否	1.9	否	否	否	否	否	否	否	否	是	是
Unicode 類別	`\p{IsL}` 其中 L 是 Unicode 類別	比對指定 Unicode 類別中的單一 Unicode 代碼點。	`\p{IsL}` 比對編碼為 U+00E0 的 `à`；`\p{IsS}` 比對 `©`	否	是	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 類別	`\p{Category}`	比對指定 Unicode 類別中的單一 Unicode 代碼點。	`\p{Letter}` 比對編碼為 U+00E0 的 `à`；`\p{Symbol}` 比對 `©`	否	否	是	否	否	否	否	否	否	否	是	否	1.9	否	否	否	否	否	否	否	否	否	否
Unicode 類別	`\p{IsCategory}`	比對指定 Unicode 類別中的單一 Unicode 代碼點。	`\p{IsLetter}` 符合編碼為 U+00E0 的 `à`；`\p{IsSymbol}` 符合 `©`	否	否	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 碼	`\p{Script}`	符合屬於指定 Unicode 碼的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個碼。碼從不包含未指派的碼點。	`\p{Greek}` 符合 `Ω`	否	否	是	6.5	是	5.1.3	是	是	否	否	是	否	1.9	否	否	否	否	否	否	否	否	否	否
Unicode 碼	`\p{IsScript}`	符合屬於指定 Unicode 碼的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個碼。碼從不包含未指派的碼點。	`\p{IsGreek}` 符合 `Ω`	否	7	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 區塊	`\p{Block}`	符合屬於指定 Unicode 區塊的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個區塊。區塊可能包含未指派的碼點。	`\p{Arrows}` 符合從 U+2190 到 U+21FF (`←` 到 `⇿`) 的任何碼點	否	否	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否
Unicode 區塊	`\p{InBlock}`	符合屬於指定 Unicode 區塊的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個區塊。區塊可能包含未指派的碼點。	`\p{InArrows}` 符合從 U+2190 到 U+21FF (`←` 到 `⇿`) 的任何碼點	否	是	是	否	否	否	否	否	否	否	2–4	否	2.0	否	否	否	否	否	否	否	否	否	否
Unicode 區塊	`\p{IsBlock}`	符合屬於指定 Unicode 區塊的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個區塊。區塊可能包含未指派的碼點。	`\p{IsArrows}` 符合從 U+2190 到 U+21FF (`←` 到 `⇿`) 的任何碼點	是	否	是	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	否	是	是
否定的 Unicode 屬性	`\P{Property}`	符合不具備指定屬性（類別、碼或區塊）的單一 Unicode 碼點。	`\P{L}` 符合 `©`	是	是	是	5.0	是	5.0.5	是	是	否	否	是	否	1.9	否	ECMA 延伸 egrep awk	否	否	否	否	否	否	是	是
否定的 Unicode 屬性	`\p{^Property}`	符合不具備指定屬性（類別、碼或區塊）的單一 Unicode 碼點。	`\p{^L}` 符合 `©`	否	否	是	5.0	是	5.0.5	是	是	否	否	是	否	1.9	否	否	否	否	否	否	否	否	否	否
Unicode 屬性	`\P{^Property}`	符合具有指定屬性（類別、碼或區塊）的單一 Unicode 碼點。雙重否定視為肯定。	`\P{^L}` 符合 `q`	否	否	是	5.0	是	5.0.5	是	是	否	否	否	否	1.9	否	否	否	否	否	否	否	否	否	否
功能	語法	說明	範例	.NET	Java	Perl	PCRE	PCRE2	PHP	Delphi	R	JavaScript	VBScript	XRegExp	Python	Ruby	std::regex	Boost	Tcl ARE	POSIX BRE	POSIX ERE	GNU BRE	GNU ERE	Oracle	XML	XPath

About Regular Expressions » Regular Expressions Reference » Regular Expression Unicode Syntax Reference

Regex Reference

Capturing Groups & Backreferences

Named Groups & Backreferences

Special Groups

Mode Modifiers

Recursion & Balancing Groups

Replacement Reference

Characters

Matched Text & Backreferences

Context & Case Conversion

Conditionals

Regular Expression Unicode Syntax Reference

This reference page explains what the Unicode tokens do when used outside character classes. All of these except \X can also be used inside character classes. Inside a character class, these tokens add the characters that they normally match to the character class.

Feature	Syntax	Description	Example	.NET	Java	Perl	PCRE	PCRE2	PHP	Delphi	R	JavaScript	VBScript	XRegExp	Python	Ruby	std::regex	Boost	Tcl ARE	POSIX BRE	POSIX ERE	GNU BRE	GNU ERE	Oracle	XML	XPath
Grapheme	`\X`	Matches a single Unicode grapheme, whether encoded as a single code point or multiple code points using combining marks. A grapheme most closely resembles the everyday concept of a “character”.	`\X` matches `à` encoded as U+0061 U+0300, `à` encoded as U+00E0, `©`, etc.	no	9	YES	5.0	YES	5.0.5	YES	YES	no	no	no	no	2.0	no	ECMA extended egrep awk	no	no	no	no	no	no	no	no
Code point	`\uFFFF` where FFFF are 4 hexadecimal digits	Matches a specific Unicode code point.	`\u00E0` matches `à` encoded as U+00E0 only. `\u00A9` matches `©`	YES	YES	no	no	no	no	no	no	YES	YES	YES	3.3 2.4 string	1.9	ECMA	no	YES	no	no	no	no	no	no	no
Code point	`\u{FFFF}` where FFFF are 1 to 4 hexadecimal digits	Matches a specific Unicode code point.	`\u{E0}` matches `à` encoded as U+00E0 only. `\u{A9}` matches `©`	no	no	no	no	no	7.0.0 string	no	no	no	no	3	no	1.9	no	no	no	no	no	no	no	no	no	no
Code point	`\xFFFF` where FFFF are 4 hexadecimal digits	Matches a specific Unicode code point.	`\x00E0` matches `à` encoded as U+00E0 only. `\x00A9` matches `©`	no	no	no	no	no	no	no	no	no	no	no	no	no	string	no	8.4–8.5	no	no	no	no	no	no	no
Code point	`\x{FFFF}` where FFFF are 1 to 4 hexadecimal digits	Matches a specific Unicode code point.	`\x{E0}` matches `à` encoded as U+00E0 only. `\x{A9}` matches `©`	no	7	YES	YES	YES	YES	YES	YES	no	no	no	no	no	no	ECMA extended egrep awk	no	no	no	no	no	no	no	no
Unicode category	`\pL` where L is a Unicode category	Matches a single Unicode code point in the specified Unicode category.	`\pL` matches `à` encoded as U+00E0; `\pS` matches `©`	no	YES	YES	5.0	YES	5.0.5	YES	YES	no	no	3	no	no	no	no	no	no	no	no	no	no	no	no
Unicode category	`\PL` where L is a Unicode category	Matches a single Unicode code point that is not in the specified Unicode category.	`\PS` matches `à` encoded as U+00E0; `\PL` matches `©`	no	YES	YES	5.0	YES	5.0.5	YES	YES	no	no	3	no	no	no	no	no	no	no	no	no	no	no	no
Unicode category	`\p{L}` where L is a Unicode category	Matches a single Unicode code point in the specified Unicode category.	`\p{L}` matches `à` encoded as U+00E0; `\p{S}` matches `©`	YES	YES	YES	5.0	YES	5.0.5	YES	YES	no	no	YES	no	1.9	no	no	no	no	no	no	no	no	YES	YES
Unicode category	`\p{IsL}` where L is a Unicode category	Matches a single Unicode code point in the specified Unicode category.	`\p{IsL}` matches `à` encoded as U+00E0; `\p{IsS}` matches `©`	no	YES	YES	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no
Unicode category	`\p{Category}`	Matches a single Unicode code point in the specified Unicode category.	`\p{Letter}` matches `à` encoded as U+00E0; `\p{Symbol}` matches `©`	no	no	YES	no	no	no	no	no	no	no	YES	no	1.9	no	no	no	no	no	no	no	no	no	no
Unicode category	`\p{IsCategory}`	Matches a single Unicode code point in the specified Unicode category.	`\p{IsLetter}` matches `à` encoded as U+00E0; `\p{IsSymbol}` matches `©`	no	no	YES	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no
Unicode script	`\p{Script}`	Matches a single Unicode code point that is part of the specified Unicode script. Each Unicode code point is part of exactly one script. Scripts never contain unassigned code points.	`\p{Greek}` matches `Ω`	no	no	YES	6.5	YES	5.1.3	YES	YES	no	no	YES	no	1.9	no	no	no	no	no	no	no	no	no	no
Unicode script	`\p{IsScript}`	Matches a single Unicode code point that is part of the specified Unicode script. Each Unicode code point is part of exactly one script. Scripts never contain unassigned code points.	`\p{IsGreek}` matches `Ω`	no	7	YES	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no
Unicode block	`\p{Block}`	Matches a single Unicode code point that is part of the specified Unicode block. Each Unicode code point is part of exactly one block. Blocks may contain unassigned code points.	`\p{Arrows}` matches any of the code points from U+2190 until U+21FF (`←` until `⇿`)	no	no	YES	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no
Unicode block	`\p{InBlock}`	Matches a single Unicode code point that is part of the specified Unicode block. Each Unicode code point is part of exactly one block. Blocks may contain unassigned code points.	`\p{InArrows}` matches any of the code points from U+2190 until U+21FF (`←` until `⇿`)	no	YES	YES	no	no	no	no	no	no	no	2–4	no	2.0	no	no	no	no	no	no	no	no	no	no
Unicode block	`\p{IsBlock}`	Matches a single Unicode code point that is part of the specified Unicode block. Each Unicode code point is part of exactly one block. Blocks may contain unassigned code points.	`\p{IsArrows}` matches any of the code points from U+2190 until U+21FF (`←` until `⇿`)	YES	no	YES	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	no	YES	YES
Negated Unicode property	`\P{Property}`	Matches a single Unicode code point that does not have the specified property (category, script, or block).	`\P{L}` matches `©`	YES	YES	YES	5.0	YES	5.0.5	YES	YES	no	no	YES	no	1.9	no	ECMA extended egrep awk	no	no	no	no	no	no	YES	YES
Negated Unicode property	`\p{^Property}`	Matches a single Unicode code point that does not have the specified property (category, script, or block).	`\p{^L}` matches `©`	no	no	YES	5.0	YES	5.0.5	YES	YES	no	no	YES	no	1.9	no	no	no	no	no	no	no	no	no	no
Unicode property	`\P{^Property}`	Matches a single Unicode code point that does have the specified property (category, script, or block). Double negative is taken as positive.	`\P{^L}` matches `q`	no	no	YES	5.0	YES	5.0.5	YES	YES	no	no	no	no	1.9	no	no	no	no	no	no	no	no	no	no
Feature	Syntax	Description	Example	.NET	Java	Perl	PCRE	PCRE2	PHP	Delphi	R	JavaScript	VBScript	XRegExp	Python	Ruby	std::regex	Boost	Tcl ARE	POSIX BRE	POSIX ERE	GNU BRE	GNU ERE	Oracle	XML	XPath