正则表达式 Unicode 语法参考正则表达式 Unicode 语法参考正则表达式 Unicode 语法参考正则表达式 Unicode 语法参考
  • 文章
  • 正则表达式
    • 工具
  • 登录
找到的结果: {phrase} (显示: {results_count} 共: {results_count_total})
显示: {results_count} 共: {results_count_total}

加载更多搜索结果...

搜索范围
模糊匹配
搜索标题
搜索内容
发表 admin at 2024年3月5日
类别
  • 正则表达式
标签
正则表达式 Unicode 语法参考
  • 简
  • 繁
  • En
关于正则表达式 » 正则表达式参考 » 正则表达式 Unicode 语法参考

正则表达式参考
简介
目录
快速参考
字符
基本功能
字符类别
简写
锚点
字词边界
量词
Unicode
捕获组和反向引用
命名组和反向引用
特殊组
模式修改器
递归和平衡组
替换参考
字符
配对文本和反向引用
内容和大小写转换
条件
本网站更多信息
简介
正则表达式快速开始
正则表达式教程
替换字符串教程
应用程序和语言
正则表达式范例
正则表达式参考
替换字符串参考

正则表达式 Unicode 语法参考

此参考页面说明在字符类别外使用 Unicode 标记时,这些标记的作用。除了 \X 之外,所有这些标记都可以在字符类别内使用。在字符类别内,这些标记会将它们通常配对的字符添加到字符类别中。

功能语法说明范例.NET Java Perl PCRE PCRE2 PHP Delphi R JavaScript VBScript XRegExp Python Ruby std::regex Boost Tcl ARE POSIX BRE POSIX ERE GNU BRE GNU ERE Oracle XML XPath
音位 \X 配对单一 Unicode 音位,无论是以单一码点或使用组合标记编码为多个码点。音位最接近日常概念中的「字符」。 \X 配对编码为 U+0061 U+0300 的 à、编码为 U+00E0 的 à、© 等。 否9是5.0是5.0.5是是否否否否2.0否ECMA
延伸
egrep
awk
否否否否否否否否
代码点 \uFFFF 其中 FFFF 为 4 个十六进位数字 比对特定 Unicode 代码点。 \u00E0 仅比对编码为 U+00E0 的 à。 \u00A9 仅比对 © 是是否否否否否否是是是3.3
2.4 字符串
1.9ECMA否是否否否否否否否
代码点 \u{FFFF} 其中 FFFF 为 1 至 4 个十六进位数字 比对特定 Unicode 代码点。 \u{E0} 仅比对编码为 U+00E0 的 à。 \u{A9} 仅比对 © 否否否否否7.0.0 字符串否否否否3否1.9否否否否否否否否否否
代码点 \xFFFF 其中 FFFF 为 4 个十六进位数字 比对特定 Unicode 代码点。 \x00E0 仅比对编码为 U+00E0 的 à。 \x00A9 仅比对 © 否否否否否否否否否否否否否字符串否8.4–8.5否否否否否否否
代码点 \x{FFFF} 其中 FFFF 为 1 至 4 个十六进位数字 比对特定 Unicode 代码点。 \x{E0} 仅比对编码为 U+00E0 的 à。 \x{A9} 仅比对 © 否7是是是是是是否否否否否否ECMA
延伸
egrep
awk
否否否否否否否否
Unicode 类别 \pL 其中 L 是 Unicode 类别 比对指定 Unicode 类别中的单一 Unicode 代码点。 \pL 比对编码为 U+00E0 的 à;\pS 比对 © 否是是5.0是5.0.5是是否否3否否否否否否否否否否否否
Unicode 类别 \PL 其中 L 是 Unicode 类别 比对不在指定 Unicode 类别中的单一 Unicode 代码点。 \PS 比对编码为 U+00E0 的 à;\PL 比对 © 否是是5.0是5.0.5是是否否3否否否否否否否否否否否否
Unicode 类别 \p{L} 其中 L 是 Unicode 类别 比对指定 Unicode 类别中的单一 Unicode 代码点。 \p{L} 比对编码为 U+00E0 的 à;\p{S} 比对 © 是是是5.0是5.0.5是是否否是否1.9否否否否否否否否是是
Unicode 类别 \p{IsL} 其中 L 是 Unicode 类别 比对指定 Unicode 类别中的单一 Unicode 代码点。 \p{IsL} 比对编码为 U+00E0 的 à;\p{IsS} 比对 © 否是是否否否否否否否否否否否否否否否否否否否否
Unicode 类别 \p{Category} 比对指定 Unicode 类别中的单一 Unicode 代码点。 \p{Letter} 比对编码为 U+00E0 的 à;\p{Symbol} 比对 © 否否是否否否否否否否是否1.9否否否否否否否否否否
Unicode 类别 \p{IsCategory} 比对指定 Unicode 类别中的单一 Unicode 代码点。 \p{IsLetter} 符合编码为 U+00E0 的 à;\p{IsSymbol} 符合 © 否否是否否否否否否否否否否否否否否否否否否否否
Unicode 码 \p{Script} 符合属于指定 Unicode 码的单一 Unicode 码点。每个 Unicode 码点都属于一个码。码从不包含未指派的码点。 \p{Greek} 符合 Ω 否否是6.5是5.1.3是是否否是否1.9否否否否否否否否否否
Unicode 码 \p{IsScript} 符合属于指定 Unicode 码的单一 Unicode 码点。每个 Unicode 码点都属于一个码。码从不包含未指派的码点。 \p{IsGreek} 符合 Ω 否7是否否否否否否否否否否否否否否否否否否否否
Unicode 区块 \p{Block} 符合属于指定 Unicode 区块的单一 Unicode 码点。每个 Unicode 码点都属于一个区块。区块可能包含未指派的码点。 \p{Arrows} 符合从 U+2190 到 U+21FF (← 到 ⇿) 的任何码点 否否是否否否否否否否否否否否否否否否否否否否否
Unicode 区块 \p{InBlock} 符合属于指定 Unicode 区块的单一 Unicode 码点。每个 Unicode 码点都属于一个区块。区块可能包含未指派的码点。 \p{InArrows} 符合从 U+2190 到 U+21FF (← 到 ⇿) 的任何码点 否是是否否否否否否否2–4否2.0否否否否否否否否否否
Unicode 区块 \p{IsBlock} 符合属于指定 Unicode 区块的单一 Unicode 码点。每个 Unicode 码点都属于一个区块。区块可能包含未指派的码点。 \p{IsArrows} 符合从 U+2190 到 U+21FF (← 到 ⇿) 的任何码点 是否是否否否否否否否否否否否否否否否否否否是是
否定的 Unicode 属性 \P{Property} 符合不具备指定属性(类别、码或区块)的单一 Unicode 码点。 \P{L} 符合 © 是是是5.0是5.0.5是是否否是否1.9否ECMA
延伸
egrep
awk
否否否否否否是是
否定的 Unicode 属性 \p{^Property} 符合不具备指定属性(类别、码或区块)的单一 Unicode 码点。 \p{^L} 符合 © 否否是5.0是5.0.5是是否否是否1.9否否否否否否否否否否
Unicode 属性 \P{^Property} 符合具有指定属性(类别、码或区块)的单一 Unicode 码点。双重否定视为肯定。 \P{^L} 符合 q 否否是5.0是5.0.5是是否否否否1.9否否否否否否否否否否
功能语法说明范例.NET Java Perl PCRE PCRE2 PHP Delphi R JavaScript VBScript XRegExp Python Ruby std::regex Boost Tcl ARE POSIX BRE POSIX ERE GNU BRE GNU ERE Oracle XML XPath
正規表示式 Unicode 語法參考
  • 简
  • 繁
  • En
關於正規表示式 » 正規表示式參考 » 正規表示式 Unicode 語法參考

正規表示式參考
簡介
目錄
快速參考
字元
基本功能
字元類別
簡寫
錨點
字詞邊界
量詞
Unicode
擷取群組和反向參照
命名群組和反向參照
特殊群組
模式修改器
遞迴和平衡群組
替換參考
字元
配對文字和反向參照
內容和大小寫轉換
條件
本網站更多資訊
簡介
正規表示式快速開始
正規表示式教學
替換字串教學
應用程式和語言
正規表示式範例
正規表示式參考
替換字串參考

正規表示式 Unicode 語法參考

此參考頁面說明在字元類別外使用 Unicode 標記時,這些標記的作用。除了 \X 之外,所有這些標記都可以在字元類別內使用。在字元類別內,這些標記會將它們通常配對的字元新增到字元類別中。

功能語法說明範例.NET Java Perl PCRE PCRE2 PHP Delphi R JavaScript VBScript XRegExp Python Ruby std::regex Boost Tcl ARE POSIX BRE POSIX ERE GNU BRE GNU ERE Oracle XML XPath
音位 \X 配對單一 Unicode 音位,無論是以單一碼點或使用組合標記編碼為多個碼點。音位最接近日常概念中的「字元」。 \X 配對編碼為 U+0061 U+0300 的 à、編碼為 U+00E0 的 à、© 等。 否9是5.0是5.0.5是是否否否否2.0否ECMA
延伸
egrep
awk
否否否否否否否否
代碼點 \uFFFF 其中 FFFF 為 4 個十六進位數字 比對特定 Unicode 代碼點。 \u00E0 僅比對編碼為 U+00E0 的 à。 \u00A9 僅比對 © 是是否否否否否否是是是3.3
2.4 字串
1.9ECMA否是否否否否否否否
代碼點 \u{FFFF} 其中 FFFF 為 1 至 4 個十六進位數字 比對特定 Unicode 代碼點。 \u{E0} 僅比對編碼為 U+00E0 的 à。 \u{A9} 僅比對 © 否否否否否7.0.0 字串否否否否3否1.9否否否否否否否否否否
代碼點 \xFFFF 其中 FFFF 為 4 個十六進位數字 比對特定 Unicode 代碼點。 \x00E0 僅比對編碼為 U+00E0 的 à。 \x00A9 僅比對 © 否否否否否否否否否否否否否字串否8.4–8.5否否否否否否否
代碼點 \x{FFFF} 其中 FFFF 為 1 至 4 個十六進位數字 比對特定 Unicode 代碼點。 \x{E0} 僅比對編碼為 U+00E0 的 à。 \x{A9} 僅比對 © 否7是是是是是是否否否否否否ECMA
延伸
egrep
awk
否否否否否否否否
Unicode 類別 \pL 其中 L 是 Unicode 類別 比對指定 Unicode 類別中的單一 Unicode 代碼點。 \pL 比對編碼為 U+00E0 的 à;\pS 比對 © 否是是5.0是5.0.5是是否否3否否否否否否否否否否否否
Unicode 類別 \PL 其中 L 是 Unicode 類別 比對不在指定 Unicode 類別中的單一 Unicode 代碼點。 \PS 比對編碼為 U+00E0 的 à;\PL 比對 © 否是是5.0是5.0.5是是否否3否否否否否否否否否否否否
Unicode 類別 \p{L} 其中 L 是 Unicode 類別 比對指定 Unicode 類別中的單一 Unicode 代碼點。 \p{L} 比對編碼為 U+00E0 的 à;\p{S} 比對 © 是是是5.0是5.0.5是是否否是否1.9否否否否否否否否是是
Unicode 類別 \p{IsL} 其中 L 是 Unicode 類別 比對指定 Unicode 類別中的單一 Unicode 代碼點。 \p{IsL} 比對編碼為 U+00E0 的 à;\p{IsS} 比對 © 否是是否否否否否否否否否否否否否否否否否否否否
Unicode 類別 \p{Category} 比對指定 Unicode 類別中的單一 Unicode 代碼點。 \p{Letter} 比對編碼為 U+00E0 的 à;\p{Symbol} 比對 © 否否是否否否否否否否是否1.9否否否否否否否否否否
Unicode 類別 \p{IsCategory} 比對指定 Unicode 類別中的單一 Unicode 代碼點。 \p{IsLetter} 符合編碼為 U+00E0 的 à;\p{IsSymbol} 符合 © 否否是否否否否否否否否否否否否否否否否否否否否
Unicode 碼 \p{Script} 符合屬於指定 Unicode 碼的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個碼。碼從不包含未指派的碼點。 \p{Greek} 符合 Ω 否否是6.5是5.1.3是是否否是否1.9否否否否否否否否否否
Unicode 碼 \p{IsScript} 符合屬於指定 Unicode 碼的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個碼。碼從不包含未指派的碼點。 \p{IsGreek} 符合 Ω 否7是否否否否否否否否否否否否否否否否否否否否
Unicode 區塊 \p{Block} 符合屬於指定 Unicode 區塊的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個區塊。區塊可能包含未指派的碼點。 \p{Arrows} 符合從 U+2190 到 U+21FF (← 到 ⇿) 的任何碼點 否否是否否否否否否否否否否否否否否否否否否否否
Unicode 區塊 \p{InBlock} 符合屬於指定 Unicode 區塊的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個區塊。區塊可能包含未指派的碼點。 \p{InArrows} 符合從 U+2190 到 U+21FF (← 到 ⇿) 的任何碼點 否是是否否否否否否否2–4否2.0否否否否否否否否否否
Unicode 區塊 \p{IsBlock} 符合屬於指定 Unicode 區塊的單一 Unicode 碼點。每個 Unicode 碼點都屬於一個區塊。區塊可能包含未指派的碼點。 \p{IsArrows} 符合從 U+2190 到 U+21FF (← 到 ⇿) 的任何碼點 是否是否否否否否否否否否否否否否否否否否否是是
否定的 Unicode 屬性 \P{Property} 符合不具備指定屬性(類別、碼或區塊)的單一 Unicode 碼點。 \P{L} 符合 © 是是是5.0是5.0.5是是否否是否1.9否ECMA
延伸
egrep
awk
否否否否否否是是
否定的 Unicode 屬性 \p{^Property} 符合不具備指定屬性(類別、碼或區塊)的單一 Unicode 碼點。 \p{^L} 符合 © 否否是5.0是5.0.5是是否否是否1.9否否否否否否否否否否
Unicode 屬性 \P{^Property} 符合具有指定屬性(類別、碼或區塊)的單一 Unicode 碼點。雙重否定視為肯定。 \P{^L} 符合 q 否否是5.0是5.0.5是是否否否否1.9否否否否否否否否否否
功能語法說明範例.NET Java Perl PCRE PCRE2 PHP Delphi R JavaScript VBScript XRegExp Python Ruby std::regex Boost Tcl ARE POSIX BRE POSIX ERE GNU BRE GNU ERE Oracle XML XPath
Regular Expression Unicode Syntax Reference
  • 简
  • 繁
  • En
About Regular Expressions » Regular Expressions Reference » Regular Expression Unicode Syntax Reference

Regex Reference
Introduction
Table of Contents
Quick Reference
Characters
Basic Features
Character Classes
Shorthands
Anchors
Word Boundaries
Quantifiers
Unicode
Capturing Groups & Backreferences
Named Groups & Backreferences
Special Groups
Mode Modifiers
Recursion & Balancing Groups
Replacement Reference
Characters
Matched Text & Backreferences
Context & Case Conversion
Conditionals
More on This Site
Introduction
Regular Expressions Quick Start
Regular Expressions Tutorial
Replacement Strings Tutorial
Applications and Languages
Regular Expressions Examples
Regular Expressions Reference
Replacement Strings Reference

Regular Expression Unicode Syntax Reference

This reference page explains what the Unicode tokens do when used outside character classes. All of these except \X can also be used inside character classes. Inside a character class, these tokens add the characters that they normally match to the character class.

FeatureSyntaxDescriptionExample.NET Java Perl PCRE PCRE2 PHP Delphi R JavaScript VBScript XRegExp Python Ruby std::regex Boost Tcl ARE POSIX BRE POSIX ERE GNU BRE GNU ERE Oracle XML XPath
Grapheme \X Matches a single Unicode grapheme, whether encoded as a single code point or multiple code points using combining marks. A grapheme most closely resembles the everyday concept of a “character”. \X matches à encoded as U+0061 U+0300, à encoded as U+00E0, ©, etc. no9YES5.0YES5.0.5YESYESnononono2.0noECMA
extended
egrep
awk
nononononononono
Code point \uFFFF where FFFF are 4 hexadecimal digits Matches a specific Unicode code point. \u00E0 matches à encoded as U+00E0 only. \u00A9 matches © YESYESnonononononoYESYESYES3.3
2.4 string
1.9ECMAnoYESnonononononono
Code point \u{FFFF} where FFFF are 1 to 4 hexadecimal digits Matches a specific Unicode code point. \u{E0} matches à encoded as U+00E0 only. \u{A9} matches © nonononono7.0.0 stringnononono3no1.9nononononononononono
Code point \xFFFF where FFFF are 4 hexadecimal digits Matches a specific Unicode code point. \x00E0 matches à encoded as U+00E0 only. \x00A9 matches © nononononononononononononostringno8.4–8.5nonononononono
Code point \x{FFFF} where FFFF are 1 to 4 hexadecimal digits Matches a specific Unicode code point. \x{E0} matches à encoded as U+00E0 only. \x{A9} matches © no7YESYESYESYESYESYESnonononononoECMA
extended
egrep
awk
nononononononono
Unicode category \pL where L is a Unicode category Matches a single Unicode code point in the specified Unicode category. \pL matches à encoded as U+00E0; \pS matches © noYESYES5.0YES5.0.5YESYESnono3nononononononononononono
Unicode category \PL where L is a Unicode category Matches a single Unicode code point that is not in the specified Unicode category. \PS matches à encoded as U+00E0; \PL matches © noYESYES5.0YES5.0.5YESYESnono3nononononononononononono
Unicode category \p{L} where L is a Unicode category Matches a single Unicode code point in the specified Unicode category. \p{L} matches à encoded as U+00E0; \p{S} matches © YESYESYES5.0YES5.0.5YESYESnonoYESno1.9nonononononononoYESYES
Unicode category \p{IsL} where L is a Unicode category Matches a single Unicode code point in the specified Unicode category. \p{IsL} matches à encoded as U+00E0; \p{IsS} matches © noYESYESnononononononononononononononononononono
Unicode category \p{Category} Matches a single Unicode code point in the specified Unicode category. \p{Letter} matches à encoded as U+00E0; \p{Symbol} matches © nonoYESnononononononoYESno1.9nononononononononono
Unicode category \p{IsCategory} Matches a single Unicode code point in the specified Unicode category. \p{IsLetter} matches à encoded as U+00E0; \p{IsSymbol} matches © nonoYESnononononononononononononononononononono
Unicode script \p{Script} Matches a single Unicode code point that is part of the specified Unicode script. Each Unicode code point is part of exactly one script. Scripts never contain unassigned code points. \p{Greek} matches Ω nonoYES6.5YES5.1.3YESYESnonoYESno1.9nononononononononono
Unicode script \p{IsScript} Matches a single Unicode code point that is part of the specified Unicode script. Each Unicode code point is part of exactly one script. Scripts never contain unassigned code points. \p{IsGreek} matches Ω no7YESnononononononononononononononononononono
Unicode block \p{Block} Matches a single Unicode code point that is part of the specified Unicode block. Each Unicode code point is part of exactly one block. Blocks may contain unassigned code points. \p{Arrows} matches any of the code points from U+2190 until U+21FF (← until ⇿) nonoYESnononononononononononononononononononono
Unicode block \p{InBlock} Matches a single Unicode code point that is part of the specified Unicode block. Each Unicode code point is part of exactly one block. Blocks may contain unassigned code points. \p{InArrows} matches any of the code points from U+2190 until U+21FF (← until ⇿) noYESYESnonononononono2–4no2.0nononononononononono
Unicode block \p{IsBlock} Matches a single Unicode code point that is part of the specified Unicode block. Each Unicode code point is part of exactly one block. Blocks may contain unassigned code points. \p{IsArrows} matches any of the code points from U+2190 until U+21FF (← until ⇿) YESnoYESnonononononononononononononononononoYESYES
Negated Unicode property \P{Property} Matches a single Unicode code point that does not have the specified property (category, script, or block). \P{L} matches © YESYESYES5.0YES5.0.5YESYESnonoYESno1.9noECMA
extended
egrep
awk
nonononononoYESYES
Negated Unicode property \p{^Property} Matches a single Unicode code point that does not have the specified property (category, script, or block). \p{^L} matches © nonoYES5.0YES5.0.5YESYESnonoYESno1.9nononononononononono
Unicode property \P{^Property} Matches a single Unicode code point that does have the specified property (category, script, or block). Double negative is taken as positive. \P{^L} matches q nonoYES5.0YES5.0.5YESYESnononono1.9nononononononononono
FeatureSyntaxDescriptionExample.NET Java Perl PCRE PCRE2 PHP Delphi R JavaScript VBScript XRegExp Python Ruby std::regex Boost Tcl ARE POSIX BRE POSIX ERE GNU BRE GNU ERE Oracle XML XPath
©2015-2025 艾丽卡 support@alaica.com