星期六, 2020-04-04 14:25 — adminshiping1

<?php

$str = "a 1b 2b＜中文＞。xxyy字符";

//转换 GB2312 -> UTF-8

$str = mb_convert_encoding($str, 'UTF-8', 'GB2312');

preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str, $matches);

// 右边这个是匹配英文,数字0至9及中文 '/[a-zA-Z0-9\x{4e00}-\x{9fff}]+/u'

$str = join('', $matches[0]);

//转换 UTF-8 -> GB2312

$str = mb_convert_encoding($str, 'GB2312', 'UTF-8'); 

echo $str; //输出 中文字符

?>

//下面这个是过滤掉除了英文,数字0至9及中文

$json_file_content = preg_replace('/[^a-zA-Z0-9\x{4e00}-\x{9fa5}]+/u', '', $json_file_content);

来自 https://www.jb51.net/article/67234.htm

正则表达式的\x{4e00}-\x{9fa5}中的 x 是什么意思

 我来答举报

3个回答

#热议# 抗疫期间，身边哪些平凡人做了不平凡的事？

_月落之汀
2017-07-26

\x表示的是十六进制，这个应该是匹配中文unicode编码的

评论举报

albumin
2015-07-23

\x表示十六进制
4e00-9fa5表示汉字的十六进制unicode编码

追问

16进制不是0x么

评论(1) 举报

穆荇
2017-06-20

\x：匹配ASCII

\x{4e00}-\x{9fa5}：匹配汉字

来自 https://zhidao.baidu.com/question/1176314173867100939.html

想做一个程序，统计一片文章的汉字个数，但是不知道汉字的unicode码，谁知道的帮帮我~谢谢了
0 2008-06-29 00:14:48
回复数 15 只看楼主引用举报楼主

liango
版主
unicode码的分布情况，够清楚了吧！不仅汉字，什么都有了！
  *******************************************************
  0000..007F;   Basic   Latin
  0080..00FF;   Latin-1   Supplement
  0100..017F;   Latin   Extended-A
  0180..024F;   Latin   Extended-B
  0250..02AF;   IPA   Extensions
  02B0..02FF;   Spacing   Modifier   Letters
  0300..036F;   Combining   Diacritical   Marks
  0370..03FF;   Greek
  0400..04FF;   Cyrillic
  0530..058F;   Armenian
  0590..05FF;   Hebrew
  0600..06FF;   Arabic
  0700..074F;   Syriac
  0780..07BF;   Thaana
  0900..097F;   Devanagari
  0980..09FF;   Bengali
  0A00..0A7F;   Gurmukhi
  0A80..0AFF;   Gujarati
  0B00..0B7F;   Oriya
  0B80..0BFF;   Tamil
  0C00..0C7F;   Telugu
  0C80..0CFF;   Kannada
  0D00..0D7F;   Malayalam
  0D80..0DFF;   Sinhala
  0E00..0E7F;   Thai
  0E80..0EFF;   Lao
  0F00..0FFF;   Tibetan
  1000..109F;   Myanmar
  10A0..10FF;   Georgian
  1100..11FF;   Hangul   Jamo
  1200..137F;   Ethiopic
  13A0..13FF;   Cherokee
  1400..167F;   Unified   Canadian   Aboriginal   Syllabics
  1680..169F;   Ogham
  16A0..16FF;   Runic
  1780..17FF;   Khmer
  1800..18AF;   Mongolian
  1E00..1EFF;   Latin   Extended   Additional
  1F00..1FFF;   Greek   Extended
  2000..206F;   General   Punctuation
  2070..209F;   Superscripts   and   Subscripts
  20A0..20CF;   Currency   Symbols
  20D0..20FF;   Combining   Marks   for   Symbols
  2100..214F;   Letterlike   Symbols
  2150..218F;   Number   Forms
  2190..21FF;   Arrows
  2200..22FF;   Mathematical   Operators
  2300..23FF;   Miscellaneous   Technical
  2400..243F;   Control   Pictures
  2440..245F;   Optical   Character   Recognition
  2460..24FF;   Enclosed   Alphanumerics
  2500..257F;   Box   Drawing
  2580..259F;   Block   Elements
  25A0..25FF;   Geometric   Shapes
  2600..26FF;   Miscellaneous   Symbols
  2700..27BF;   Dingbats
  2800..28FF;   Braille   Patterns
  2E80..2EFF;   CJK   Radicals   Supplement
  2F00..2FDF;   Kangxi   Radicals
  2FF0..2FFF;   Ideographic   Description   Characters
  3000..303F;   CJK   Symbols   and   Punctuation
  3040..309F;   Hiragana
  30A0..30FF;   Katakana
  3100..312F;   Bopomofo
  3130..318F;   Hangul   Compatibility   Jamo
  3190..319F;   Kanbun
  31A0..31BF;   Bopomofo   Extended
  3200..32FF;   Enclosed   CJK   Letters   and   Months
  3300..33FF;   CJK   Compatibility
  3400..4DB5;   CJK   Unified   Ideographs   Extension   A
  4E00..9FFF;   CJK   Unified   Ideographs
  A000..A48F;   Yi   Syllables
  A490..A4CF;   Yi   Radicals
  AC00..D7A3;   Hangul   Syllables
  D800..DB7F;   High   Surrogates
  DB80..DBFF;   High   Private   Use   Surrogates
  DC00..DFFF;   Low   Surrogates
  E000..F8FF;   Private   Use
  F900..FAFF;   CJK   Compatibility   Ideographs
  FB00..FB4F;   Alphabetic   Presentation   Forms
  FB50..FDFF;   Arabic   Presentation   Forms-A
  FE20..FE2F;   Combining   Half   Marks
  FE30..FE4F;   CJK   Compatibility   Forms
  FE50..FE6F;   Small   Form   Variants
  FE70..FEFE;   Arabic   Presentation   Forms-B
  FEFF..FEFF;   Specials
  FF00..FFEF;   Halfwidth   and   Fullwidth   Forms
  FFF0..FFFD;   Specials
  10300..1032F;   Old   Italic
  10330..1034F;   Gothic
  10400..1044F;   Deseret
  1D000..1D0FF;   Byzantine   Musical   Symbols
  1D100..1D1FF;   Musical   Symbols
  1D400..1D7FF;   Mathematical   Alphanumeric   Symbols
  20000..2A6D6;   CJK   Unified   Ideographs   Extension   B
  2F800..2FA1F;   CJK   Compatibility   Ideographs   Supplement
  E0000..E007F;   Tags
  F0000..FFFFD;   Private   Use
  100000..10FFFD;   Private   Use

1 2008-06-29 00:20:43

unicode 码范围注：中文范围 4E00-9FBF：CJK 统一表意符号 (CJK Unified Ideographs)   0000-007F：C0控制符及基本拉丁文 (C0 Control and Basic Latin)   0080-00FF：C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement)   0100-017F：拉丁文扩展-A (Latin E

sd5816690
怎么网上都说的是 [\u4e00-\u9fa5] 呢，
我也一直在用 [\u4e00-\u9fa5]
0 2008-06-29 00:26:25

正则相关 unicode编码范围：汉字：[0x4e00,0x9fa5]（或十进制[19968,40869]）数字：[0x30,0x39]（或十进制[48, 57]）小写字母：[0x61,0x7a]（或十进制[97, 122]）大写字母：[0x41,0x5a]（或十进制[65, 90]）

54powerman
版主
mark备查，不接分。
0 2008-06-29 00:57:29

sd5816690
引用 4 楼 lord_is_layuping 的回复:
对中文还是u4e00~u9fff比较好些.

哦
0 2008-06-29 00:59:13

Unicode中关于中文和其他特殊字符的编码范围编程中有时候需要用到匹配中文的正则，一般用 [ \u4e00-\u9fa5]+ 即可搞定。不过这正则对一般的火星文鸟语就不太适用了，甚至全角的标点符号都不包含在内。例如游戏里面的玩家名，普通青年一般都是汉字，文艺青年会加几个特殊字符，2B青年火星文鸟语都会用上；这时候你就需要更强大的正则了。其实，游戏内大部分的玩家名都取自：中日韩统一表意文字（CJK Unified Ideog

火龙果被占用了
Unicode CJK 的范围分布在多个区段中，2 楼所贴出来的是整个 Unicode 中区块
表，带有 CJK 的区块名中都拥有汉字。但最常用的范围是 U+4E00～U+9FA5，即名
为：CJK Unified Ideographs 的区块，但 U+9FA6～U+9FFF 之间的字符还属于空码，
暂时还未定义，但不能保证以后不会被定义。

下面这个是 Unicode 中 U+4E00～U+9FFF 的码表：
http://www.unicode.org/charts/PDF/U4E00.pdf

在这里可以根据 Unicode 码查到所有的字符：
http://www.unicode.org/cgi-bin/GetUnihanData.pl

另：在正则表达式中使用 [\u4e00-\u9fa5] 这种方式属于写死的代码，并不能根据
平台所提供的字符集范围不同而改变，不过对于要求不是很高的话的是可以了。如果
对字符集的要求很高，可以采用下面的这种 Unicode 块的方式：

Java code
?
1
String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";

在当前的 JDK 版中与 [\u4e00-\u9fa5] 的意义一致。但这样可以匹配 Java 平台所支持
Unicode 块名为 CJK Unified Ideogrpahs 中已定义的字符，这种方式就属于“活”代码
今后的 JDK 版本升级了，定义到了 \u9fa6 的字符，同样能够满足匹配。
7 2008-06-29 01:17:31

Unicode Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Uni