正则判断中文韩文的编码范围

2015年07月19日 20:57 by:唠吧小站

正则表达式经常来判断中文和韩文等非英文字符,备份一下这些编码的范围以方便查询。

在正则表达式中经常要判断中文,gbk编码是双字节,而utf8是三字节

GBK编码范围 GBK (GB2312/GB18030)

  • x00-xff GBK双字节编码范围
  • x20-x7f ASCII

  1. xa1-xff 中文
  2. x80-xff 中文

UTF-8 (Unicode)编码范围

  1. u4e00-u9fa5 (中文)
  2. x3130-x318F (韩文
  3. xAC00-xD7A3 (韩文)
  4. u0800-u4e00 (日文)

ps: 韩文是大于[u9fa5]的字符