2008-05-13
python 正则表达式匹配中文utf8
>>> import re
>>> x = u'中国'.encode('utf8')
>>> s = x.__repr__()
>>> s
"'\\xc3\\x96\\xc3\\x90\\xc2\\xb9\\xc3\\xba'"
>>> pattern = '.*%s.*' % s[1:-1]
>>> pattern
'.*\\xc3\\x96\\xc3\\x90\\xc2\\xb9\\xc3\\xba.*'
>>> r = re.match(pattern,u'我是中国人'.encode('utf8'))
>>> r
<_sre.SRE_Match object at 0x012A52C0>
>>> dir(r)
['__copy__', '__deepcopy__', 'end', 'expand', 'group', 'groupdict', 'groups', 'span', 'start']
>>> r.group()
'\xc3\x8e\xc3\x92\xc3\x8a\xc3\x87\xc3\x96\xc3\x90\xc2\xb9\xc3\xba\xc3\x88\xc3\x8b'
>>>
我很懒,看代码吧
发表评论
- 浏览: 4519 次
- 性别:

- 来自: 北京

- 详细资料
搜索本博客
最近加入圈子
最新评论
-
jboss rules brms和ruleAg ...
楼主能把完整的文档贴出来吗
-- by dong_ta -
jboss rules brms和ruleAg ...
我用代理怎么老是出现这种错误啊!麻烦给指点一下哈!我的版本一致. RuleAge ...
-- by chunchun_1010 -
jboss rules brms和ruleAg ...
我在创建新的Rule时,在"Add a condition to the rul ...
-- by myim -
我的第一个Ajax Wicket ...
个人感觉javaeye的圈子似乎有些冷清。我觉得可能跟javaeye即有圈子,又 ...
-- by tailorcai -
我的第一个Ajax Wicket ...
为啥不加入wicket的圈子,然后把这两篇文章放到圈子博客里呢
-- by fakechris






评论排行榜