python实现统计汉字／英文单词数的正则表达式

作者：字体：[增加减小] 来源：互联网时间：2017-05-11

通过本文主要向大家介绍了python正则匹配汉字,python unicode转汉字,python中输出汉字,python 汉字编码,python 汉字等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com

思路

•使用正则式 "(?x) (?: [\w-]+ | [\x80-\xff]{3} )"获得utf-8文档中的英文单词和汉字的列表。
•使用dictionary来记录每个单词／汉字出现的频率，如果出现过则＋1，如果没出现则置1。
•将dictionary按照value排序，输出。

源码
•可以使用这样的正则表达式先对整个文件预处理一下，去掉可能的html tags: content=re.sub(r"<[^>]+","",content)，这样的结果对于某些文档更精确。 </div>