博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python tokenizer
阅读量:4349 次
发布时间:2019-06-07

本文共 669 字,大约阅读时间需要 2 分钟。

# -*- coding: utf-8 -*-

from janome.tokenizer import Tokenizer
import codecs
import sys
import os

def analyze(path):

fi = codecs.open(path, encoding="UTF-8")
lines = fi.readlines()
fi.close()
wordSet = set()
fo = codecs.open(path + "x" , "w")
t = Tokenizer()
tokenStr = None
for line in lines:
for token in t.tokenize(line):
tokenStr = str(token)
if (tokenStr.find("記号") < 0) and (tokenStr.find("人名")) < 0:
wordSet.add(tokenStr.split(",")[6])
#print(wordSet)
wordList = list(wordSet)
#fo.write(wordSet.pop() + "\r\n")
for item in wordList:
fo.write(item + "\r\n")
fo.close()
analyze("C:\\Users\\70485528\\mymail.txt")

转载于:https://www.cnblogs.com/corgiwmh/p/6604732.html

你可能感兴趣的文章
MySQL binlog数据库同步技术总结
查看>>
静态方法
查看>>
保护HTTP的安全
查看>>
js 选取子节点时去除非IE浏览器的换行符
查看>>
javascript是一朵奇葩
查看>>
Mycat入门教程
查看>>
关于"无法解析的外部符号"问题的解决
查看>>
【JavaScript】【译】编写高性能JavaScript
查看>>
【随笔】入行必读:互联网行业薪酬等级
查看>>
Android使用开源框架加载图片
查看>>
CLR是怎么加载到内存的?
查看>>
fckeditor
查看>>
backbone.js
查看>>
python类的特殊成员变量
查看>>
sublime text3最新版本注册码(build 3143)
查看>>
linux使用技巧
查看>>
必背公式及常数
查看>>
利用CSS、JavaScript及Ajax实现图片预加载的三大方法
查看>>
EntityManager的merge()方法
查看>>
Spring中线程池的应用
查看>>