分词

nltk.sent_tokenize(text) #按句子分割 
nltk.word_tokenize(sentence) #分词 
nltk的分词是句子级别的,所以对于一篇文档首先要将文章按句子进行分割,然后句子进行分词: 
这里写图片描述

http://www.pythontip.com/blog/post/10012/ 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐