nltk.sent_tokenize() nltk.word_tokenize()利用分句子，分词，

分词nltk.sent_tokenize(text) #按句子分割nltk.word_tokenize(sentence) #分词nltk的分词是句子级别的，所以对于一篇文档首先要将文章按句子进行分割，然后句子进行分词：http://www.pythontip.com/blog/post/10012/...

贾世林jiashilin

28447人浏览 · 2019-07-02 22:47:25

贾世林jiashilin · 2019-07-02 22:47:25 发布

分词

nltk.sent_tokenize(text) #按句子分割
nltk.word_tokenize(sentence) #分词
nltk的分词是句子级别的，所以对于一篇文档首先要将文章按句子进行分割，然后句子进行分词：
这里写图片描述

http://www.pythontip.com/blog/post/10012/

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

稿定 AI 文生图实战指南：技术原理 + 商业落地，零门槛高效出图

2048 AI社区

AI驱动的论文创作工具盘点：十大AIGC降重与内容生成利器

2048 AI社区

2026理工科本科论文写作全指南：算法、代码与图表规范实操详解

对于正被论文中的代码、流程图、算法描述等规范问题困扰的理工科本科生而言，真正需要的不是一个能够“无所不能”的通用AI，而是一个懂论文结构、懂算法表达、懂实验呈现、懂学校规范的论文级辅助工具。它能帮助学生将已经完成的实验、编写的代码、梳理的思路，以符合本科论文要求的规范形式呈现出来，让学生摆脱格式困扰，专注于内容本身，高效完成论文撰写，顺利实现毕业目标。雷小兔内置的代码与算法生成工具，核心功能并非替