利用jieba库对李之仪的《卜算子》进行分词

利用jieba库对李之仪的《卜算子》进行分词按照单词出现的次数从高到低排序。因为字典类型是无序的，无法排序，因此将counts转为列表类型(列表排序的知识点详见“python中列表的sort方法使用详解”)。查看排序后的结果。import jiebatxt ='''卜算子【宋】李之仪我住长江头，君住长江尾。日日思君不见君，共饮长江水。此水几时休，此恨何时已。只愿君心似我心，定不...

shangxianjiao

4320人浏览 · 2020-04-30 16:20:23

shangxianjiao · 2020-04-30 16:20:23 发布

利用jieba库对李之仪的《卜算子》进行分词

按照单词出现的次数从高到低排序。因为字典类型是无序的，无法排序，因此将counts转为列表类型(列表排序的知识点详见“python中列表的sort方法使用详解”)。查看排序后的结果。


import jieba
txt ='''
卜算子
【宋】李之仪
我住长江头，君住长江尾。
日日思君不见君，共饮长江水。
此水几时休，此恨何时已。
只愿君心似我心，定不负相思意。
'''
words = jieba.lcut(txt)						#精确模式
counts = {}
for word in words:							#逐一遍历每一个汉字
    counts[word] = counts.get(word,0) + 1		#计数
items = list(counts.items())					#转化为列表类型
items.sort(key=lambda x:x[1], reverse=True)		#排序
for item in items:
    print(item)

为了增强排序后结果的可读性，利用format调整输出的格式。


import jieba
txt ='''
卜算子
【宋】李之仪
我住长江头，君住长江尾。
日日思君不见君，共饮长江水。
此水几时休，此恨何时已。
只愿君心似我心，定不负相思意。
'''
words = jieba.lcut(txt)		#精确模式
counts = {}
for word in words:							#逐一遍历每一个汉字
    counts[word] = counts.get(word,0) + 1		#计数
items = list(counts.items())					#转化为列表类型
items.sort(key=lambda x:x[1], reverse=True)		#排序
for item in items:
    word,count=item
    print("{0:<10}{1:>5}".format(word,count))

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026年AI数字人制作软件排行榜出炉，哪些软件能脱颖而出？

2048 AI社区

现代AI系统六大核心技术栈深度解析

现代AI系统核心技术栈解析摘要：本文系统剖析了现代AI系统的三大核心组件：LLM（大语言模型）、Agent（智能代理）和Skill（技能）。LLM作为AI的计算核心，采用Transformer架构，具备并行计算和矩阵运算能力，其训练范式包括预训练、监督微调和强化学习对齐。Agent类比操作系统内核，包含进程管理、内存管理、调度算法等核心组件，实现任务生命周期控制和资源分配。Skill则相当于应

2048 AI社区

工作记忆在AI原生游戏NPC中的革命性应用

你是否遇到过这样的游戏场景？第一次和NPC说“我明天来买你的剑”，三天后回来，他却像从未见过你一样重复：“要买我的剑吗？”这种“记忆断层”的NPC，是传统游戏AI的典型痛点。本文将聚焦“工作记忆”这一关键技术，探讨如何让NPC拥有“临时记忆能力”，实现更真实的动态交互。内容覆盖认知科学原理、AI算法实现、实战案例及未来趋势。本文将从“生活故事→核心概念→技术原理→实战代码→应用场景”逐步展开。