机器学习之使用TF-IDF算法进行文本特征的提取

TF-IDF的主要思想如果一个词或短语在某一篇文章中出现的概率很高，并且在其它文章中很少出现，则认为该词或短语具有很好的类别区分能力，适合用来分类TF-IDF的作用用以评估一个词语对于一个文件或者一个语料库中的其中一份文件的重要程度TF-IDF公式词频（term frequency，简称TF），指的是某一个给定的词语在该文件中出现的频率；逆向文档频率（inverse document freque

ccgkk

3521人浏览 · 2022-03-08 21:10:05

ccgkk · 2022-03-08 21:10:05 发布

TF-IDF的主要思想

如果一个词或短语在某一篇文章中出现的概率很高，并且在其它文章中很少出现，则认为该词或短语具有很好的类别区分能力，适合用来分类

TF-IDF的作用

用以评估一个词语对于一个文件或者一个语料库中的其中一份文件的重要程度

TF-IDF公式

词频（term frequency，简称TF），指的是某一个给定的词语在该文件中出现的频率；
逆向文档频率（inverse document frequency，简称IDF）是一个词语普遍重要性的重要度量。某一特定词语idf由总文件数目除以包含该词语文件的数目，再将得到的商取以10为底数得到

TF-IDF=TF*IDF     #衡量一个词语的重要程度

Sklearn中API（如果不了解建议去了解一哈Skelearn，能直接计算TF-IDF）

sklearn.feature_extraction.text.TfidfVectorizer(stop_words=[],.......)

TfidfVectorizer.fit_transform(X)
X表示传入的文本，返回值为sparse矩阵
TfidfVectorizer.inverse_transform(X)
X表示array数组或者sparse矩阵，返回值为转换之前的数据格式
TfidfVectorizer.get_feature_names()
返回值为单词列表

实例如下（直接全部粘贴到PyChram即可使用，注意导入相关依赖包，如果没有及时下载）

# 针对中文分词
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer


def cut_word(text):
    new_text = " ".join(list(jieba.cut(text)))
    print(new_text)
    return new_text
#tf-idf实列
def tfidf_demo():
    data = ["老沈是一名网约车司机，晚上是他最忙的时段。他经常在饭店门口等那些喝醉了酒的客人。",
            "老主顾把胖子塞进车后座，对老沈大声地说道：“先到长城花园，顺路顺路，先把李总送回家。”",
            "那姑娘报了一个地名，老主顾眼都不眨地说道：“顺路顺路，刚好先送你到家。”"]
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    # 1、生成一个转换器
    transfer = TfidfVectorizer(stop_words=["，","。",'"',"："])
    # 2、调用fit_transform
    data_finale = transfer.fit_transform(data_new)
    print("特征名字：\n", transfer.get_feature_names())
    print("data_new:\n", data_finale.toarray())
    return


if __name__ == '__main__':
    tfidf_demo()

相关实战项目Python文本相似度识别（附图形化界面）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

计算机视觉（opencv）实战——人脸识别：LBPH / Eigen / Fisher 综合使用指南（训练、保存、加载、预测与调优）

收集至少 5~10 张/人的多光照、多表情照片（LBPH 少量也能用）。用级联/关键点检测裁切并对齐人脸，转为灰度并统一尺寸（如 200×200）。做直方图均衡或其他归一化。按目录加载数据，构建。选择识别器（LBPH/Eigen/Fisher），进行train()。使用验证集调参并设定confidence阈值。save()模型与 label 映射。部署时read()模型，并在实时流中检测 -> 预

2048 AI社区

自定义Traits应用

重新排列范围，使得指定位置的元素等于排序后的元素，并且左边的元素都不大于它，右边的元素都不小于它。算法的原理是 “覆盖” 要删除的元素，将保留的元素移到前面，返回新的逻辑尾迭代器，但。对范围内的每个元素应用一个函数，并将结果存储在另一个范围内。移除范围内连续的重复元素，返回新的逻辑结尾迭代器。旋转范围内的元素，使中间元素成为新的第一个元素。这些算法不会改变它们所操作的容器中的元素。这些算法会修改它

2048 AI社区

【深度学习】一个基于 Q-learning学习在赛道环境中如何做出最优决策，让智能体能够沿着赛道行驶附Matlab代码

在自动驾驶仿真、竞速游戏 AI、无人车测试等场景中，“赛道环境智能体行驶” 的核心需求是让智能体（如虚拟车辆、无人车模型）在预设赛道内（含直道、弯道、障碍物）自主做出转向、加速、减速等决策，实现 “无碰撞行驶 + 最优路径跟踪”—— 既要避免冲出赛道边界或碰撞障碍，又要尽可能沿赛道中心线行驶以保证行驶效率。传统赛道行驶控制多依赖 “预编程规则”（如固定弯道转向角度、直道匀速策略），但面对复杂赛道（