零基础入门：用 Python 写一个简单的 AI 文本分类器

百***0125

1006人浏览 · 2026-01-12 21:23:43

百***0125 · 2026-01-12 21:23:43 发布

环境准备

安装必要的库：scikit-learn 和 numpy。通过以下命令安装：

pip install scikit-learn numpy

数据准备

使用简单的示例数据，包含文本和对应的标签（如正面/负面）：

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# 示例数据：文本和标签（0=负面，1=正面）
texts = ["I love this movie", "This is terrible", "Great film", "Worst experience"]
labels = [1, 0, 1, 0]

特征提取

将文本转换为数值特征（词频向量）：

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

模型训练

使用朴素贝叶斯分类器进行训练：

model = MultinomialNB()
model.fit(X, labels)

预测新文本

对新输入的文本进行分类预测：

new_texts = ["Awesome movie", "Not good"]
X_new = vectorizer.transform(new_texts)
predictions = model.predict(X_new)

print("预测结果:", predictions)  # 输出示例：[1 0]

完整代码

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# 数据
texts = ["I love this movie", "This is terrible", "Great film", "Worst experience"]
labels = [1, 0, 1, 0]

# 特征提取
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# 训练模型
model = MultinomialNB()
model.fit(X, labels)

# 预测
new_texts = ["Awesome movie", "Not good"]
X_new = vectorizer.transform(new_texts)
predictions = model.predict(X_new)

print("预测结果:", predictions)

扩展说明

如需处理更复杂的数据，可改用 TfidfVectorizer 替代 CountVectorizer。
模型可替换为 SVM 或 RandomForest，需调整 sklearn 的对应模块。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

【LangGraph实战】《LangGraph实战》_62.[第3章状态图结构] X-Ray子图可视化：透视复杂智能体的内部结构

cover

SynaCore AM-DT：重新定义液压歧管3D打印的价值创造

cover

【LangGraph实战】《LangGraph实战》_63.[第3章状态图结构] 状态图设计模式总结：从简单到复杂的演进路径

所有评论(0)

查看更多评论

百***0125

已为社区贡献3条内容