实验4 词向量训练

实验四，自然语言处理实验

漾Tsui

460人浏览 · 2024-03-22 18:51:40

漾Tsui · 2024-03-22 18:51:40 发布

必做题：

数据准备：数据集包含100个文件，每个文件里面有多个从维基百科上爬取的内容，每一条以字典形式保存，分为id，url，title，text四个字段，使用text字段的文本训练词向量。

读取‘text’字段的文本，并使用jieba进行分词。

使用Gensim工具训练词向量，训练方法为Skip-gram，向量维度为100，上下文窗口大小为5，使用负采样方式训练模型。

训练完成以后输出词频排名前十的单词向量，并根据训练的词向量找出以下单词最相近的5个单词：“经济”、“铁路”、“科技”、“生活”。要给出每一部分的代码。

代码

import jieba
import os
from gensim.models import Word2Vec

# 数据准备
data_directory = 'C:\\Users\\hp\\Desktop\\实验4\\实验4数据'  # 替换为包含100个文件的目录
sentences = []

# 读取文件并进行分词
for file_name in os.listdir(data_directory):
    with open(os.path.join(data_directory, file_name), 'r', encoding='utf-8') as file:
        data = file.readlines()
        for item in data:
            text = eval(item)['text']
            words = jieba.lcut(text)
            sentences.append(words)

# 使用jieba进行分词
segmented_texts = [' '.join(words) for words in sentences]

# 训练词向量
model = Word2Vec(sentences, sg=1, vector_size=100, window=5, negative=5)

# 输出词频排名前十的单词向量
word_frequencies = model.wv.index_to_key[:10]
print("词频排名前十的单词向量：")
for word in word_frequencies:
    print(word, model.wv[word])

# 找出最相近的单词
similar_words = ["经济", "铁路", "科技", "生活"]
print("与以下单词最相近的五个单词：")
for word in similar_words:
    print(word, model.wv.most_similar(word, topn=5))

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

穿透AI Agent五大范式：从理论到实践的系统化认知

随着大语言模型(LLM)的成熟，AI Agent技术正在重塑人机交互模式。与传统聊天机器人不同，Agent具备"理解目标→拆解任务→调用工具→接收反馈→修正错误"的闭环能力，本质上是一套带决策能力的自主系统。在实际工程落地中，开发者面临的核心挑战是如何选择合适的架构范式。本文基于生产环境实践经验，深度剖析五大范式的本质区别、适用场景和落地策略。AI Agent的五大范式各有其设计初衷和适用场景。理