在 Hugging Face 上使用 Instruct Embeddings

嵌入（Embeddings）是将文本或图像转换为数值向量的过程，这些数值向量可以被机器学习模型用于各种任务，如分类、检索或聚类。Hugging Face 提供了一系列预训练模型，可以方便地生成这些嵌入。

dgay_hua

423人浏览 · 2025-03-22 09:22:49

dgay_hua · 2025-03-22 09:22:49 发布

在 Hugging Face 上使用 Instruct Embeddings

Hugging Face 的 sentence-transformers 是一个用于生成最先进的句子、文本和图像嵌入的 Python 框架。在这个框架中，HuggingFaceInstructEmbeddings 类提供了一种简单有效的方法来使用 instruct embedding 模型进行文本检索任务。

技术背景介绍

核心原理解析

在 Hugging Face 中，HuggingFaceInstructEmbeddings 类通过加载预训练的 INSTRUCTOR 模型来生成嵌入。这些模型通常已在大规模数据集上进行训练，以提供高质量的向量表示。query_instruction 参数用于定义如何将输入文本转换为适合检索的查询嵌入。

代码实现演示

下面是一个实用的示例代码，展示了如何使用 HuggingFaceInstructEmbeddings 来生成文本嵌入：

from langchain_community.embeddings import HuggingFaceInstructEmbeddings

# 初始化嵌入模型，并设置查询指令
embeddings = HuggingFaceInstructEmbeddings(
    query_instruction="Represent the query for retrieval: "
)

# 输入文本
text = "This is a test document."

# 生成查询嵌入
query_result = embeddings.embed_query(text)

# 输出嵌入结果
print(query_result)