初识LLM API：环境配置与多轮对话演示

本文介绍了LLM API的基础使用，重点讲解了环境变量配置和多轮对话实现方法。主要内容包括：1）如何通过命令行或Python设置环境变量来存储API密钥；2）使用os.getenv()获取环境变量值；3）单轮对话API调用示例；4）多轮对话的实现原理（手动保存上下文）和代码演示；5）流式输出的实现方法。文章强调使用国内大模型API的门槛较低，无需深入理解AI原理，适合初学者快速上手。通过示例代码展

DJ小菊花

743人浏览 · 2025-11-12 22:35:12

DJ小菊花 · 2025-11-12 22:35:12 发布

初识LLM API：环境配置与多轮对话演示

前言

其实AI应用并不是一个什么很高大上的东西，你可以将它当作一个文字的"调库"行为，"调库"只需要知道库名就行了，这里实际也是如此。甚至你只需要知道你想问什么，将你的消息作为输入，就能从大模型得到输出。而这个"库"本身，是已经部署好了的，对于这样的一个黑盒的使用并没有太多的技术要求，不用担心自己的知识储备不够，因为这里并不需要你对AI本身有了解，也不需要你去训练一个AI，只是使用它。

毕竟在ChatGPT发布（2022.11.30）之前，AI应用并不广泛被需要，这是大模型兴起之后的自然产物。

使用国内大模型API是为了降低获取门槛。（不过获取步骤确实稍微复杂点，有种国内外教科书风格的差异感）

这里假设你已经获取到了API KEY
如果没有的话可以参考0. 大模型API获取步骤，阿里云将这个 API 命名为DASHSCOPE_API_KEY（灵积是阿里云推出的模型服务平台，DashScope 是灵积的英文名），不过为了更加通用，我们还是将其命名为OPENAI_API_KEY。

环境变量配置

环境变量是操作系统中以键值对形式存储的配置项，常用于保存敏感信息（如 API 密钥、数据库连接地址等），这样可以避免将这些私密的信息直接写在代码中。

你可以通过操作系统设置环境变量，或者直接在 Python 脚本中设置，二选一。

在命令提示符 (Windows) 中设置：

set OPENAI_API_KEY=your-api-key

通过 Python 程序设置环境变量：

import os
os.environ['OPENAI_API_KEY'] = 'your-api-key'

os.getenv()

os.getenv() 是 Python 中 os 模块的一个函数，用于获取系统环境变量的值，语法：

os.getenv('VARIABLE_NAME', default_value)

'VARIABLE_NAME': 要获取的环境变量的名称。
default_value (可选): 如果环境变量不存在，可以指定一个默认值，当环境变量未设置时将返回该默认值。

示例：

假设你已经配置好了 DASHSCOPE_API_KEY 的环境变量，并且你想在 Python 脚本中访问它：

import os
api_key = os.getenv('OPENAI_API_KEY')
print(api_key)  # 如果环境变量已设置，它将输出对应的值。

如果该环境变量没有设置，并且你希望提供一个默认值：

api_key = os.getenv('OPENAI_API_KEY', 'default_key')
print(api_key)  # 如果环境变量没有设置，它将输出 'default_key'。

演示

阿里 API

首先命令行安装 openai 库。

pip install openai

单轮对话

在安装完成后，用 Python 进行访问尝试，在这里我们使用通义千问-Turbo 进行演示。

from openai import OpenAI
import os

def get_response():
    client = OpenAI(
        api_key=os.getenv('OPENAI_API_KEY'),  # 如果你没有配置环境变量，使用"your-api-key"替换
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )
    completion = client.chat.completions.create(
        model="qwen-turbo",
        messages=[
            {'role': 'system', 'content': 'You are a helpful assistant.'},
            {'role': 'user', 'content': '你是谁？'}
        ]
    )
    print(completion.model_dump_json())

get_response()

注意：不要误用成 api_key=os.getenv("your-api-key")，os.getenv()用于获取对应系统环境变量的值，API本身并不是这个环境变量，正确的用法是 api_key="your-api-key"。

否则你就会遇到一个对于新手来讲不够直接的报错：OpenAIError: The api_key client option must be set either by passing api_key to the client or by setting the OPENAI_API_KEY environment variable。

多轮对话

之前的代码只提供了单轮的对话，没有历史记录，没有上下文，只是一个简单的临时对话，你可以将其理解为无痕浏览，关了就没了。

接下来，我们介绍多轮的对话，这里的轮指的是一次问答。模型本身并不会因为你的问题即时得到训练，所以也不会保留你之前的对话，那我们怎么去让模型知道呢？

答：朴素的手动保存上传。

from openai import OpenAI
import os

def get_response(messages):
    api_key = os.getenv('OPENAI_API_KEY', 'TripleH')
    if not api_key:
        raise ValueError("请设置环境变量 OPENAI_API_KEY")
    
    client = OpenAI(
        api_key=api_key, 
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )
    completion = client.chat.completions.create(
        model="qwen-turbo",
        messages=messages
    )
    return completion

messages = [{'role': 'system', 'content': 'You are a helpful assistant.'}]

# 您可以自定义设置对话轮数，当前为3
for i in range(3):
    try:
        user_input = input("请输入：")
        
        # 将用户问题信息添加到messages列表中，这部分等价于之前的单轮对话
        messages.append({'role': 'user', 'content': user_input})
        
        # 获取模型响应
        response = get_response(messages)
        
        # 检查响应是否有效
        if not response or not response.choices or len(response.choices) == 0:
            print("错误：模型返回了空响应")
            continue
            
        assistant_output = response.choices[0].message.content
        
        # 检查输出内容是否为空
        if assistant_output is None:
            print("错误：模型返回的内容为空")
            continue
        
        # 将大模型的回复信息添加到messages列表中，这里是历史记录，保存上下文
        messages.append({'role': 'assistant', 'content': assistant_output})
        print(f'用户输入：{user_input}')
        print(f'模型输出：{assistant_output}')
        print('\n')
        
    except Exception as e:
        print(f"发生错误：{str(e)}")
        print("请检查API密钥是否正确，网络连接是否正常\n")

流式输出

语言模型并不是直接得出完整的一句话，而是一个字一个字（其实是 Token，为了更大白话一点这里用字帮助理解）去生成的。前面的对话都是直接获取到了最终的生成结果，我们怎么得知它具体是怎么来的呢？

下面这部分相当于之前的单轮对话，只是改变了输出方式。

from openai import OpenAI
import os

def get_response_stream(messages):
    api_key = os.getenv('OPENAI_API_KEY', 'TripleH')
    if not api_key:
        raise ValueError("请设置环境变量 OPENAI_API_KEY")
    
    client = OpenAI(
        api_key=api_key, 
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )
    stream = client.chat.completions.create(
        model="qwen-turbo",
        messages=messages,
        stream=True  # 启用流式输出
    )
    return stream

messages = [{'role': 'system', 'content': 'You are a helpful assistant.'}]

# 您可以自定义设置对话轮数，当前为3
for i in range(3):
    try:
        user_input = input("请输入：")
        
        # 将用户问题信息添加到messages列表中，这部分等价于之前的单轮对话
        messages.append({'role': 'user', 'content': user_input})
        
        # 获取流式响应
        stream = get_response_stream(messages)
        
        # 打印用户输入
        print(f'用户输入：{user_input}')
        print('模型输出：', end='', flush=True)
        
        # 累积完整响应内容
        assistant_output = ""
        
        # 处理流式响应，逐块打印
        for chunk in stream:
            if chunk.choices and len(chunk.choices) > 0:
                delta = chunk.choices[0].delta
                if hasattr(delta, 'content') and delta.content:
                    content = delta.content
                    print(content, end='', flush=True)  # 实时打印，不换行
                    assistant_output += content
        
        print('\n')  # 流式输出结束后换行
        
        # 检查输出内容是否为空
        if not assistant_output:
            print("错误：模型返回的内容为空")
            continue
        
        # 将大模型的回复信息添加到messages列表中，这里是历史记录，保存上下文
        messages.append({'role': 'assistant', 'content': assistant_output})
        print('\n')
        
    except Exception as e:
        print(f"发生错误：{str(e)}")
        print("请检查API密钥是否正确，网络连接是否正常\n")

Q：为什么要获取流式输出？

使用直接的对话模式需要等待大模型生成结束后，才传回每个部分拼接后的结果，而流式输出可以实时了解到生成的信息，让使用者在模型生成的时候进行阅读，从而利用上中间的等待时间，这是一个可以同步进行的事情，等待浪费了我们的时间。毕竟有些回答刚一开口就可以否决掉。

常见问题

通义千问、灵积、DashScope、百炼是什么关系？

通义千问是阿里云研发的大语言模型；
灵积是阿里云推出的模型服务平台，提供了包括通义千问在内的多种模型的服务接口，DashScope是灵积的英文名，两者指的是同一平台；
百炼是阿里云推出的一站式大模型应用开发平台，同时也提供模型调用服务。

我如果想调用通义千问模型，是要通过灵积平台还是百炼平台？

对于需要调用通义千问模型的开发者而言，通过灵积平台与百炼平台调用通义千问模型都是通过 dashscope SDK 或 OpenAI 兼容或 HTTP 方式实现。

两个平台都可以获取到 API-KEY，且是同步的。因此您只需准备好计算环境，并在两个平台任选其一创建 API-KEY，即可发起通义千问模型的调用。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

LlamaIndex 实战 Milvus 向量数据库：从 CRUD 到智能检索

本文将手把手教你如何使用 LlamaIndex 操作 Milvus 向量数据库，实现文档的增、删、改、查 (CRUD) 。针对 Windows 用户，我们还专门解决了 RuntimeError: There is no current event loop 等常见大坑，并演示了如何通过相似度阈值 (Similarity Cutoff) 解决“乱匹配”问题。适合 Python AI 开发初学者阅