大模型调用完全指南(含免费资源汇总)
【代码】大模型调用完全指南(含免费资源汇总)
·
一、免费/有免费额度的API接口(优先推荐)
(一)国内平台(中文友好,无需科学上网)
1. 阿里云百炼(通义千问系列)
- 支持模型:Qwen3-8B、Qwen2.5-7B、Qwen Code、Qwen-Math、Qwen-Omni(多模态)
- 免费额度:
- 新人注册赠100万Token(有效期90天),覆盖主流模型
- Qwen Code:每日2000次免费运行(无Token限制)
- Qwen-Math/Qwen-Omni:各赠100万Token(有效期90天)
- 调用限制:QPS上限5,中国大陆地域可用
- Python调用示例:
import dashscope
import os
# 从环境变量读取API Key(推荐)
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")
# 1. 基础文本生成(Qwen3-8B)
response = dashscope.TextGeneration.call(
model="qwen3-8b",
prompt="写一个Python斐波那契数列函数",
parameters={"max_tokens": 512, "temperature": 0.7}
)
print(response.output.choices[0].message.content)
# 2. 代码生成(Qwen Code,每日2000次免费)
response = dashscope.TextGeneration.call(
model="qwen3-coder-plus",
prompt="实现Flask用户注册接口",
parameters={"max_tokens": 1024}
)
print(response.output.choices[0].message.content)
- 优势:兼容OpenAI格式,多模态支持,中文理解能力强
2. 火山方舟(字节跳动)
- 支持模型:豆包大模型、DeepSeek-R1/V3
- 免费额度:个人用户50万Token,企业协作计划500万Token(有效期至2025.12.31)
- 调用限制:QPS上限20,支持10万Token长文本
- Python调用示例(兼容OpenAI):
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("ARK_API_KEY"),
base_url="https://ark.cn-beijing.volces.com/api/v3"
)
response = client.chat.completions.create(
model="doubao-pro",
messages=[{"role": "user", "content": "推荐AI学习路径"}]
)
print(response.choices[0].message.content)
3. 腾讯混元大模型
- 支持模型:混元-7B、混元-13B
- 免费额度:新用户200万Token(有效期6个月)
- 调用限制:QPS上限10,支持函数调用
- 优势:深度整合微信生态
4. 百度千帆大模型平台
- 支持模型:ERNIE-Bot 4.0、文心一格(图像生成)
- 免费额度:个人用户每月30万Token,图像生成免费额度(需单独申请)
- 调用限制:QPS上限5,支持插件扩展
- 优势:中文场景优化,智能客服适配性强
(二)国际平台(需科学上网/信用卡)
1. Google Gemini API
- 支持模型:Gemini 2.5 Flash(实时)、Gemini 2.5 Pro(长文本)
- 免费额度:
- Flash版:每分钟15次请求,每日1.5万Token
- Pro版:每分钟2次请求,每日50次请求(2M Token上下文)
- 调用限制:需绑定信用卡,支持多模态
- Python调用示例:
import google.generativeai as genai
genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
model = genai.GenerativeModel("gemini-2.5-flash")
response = model.generate_content("Explain AI in simple terms")
print(response.text)
2. OpenAI API
- 支持模型:GPT-3.5 Turbo、GPT-4(部分)、DALL·E 3
- 免费额度:新用户赠5美元(有效期3个月,约5万Token)
- 调用限制:QPS上限3,需科学上网
- 优势:生态完善,LangChain深度集成
3. Tavily Search API(AI搜索增强)
- 核心功能:专为RAG优化的实时搜索,支持内容提取、问答生成
- 免费额度:每月1000次API调用(无需信用卡)
- 调用限制:支持基础/高级搜索深度,失败不扣费
- Python调用示例:
# 安装依赖:pip install tavily-python
from tavily import TavilyClient
import os
client = TavilyClient(api_key=os.getenv("TAVILY_API_KEY"))
# 1. 基础搜索
response = client.search("2025 AI发展趋势", search_depth="basic")
print("搜索结果:", [res["title"] for res in response["results"]])
# 2. 直接问答(适合RAG场景)
answer = client.qna_search("谁是当今足球第一人?")
print("问答结果:", answer)
- API Key获取:
- 访问Tavily官网注册账户
- 从用户仪表板复制API Key(格式:tvly-xxxxxx)
- 优势:与LangChain/LLM集成度高,搜索结果结构化
二、付费API接口(补充说明)
| 平台 | 支持模型 | 付费模式 | 适用场景 |
|---|---|---|---|
| MidJourney V7 | MidJourney V7(图像生成) | 基础版10美元/月(200张) | 艺术创作、设计 |
| OpenAI API | GPT-4 Turbo、DALL·E 3 | GPT-4输入0.03美元/千Token | 复杂Agent、多模态应用 |
| 阿里云百炼 | Qwen2.5-72B、Qwen-Max | 按量付费0.004元/千Token起 | 企业级高并发需求 |
| Google Gemini | Gemini 2.5 Ultra | 输入1.5美元/千Token,输出3美元/千Token | 全球化多模态项目 |
三、本地部署方案(完全免费,隐私优先)
1. Ollama(推荐新手)
- 支持模型:Llama 2、Mistral、DeepSeek、Qwen、Phi-3等30+模型
- 硬件要求:
- 7B模型:8GB内存(支持NVIDIA/AMD/Apple M系列显卡)
- 13B模型:16GB内存,建议GPU加速
- 安装与调用:
# Linux/macOS安装: curl -fsSL https://ollama.com/install.sh | sh # 运行模型(命令行): ollama run qwen # 通义千问7B ollama run mistral # 代码生成专用 # Python调用(兼容OpenAI): from openai import OpenAI client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") response = client.chat.completions.create( model="qwen", messages=[{"role": "user", "content": "本地部署优势"}] ) print(response.choices[0].message.content) - 优势:一键部署,无需复杂配置,数据本地化
2. Hugging Face Transformers(灵活定制)
- 支持模型:Llama 2、GPT-NeoX、BERT、Qwen等开源模型
- 硬件要求:7B模型需16GB内存,13B模型需24GB内存(建议GPU)
- Python调用示例:
# 安装依赖:pip install transformers torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# 加载开源模型(Qwen-7B)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat")
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen-7B-Chat",
device_map="auto", # 自动分配GPU/CPU
load_in_8bit=True # 8位量化减少显存占用
)
# 生成文本
inputs = tokenizer("解释量子计算基础", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- 优势:支持自定义微调,模型选择丰富
3. OpenWebUI(图形化管理)
- 简介:基于Ollama的Web界面,支持模型管理、对话历史、插件扩展
- 安装方式(Docker):
docker run -d -p 11434:11434 -v openwebui:/app/backend/data --name openwebui --privileged=true openwebui/openwebui:latest - 访问:浏览器打开
http://localhost:11434,直接可视化调用Ollama模型 - 优势:非技术人员友好,支持多用户协作
四、免费资源使用技巧(避免扣费+最大化利用)
1. 额度监控与防扣费
# 通义千问剩余免费额度查询
import requests
import os
headers = {"Authorization": f"Bearer {os.getenv('DASHSCOPE_API_KEY')}"}
response = requests.get(
"https://dashscope.aliyuncs.com/api/v1/account/quota",
headers=headers
)
print("剩余免费Token:", response.json()["remaining_free_quota"])
- 阿里云/火山方舟控制台开启「用完即停」功能
- Tavily在开发者控制台查看剩余调用次数
2. 成本优化技巧
- 缓存机制:对重复请求结果缓存(示例用Redis)
import redis
cache = redis.Redis(host='localhost', port=6379, db=0)
def get_cached_response(prompt, model="qwen3-8b"):
key = f"{model}:{prompt[:128]}"
if cache.exists(key):
return cache.get(key).decode('utf-8')
# 调用API并缓存1小时
response = dashscope.TextGeneration.call(model=model, prompt=prompt)
result = response.output.choices[0].message.content
cache.setex(key, 3600, result)
return result
- 批量处理:合并多个短请求为单次调用,减少Token消耗
- 模型选择:简单任务用7B模型(如Qwen3-8B),复杂任务再用大模型
3. 常见问题解决
- 权限不足:高级模型(如Qwen-Max)需在平台提交工单申请
- 并发限制:免费额度QPS较低,高并发场景用异步队列(如Celery)削峰
- 本地部署OOM:使用4-bit/8-bit量化(
load_in_4bit=True),关闭其他占用内存的程序
五、选择建议
| 用户类型 | 推荐方案 | 核心优势 |
|---|---|---|
| 个人开发者/新手 | 阿里云百炼(免费100万Token)+ Ollama本地部署 | 免费额度高,操作简单 |
| 学生/科研人员 | 国家超算平台(Qwen3-32B免费)+ Tavily搜索 | 大模型配额,学术场景适配 |
| 企业开发者 | 火山方舟(企业协作计划)+ 私有化部署Ollama | 高并发支持,数据安全 |
| RAG项目开发 | Tavily(免费1000次搜索)+ Hugging Face | 实时信息增强,模型定制灵活 |
补充说明
- 所有免费额度政策截至2025年11月,具体以平台官网为准
- 本地部署模型可通过「模型量化」「CPU推理」降低硬件门槛
- 建议先通过免费API验证项目可行性,再根据需求升级付费方案或本地部署
更多推荐



所有评论(0)