一、免费/有免费额度的API接口(优先推荐)

(一)国内平台(中文友好,无需科学上网)

1. 阿里云百炼(通义千问系列)
  • 支持模型:Qwen3-8B、Qwen2.5-7B、Qwen Code、Qwen-Math、Qwen-Omni(多模态)
  • 免费额度
    • 新人注册赠100万Token(有效期90天),覆盖主流模型
    • Qwen Code:每日2000次免费运行(无Token限制)
    • Qwen-Math/Qwen-Omni:各赠100万Token(有效期90天)
  • 调用限制:QPS上限5,中国大陆地域可用
  • Python调用示例
import dashscope
import os

# 从环境变量读取API Key(推荐)
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")

# 1. 基础文本生成(Qwen3-8B)
response = dashscope.TextGeneration.call(
    model="qwen3-8b",
    prompt="写一个Python斐波那契数列函数",
    parameters={"max_tokens": 512, "temperature": 0.7}
)
print(response.output.choices[0].message.content)

# 2. 代码生成(Qwen Code,每日2000次免费)
response = dashscope.TextGeneration.call(
    model="qwen3-coder-plus",
    prompt="实现Flask用户注册接口",
    parameters={"max_tokens": 1024}
)
print(response.output.choices[0].message.content)
  • 优势:兼容OpenAI格式,多模态支持,中文理解能力强
2. 火山方舟(字节跳动)
  • 支持模型:豆包大模型、DeepSeek-R1/V3
  • 免费额度:个人用户50万Token,企业协作计划500万Token(有效期至2025.12.31)
  • 调用限制:QPS上限20,支持10万Token长文本
  • Python调用示例(兼容OpenAI):
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("ARK_API_KEY"),
    base_url="https://ark.cn-beijing.volces.com/api/v3"
)
response = client.chat.completions.create(
    model="doubao-pro",
    messages=[{"role": "user", "content": "推荐AI学习路径"}]
)
print(response.choices[0].message.content)
3. 腾讯混元大模型
  • 支持模型:混元-7B、混元-13B
  • 免费额度:新用户200万Token(有效期6个月)
  • 调用限制:QPS上限10,支持函数调用
  • 优势:深度整合微信生态
4. 百度千帆大模型平台
  • 支持模型:ERNIE-Bot 4.0、文心一格(图像生成)
  • 免费额度:个人用户每月30万Token,图像生成免费额度(需单独申请)
  • 调用限制:QPS上限5,支持插件扩展
  • 优势:中文场景优化,智能客服适配性强

(二)国际平台(需科学上网/信用卡)

1. Google Gemini API
  • 支持模型:Gemini 2.5 Flash(实时)、Gemini 2.5 Pro(长文本)
  • 免费额度
    • Flash版:每分钟15次请求,每日1.5万Token
    • Pro版:每分钟2次请求,每日50次请求(2M Token上下文)
  • 调用限制:需绑定信用卡,支持多模态
  • Python调用示例
import google.generativeai as genai

genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
model = genai.GenerativeModel("gemini-2.5-flash")
response = model.generate_content("Explain AI in simple terms")
print(response.text)
2. OpenAI API
  • 支持模型:GPT-3.5 Turbo、GPT-4(部分)、DALL·E 3
  • 免费额度:新用户赠5美元(有效期3个月,约5万Token)
  • 调用限制:QPS上限3,需科学上网
  • 优势:生态完善,LangChain深度集成
3. Tavily Search API(AI搜索增强)
  • 核心功能:专为RAG优化的实时搜索,支持内容提取、问答生成
  • 免费额度:每月1000次API调用(无需信用卡)
  • 调用限制:支持基础/高级搜索深度,失败不扣费
  • Python调用示例
# 安装依赖:pip install tavily-python
from tavily import TavilyClient
import os

client = TavilyClient(api_key=os.getenv("TAVILY_API_KEY"))

# 1. 基础搜索
response = client.search("2025 AI发展趋势", search_depth="basic")
print("搜索结果:", [res["title"] for res in response["results"]])

# 2. 直接问答(适合RAG场景)
answer = client.qna_search("谁是当今足球第一人?")
print("问答结果:", answer)
  • API Key获取
    1. 访问Tavily官网注册账户
    2. 从用户仪表板复制API Key(格式:tvly-xxxxxx)
  • 优势:与LangChain/LLM集成度高,搜索结果结构化

二、付费API接口(补充说明)

平台 支持模型 付费模式 适用场景
MidJourney V7 MidJourney V7(图像生成) 基础版10美元/月(200张) 艺术创作、设计
OpenAI API GPT-4 Turbo、DALL·E 3 GPT-4输入0.03美元/千Token 复杂Agent、多模态应用
阿里云百炼 Qwen2.5-72B、Qwen-Max 按量付费0.004元/千Token起 企业级高并发需求
Google Gemini Gemini 2.5 Ultra 输入1.5美元/千Token,输出3美元/千Token 全球化多模态项目

三、本地部署方案(完全免费,隐私优先)

1. Ollama(推荐新手)

  • 支持模型:Llama 2、Mistral、DeepSeek、Qwen、Phi-3等30+模型
  • 硬件要求
    • 7B模型:8GB内存(支持NVIDIA/AMD/Apple M系列显卡)
    • 13B模型:16GB内存,建议GPU加速
  • 安装与调用
    # Linux/macOS安装:
    curl -fsSL https://ollama.com/install.sh | sh
    
    # 运行模型(命令行):
    ollama run qwen  # 通义千问7B
    ollama run mistral  # 代码生成专用
    
    # Python调用(兼容OpenAI):
    from openai import OpenAI
    client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
    response = client.chat.completions.create(
        model="qwen",
        messages=[{"role": "user", "content": "本地部署优势"}]
    )
    print(response.choices[0].message.content)
    
  • 优势:一键部署,无需复杂配置,数据本地化

2. Hugging Face Transformers(灵活定制)

  • 支持模型:Llama 2、GPT-NeoX、BERT、Qwen等开源模型
  • 硬件要求:7B模型需16GB内存,13B模型需24GB内存(建议GPU)
  • Python调用示例
# 安装依赖:pip install transformers torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载开源模型(Qwen-7B)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat")
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-7B-Chat",
    device_map="auto",  # 自动分配GPU/CPU
    load_in_8bit=True   # 8位量化减少显存占用
)

# 生成文本
inputs = tokenizer("解释量子计算基础", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  • 优势:支持自定义微调,模型选择丰富

3. OpenWebUI(图形化管理)

  • 简介:基于Ollama的Web界面,支持模型管理、对话历史、插件扩展
  • 安装方式(Docker):
    docker run -d -p 11434:11434 -v openwebui:/app/backend/data --name openwebui --privileged=true openwebui/openwebui:latest
    
  • 访问:浏览器打开http://localhost:11434,直接可视化调用Ollama模型
  • 优势:非技术人员友好,支持多用户协作

四、免费资源使用技巧(避免扣费+最大化利用)

1. 额度监控与防扣费

# 通义千问剩余免费额度查询
import requests
import os

headers = {"Authorization": f"Bearer {os.getenv('DASHSCOPE_API_KEY')}"}
response = requests.get(
    "https://dashscope.aliyuncs.com/api/v1/account/quota",
    headers=headers
)
print("剩余免费Token:", response.json()["remaining_free_quota"])
  • 阿里云/火山方舟控制台开启「用完即停」功能
  • Tavily在开发者控制台查看剩余调用次数

2. 成本优化技巧

  • 缓存机制:对重复请求结果缓存(示例用Redis)
import redis
cache = redis.Redis(host='localhost', port=6379, db=0)

def get_cached_response(prompt, model="qwen3-8b"):
    key = f"{model}:{prompt[:128]}"
    if cache.exists(key):
        return cache.get(key).decode('utf-8')
    # 调用API并缓存1小时
    response = dashscope.TextGeneration.call(model=model, prompt=prompt)
    result = response.output.choices[0].message.content
    cache.setex(key, 3600, result)
    return result
  • 批量处理:合并多个短请求为单次调用,减少Token消耗
  • 模型选择:简单任务用7B模型(如Qwen3-8B),复杂任务再用大模型

3. 常见问题解决

  • 权限不足:高级模型(如Qwen-Max)需在平台提交工单申请
  • 并发限制:免费额度QPS较低,高并发场景用异步队列(如Celery)削峰
  • 本地部署OOM:使用4-bit/8-bit量化(load_in_4bit=True),关闭其他占用内存的程序

五、选择建议

用户类型 推荐方案 核心优势
个人开发者/新手 阿里云百炼(免费100万Token)+ Ollama本地部署 免费额度高,操作简单
学生/科研人员 国家超算平台(Qwen3-32B免费)+ Tavily搜索 大模型配额,学术场景适配
企业开发者 火山方舟(企业协作计划)+ 私有化部署Ollama 高并发支持,数据安全
RAG项目开发 Tavily(免费1000次搜索)+ Hugging Face 实时信息增强,模型定制灵活

补充说明

  1. 所有免费额度政策截至2025年11月,具体以平台官网为准
  2. 本地部署模型可通过「模型量化」「CPU推理」降低硬件门槛
  3. 建议先通过免费API验证项目可行性,再根据需求升级付费方案或本地部署
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐