这次任务终于到了最神奇的嵌入AI功能啦!也就是给我们Task3做的原型加上AI能力!

首先我们要了解什么是API,什么是API KEY,以及如何使用示例文档,知道这三点之后我们就可以在任何地方调用任何大模型啦!

我这边直接引用散步大佬给的概念:

API 是计算机领域的一个重要抽象概念,我们可以简单理解为:你按对方要求的格式"发一个问题",对方就按同样的格式"回一个结果"

  • 你发出去的内容:通常包括"密钥(API Key)"和"你要生成什么"
  • 对方回给你的内容:成功就给结果;失败会告诉你原因(比如"密钥不对""余额不足""参数写错")

具体来说,你需要掌握以下核心要素:

  1. API Key:你的"通行证",也是"钱包钥匙"。别人拿到它,就可以替你调用接口并产生费用。
  2. Endpoint(接口路径):API 请求的具体路径,告诉服务器你要访问哪个功能。完整的请求地址通常由"基础 URL + Endpoint路径"构成。例如:
    • 文本生成:基础URL (https://api.service.com) + Endpoint (/v1/chat/completions) = 完整URL https://api.service.com/v1/chat/completions
    • 图像生成:基础URL (https://api.service.com) + Endpoint (/v1/images/generations) = 完整URL https://api.service.com/v1/images/generations
  3. 调用/请求:向 AI 服务发送任务并获取结果的过程
  4. 请求内容:你发给AI的具体内容,比如你想让AI写的文章主题、生成的图片描述等。
  5. 响应结果:AI处理完后返回给你的内容,比如生成的文章、图片等。
  6. 错误处理:当出现问题时(如API Key错误、请求太频繁等),知道如何排查解决。

一.文字生成API

首先这是我上次任务优化过的UI,左侧分别是工作台,人物列表,素材库,模板库,设置等等......

知道了什么是API,下面我们来接入第一个API,这里我们使用deepseek的API:

跟着这 3 步走,就能实现大模型生成 API 的快速集成(实际上每种API的接入都是一样的,都是这三步,无论是文本大模型还是图片大模型又或者是多模态大模型):

  1. 在 DeepSeek 平台创建一个 API Key
  2. 在 DeepSeek 文档中找到文本生成示例(通常有现成代码可直接复制)
  3. 打开 AI IDE,把 API Key + 官方示例粘贴进去,告诉 AI 要实现什么功能,如下是提示词:

    参考这个调用方法,帮我支持文案生成功能,可以基于商品信息点击后生成对应抖音电商文案,多种风格。

    以下参考资料:
    api key:sk-8573341c39aefa1efe(##这里输入你获得的api key##)
    api 请求参考:
    curl  \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
      -d '{
            "model": "deepseek-chat",
            "messages": [
              {"role": "system", "content": "You are a helpful assistant."},
              {"role": "user", "content": "Hello!"}
            ],
            "stream": false
          }'(##这些是deepseel网站上的##)

它是一个什么样的功能呢?请看:

我们首先把一些商品添加到队列,然后可以选择风格和模板,我们就选择随机吧~然后点击生成,看看会发生什么。

这是生成前的确认,此时还可以修改~

然后就生成好啦!

不同的风格,有抖音风,有专业风还有故事风!然后我自己潜入了编辑和存为模板的按钮,如果觉得生成的好,下次可以选择此模板然后AI会读取此模板并且模仿语言风格,还是很好用的,然后也可以打开图片看详情,可以修改,可以删除~

二.图片转文字API

同样的,对于图片转文字的需求,我调用的是Qwen3VL,这里就不细说了,在这个平台调用的:https://cloud.siliconflow.cn/me然后模型选择的是Qwen/Qwen3-VL-8B-Instruct,图片转文字的参考代码是(这里也是直接拿的散步大佬给的,参考代码貌似也是可以自己修改的):

from openai import OpenAI
from typing import Dict, Any, List
import base64
import os
SILICONFLOW_API_KEY: str = ""
SILICONFLOW_BASE_URL: str = "https://api.siliconflow.cn/v1/"
MODEL_NAME: str = "Qwen/Qwen3-VL-8B-Instruct"

def encode_image(image_path: str) -> str:
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

def get_vlm_completion(client: OpenAI, messages: List[Dict[str, Any]]) -> str:
    response = client.chat.completions.create(
        model=MODEL_NAME,
        messages=messages,
        max_tokens=512,
        temperature=0.7,
        top_p=0.7,
        frequency_penalty=0.5,
        stream=False,
        n=1
    )
    return response.choices[0].message.content

def caption_image(image_path: str) -> str:
    base64_image = encode_image(image_path)
    messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Please describe this image in detail."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{base64_image}"
                    }
                }
            ]
        }
    ]
    
    client = OpenAI(
        api_key=SILICONFLOW_API_KEY,
        base_url=SILICONFLOW_BASE_URL
    )
    
    return get_vlm_completion(client, messages)

image_path = "images.jpg"
caption = caption_image(image_path)

提示词为:基于下面的图生文接口 API ,帮我们实现将上传的图片,自动生成电商卖点文本、关键词的功能 <此处省略代码,你需要自行粘贴密钥和参考代码>

那么我们来试一试吧,究竟是什么功能呢?

注意到在我们的人物列表有一个上传图片,我们上传一张自己的图片然后点击分析~

它的分析如下,还是很厉害的~

那么我们正常添加到队列然后生成一下文案吧。

非常好!可以自己分析图片然后生成专属文案啦!

三.图片生成API

最后接入图像生成API,这里使用的是网站https://www.volcengine.com/experience/ark?launch=seedream上面的Seedream 4.5模型,注意,是在图像模型那一栏,别找成文本模型那里了。

参考代码为:

curl -X POST https://ark.cn-beijing.volces.com/api/v3/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer xxxxxxx" \
  -d '{
    "model": "doubao-seedream-4-5-251128",
    "prompt": "将图1的服装换为图2的服装",
    "image": ["https://ark-project.tos-cn-beijing.volces.com/doc_image/seedream4_imagesToimage_1.png", "https://ark-project.tos-cn-beijing.volces.com/doc_image/seedream4_imagesToimage_2.png"],
    "sequential_image_generation": "disabled",
    "response_format": "url",
    "size": "2K",
    "stream": false,
    "watermark": true
}'

提示词为:请你基于下面 API,帮我实现这个工程中,电商业务的常见功能(例如海报生成、抖音电商首图生成等等)<此处粘贴 API KEY以及图像编辑代码>

看看怎么样吧:

我们选一张图,看看会生成什么:

它生成了一个精美的海报,不过你也可以自己给他提示词的。

为了解决不能输入本地照片的功能,我又试着优化了一下,现在可以上传本地图片了:

然后散步大佬给了两个用来挑选好用模型的网站,分别是:https://lmarena.ai/https://artificialanalysis.ai/,大家可以去上面看看大模型的对比。

下一节课的内容是把这些分散的 AI 能力串联起来,结合实际业务场景做一个完整的产品:

  • 把内容策划、商品上架、数据分析等环节串联成一条完整的业务流程
  • 将本节课学到的 AI 能力(LLM 文案生成、文生图、图像编辑等)嵌入到实际业务节点中
  • 实现一个真正可用的"电商 AI 工作台",而不是孤立的 demo

感觉好难!压力上来啦!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐