Datawhale-Vibe-coding的Task4——嵌入AI功能！

这次任务终于到了最神奇的嵌入AI功能啦！也就是给我们Task3做的原型加上AI能力！首先我们要了解什么是API，什么是API KEY，以及如何使用示例文档，知道这三点之后我们就可以在任何地方调用任何大模型啦！我这边直接引用散步大佬给的概念：。

deatherQ

195人浏览 · 2026-01-22 22:30:08

deatherQ · 2026-01-22 22:30:08 发布

这次任务终于到了最神奇的嵌入AI功能啦！也就是给我们Task3做的原型加上AI能力！

首先我们要了解什么是API，什么是API KEY，以及如何使用示例文档，知道这三点之后我们就可以在任何地方调用任何大模型啦！

我这边直接引用散步大佬给的概念：

API 是计算机领域的一个重要抽象概念，我们可以简单理解为：你按对方要求的格式"发一个问题"，对方就按同样的格式"回一个结果"。

你发出去的内容：通常包括"密钥（API Key）"和"你要生成什么"
对方回给你的内容：成功就给结果；失败会告诉你原因（比如"密钥不对""余额不足""参数写错"）

具体来说，你需要掌握以下核心要素：

API Key：你的"通行证"，也是"钱包钥匙"。别人拿到它，就可以替你调用接口并产生费用。
Endpoint（接口路径）：API 请求的具体路径，告诉服务器你要访问哪个功能。完整的请求地址通常由"基础 URL + Endpoint路径"构成。例如：
- 文本生成：基础URL (https://api.service.com) + Endpoint (/v1/chat/completions) = 完整URL https://api.service.com/v1/chat/completions
- 图像生成：基础URL (https://api.service.com) + Endpoint (/v1/images/generations) = 完整URL https://api.service.com/v1/images/generations
调用/请求：向 AI 服务发送任务并获取结果的过程
请求内容：你发给AI的具体内容，比如你想让AI写的文章主题、生成的图片描述等。
响应结果：AI处理完后返回给你的内容，比如生成的文章、图片等。
错误处理：当出现问题时（如API Key错误、请求太频繁等），知道如何排查解决。

一.文字生成API

首先这是我上次任务优化过的UI，左侧分别是工作台，人物列表，素材库，模板库，设置等等......

知道了什么是API，下面我们来接入第一个API，这里我们使用deepseek的API：

跟着这 3 步走，就能实现大模型生成 API 的快速集成（实际上每种API的接入都是一样的，都是这三步，无论是文本大模型还是图片大模型又或者是多模态大模型）：

在 DeepSeek 平台创建一个 API Key
在 DeepSeek 文档中找到文本生成示例（通常有现成代码可直接复制）
打开 AI IDE，把 API Key + 官方示例粘贴进去，告诉 AI 要实现什么功能，如下是提示词：

参考这个调用方法，帮我支持文案生成功能，可以基于商品信息点击后生成对应抖音电商文案，多种风格。

以下参考资料：
api key：sk-8573341c39aefa1efe（##这里输入你获得的api key##）
api 请求参考：
curl \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
-d '{
"model": "deepseek-chat",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
"stream": false
}'（##这些是deepseel网站上的##）

它是一个什么样的功能呢？请看：

我们首先把一些商品添加到队列，然后可以选择风格和模板，我们就选择随机吧~然后点击生成，看看会发生什么。

这是生成前的确认，此时还可以修改~

然后就生成好啦！

不同的风格，有抖音风，有专业风还有故事风！然后我自己潜入了编辑和存为模板的按钮，如果觉得生成的好，下次可以选择此模板然后AI会读取此模板并且模仿语言风格，还是很好用的，然后也可以打开图片看详情，可以修改，可以删除~

二.图片转文字API

同样的，对于图片转文字的需求，我调用的是Qwen3VL，这里就不细说了，在这个平台调用的：https://cloud.siliconflow.cn/me然后模型选择的是Qwen/Qwen3-VL-8B-Instruct，图片转文字的参考代码是（这里也是直接拿的散步大佬给的，参考代码貌似也是可以自己修改的）：

from openai import OpenAI
from typing import Dict, Any, List
import base64
import os
SILICONFLOW_API_KEY: str = ""
SILICONFLOW_BASE_URL: str = "https://api.siliconflow.cn/v1/"
MODEL_NAME: str = "Qwen/Qwen3-VL-8B-Instruct"

def encode_image(image_path: str) -> str:
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

def get_vlm_completion(client: OpenAI, messages: List[Dict[str, Any]]) -> str:
    response = client.chat.completions.create(
        model=MODEL_NAME,
        messages=messages,
        max_tokens=512,
        temperature=0.7,
        top_p=0.7,
        frequency_penalty=0.5,
        stream=False,
        n=1
    )
    return response.choices[0].message.content

def caption_image(image_path: str) -> str:
    base64_image = encode_image(image_path)
    messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Please describe this image in detail."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{base64_image}"
                    }
                }
            ]
        }
    ]
    
    client = OpenAI(
        api_key=SILICONFLOW_API_KEY,
        base_url=SILICONFLOW_BASE_URL
    )
    
    return get_vlm_completion(client, messages)

image_path = "images.jpg"
caption = caption_image(image_path)

提示词为：基于下面的图生文接口 API ，帮我们实现将上传的图片，自动生成电商卖点文本、关键词的功能 <此处省略代码，你需要自行粘贴密钥和参考代码>

那么我们来试一试吧，究竟是什么功能呢？

注意到在我们的人物列表有一个上传图片，我们上传一张自己的图片然后点击分析~

它的分析如下，还是很厉害的~

那么我们正常添加到队列然后生成一下文案吧。

非常好！可以自己分析图片然后生成专属文案啦！

三.图片生成API

最后接入图像生成API，这里使用的是网站https://www.volcengine.com/experience/ark?launch=seedream上面的Seedream 4.5模型，注意，是在图像模型那一栏，别找成文本模型那里了。

参考代码为：

curl -X POST https://ark.cn-beijing.volces.com/api/v3/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer xxxxxxx" \
  -d '{
    "model": "doubao-seedream-4-5-251128",
    "prompt": "将图1的服装换为图2的服装",
    "image": ["https://ark-project.tos-cn-beijing.volces.com/doc_image/seedream4_imagesToimage_1.png", "https://ark-project.tos-cn-beijing.volces.com/doc_image/seedream4_imagesToimage_2.png"],
    "sequential_image_generation": "disabled",
    "response_format": "url",
    "size": "2K",
    "stream": false,
    "watermark": true
}'

提示词为：请你基于下面 API，帮我实现这个工程中，电商业务的常见功能（例如海报生成、抖音电商首图生成等等）<此处粘贴 API KEY以及图像编辑代码>

看看怎么样吧：

我们选一张图，看看会生成什么：

它生成了一个精美的海报，不过你也可以自己给他提示词的。

为了解决不能输入本地照片的功能，我又试着优化了一下，现在可以上传本地图片了：

然后散步大佬给了两个用来挑选好用模型的网站，分别是：https://lmarena.ai/和https://artificialanalysis.ai/，大家可以去上面看看大模型的对比。

下一节课的内容是把这些分散的 AI 能力串联起来，结合实际业务场景做一个完整的产品：

把内容策划、商品上架、数据分析等环节串联成一条完整的业务流程
将本节课学到的 AI 能力（LLM 文案生成、文生图、图像编辑等）嵌入到实际业务节点中
实现一个真正可用的"电商 AI 工作台"，而不是孤立的 demo

感觉好难！压力上来啦！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

MBA必看！8个降AI率工具高效推荐

2048 AI社区

HarmonyOS 6.0+ AI原生跨端创意设计APP开发实战：大模型集成与智慧交互落地

摘要：HarmonyOS 6.0+通过深度整合AI原生能力与分布式技术，推动智能终端进入"智慧共生"新阶段。本文以"智绘"创意设计APP为例，详细解析了三大核心技术：盘古大模型端侧部署实现200ms低延迟AI生成，智慧光感交互系统支持环境自适应调整，星闪技术支持10ms跨设备数据同步。文章提供了从开发环境搭建到核心功能实现的完整技术方案，包括模块化架构设计、

2048 AI社区

炸裂！HarmonyOS 6.0+ AI原生APP开发实战：PC-移动跨端智能协同颠覆传统开发

HarmonyOS6.0+版本标志着鸿蒙生态进入AI原生新阶段，实现了从"跨设备可用"到"跨设备智能协同"的关键跃迁。该系统整合盘古大模型、星闪2.0技术和分布式智能调度框架三大核心技术，构建了AI驱动的跨端协同闭环。文章详细解析了HarmonyOS6.0+的架构革新，包括端侧AI推理支持、智能体协同决策等特性，并通过"跨端AI智能创作助手&quo

2048 AI社区

所有评论(0)

查看更多评论

deatherQ

@deatherQ

已为社区贡献3条内容