微店商品详情接口深度挖掘：从多接口联动到数据全息重构

微店商品详情页的数据并非来自单一接口，而是通过多个接口协同返回，包括基础信息接口、库存接口、评价接口等。print(f"详情图片数：{len(holographic_data['detail_info']['detail_images'])}")print(f"库存：{holographic_data['stock_info']['stock_count']}件")print(f"商品名称：{ho

有味道的男人

655人浏览 · 2025-11-26 09:11:03

有味道的男人 · 2025-11-26 09:11:03 发布

微店商品详情页的数据并非来自单一接口，而是通过多个接口协同返回，包括基础信息接口、库存接口、评价接口等。本文将突破传统的单接口调用思路，通过分析接口间的依赖关系，实现多接口联动采集，并创新性地提出 “数据全息重构” 方案，解决商品信息碎片化问题，同时提供完整的 Python 代码实现。

一、接口依赖关系分析

微店商品详情页的核心数据由以下 4 个接口协同提供，需按顺序调用：

接口名称接口地址核心作用依赖参数

基础信息接口 v1/goods/info 获取商品名称、价格、主图等基础信息 goods_id

库存接口 v1/goods/stock 获取商品库存数量、库存状态 goods_id

评价统计接口 v1/goods/comment/stats 获取商品评价总数、好评率、评分分布 goods_id

详情图文接口 v1/goods/detail 获取商品详情页 HTML、规格参数、售后信息 goods_id

关键突破点：

所有接口均需 goods_id 作为核心参数，可从搜索接口或商品列表接口获取。

详情图文接口返回的 HTML 包含商品规格、售后等结构化数据，需通过解析 HTML 提取。

二、核心技术方案

1. 多接口联动调度器

负责按顺序调用多个接口，处理接口依赖关系，确保数据完整性：

python

运行


import requests

import time

from typing import Dict, List

class WeidianAPIScheduler:

def __init__(self, app_key: str, app_secret: str):

self.app_key = app_key

self.app_secret = app_secret

self.access_token = self._get_access_token()

def _get_access_token(self) -> str:

"""获取访问令牌"""

url = "https://open.weidian.com/oauth2/token"

params = {

"app_key": self.app_key,

"app_secret": self.app_secret,

"grant_type": "client_credentials"

}

response = requests.post(url, params=params)

return response.json().get("access_token")

def _generate_sign(self, params: Dict) -> str:

"""生成签名"""

sorted_params = sorted(params.items(), key=lambda x: x[0])

sign_str = "".join([f"{k}{v}" for k, v in sorted_params]) + self.app_secret

return hashlib.md5(sign_str.encode()).hexdigest().upper()

def _call_api(self, api_name: str, params: Dict) -> Dict:

"""通用接口调用方法"""

base_url = "https://open.weidian.com/api/"

params.update({

"app_key": self.app_key,

"access_token": self.access_token,

"timestamp": int(time.time()),

"nonce": random.randint(100000, 999999)

})

params["sign"] = self._generate_sign(params)

url = f"{base_url}{api_name}"

response = requests.post(url, data=params)

return response.json()

def get_goods_base_info(self, goods_id: str) -> Dict:

"""获取商品基础信息"""

return self._call_api("v1/goods/info", {"goods_id": goods_id})

def get_goods_stock(self, goods_id: str) -> Dict:

"""获取商品库存信息"""

return self._call_api("v1/goods/stock", {"goods_id": goods_id})

def get_goods_comment_stats(self, goods_id: str) -> Dict:

"""获取商品评价统计"""

return self._call_api("v1/goods/comment/stats", {"goods_id": goods_id})

def get_goods_detail(self, goods_id: str) -> Dict:

"""获取商品详情图文信息"""

return self._call_api("v1/goods/detail", {"goods_id": goods_id})

2. 详情 HTML 解析器

从详情图文接口返回的 HTML 中提取规格参数、售后信息等结构化数据：

python

运行

from lxml import etree

import re

class WeidianHTMLParser:

def parse_detail_html(self, html: str) -> Dict:

"""解析商品详情HTML，提取结构化数据"""

tree = etree.HTML(html)

result = {}

# 提取规格参数

spec_params = self._parse_spec_params(tree)

result["spec_params"] = spec_params

# 提取售后信息

after_sale = self._parse_after_sale(tree)

result["after_sale"] = after_sale

# 提取详情图片

detail_images = self._parse_detail_images(tree)

result["detail_images"] = detail_images

return result

def _parse_spec_params(self, tree) -> List[Dict]:

"""提取规格参数"""

spec_params = []

# 规格参数通常在 class="spec-param" 或类似的容器中

param_items = tree.xpath('//div[contains(@class, "spec-param")]/ul/li')

for item in param_items:

key = item.xpath('./span[1]/text()')

value = item.xpath('./span[2]/text()')

if key and value:

spec_params.append({

"key": key[0].strip(),

"value": value[0].strip()

})

return spec_params

def _parse_after_sale(self, tree) -> Dict:

"""提取售后信息"""

after_sale = {}

# 售后信息通常在 class="after-sale" 或类似的容器中

after_sale_html = tree.xpath('//div[contains(@class, "after-sale")]/text()')

if after_sale_html:

after_sale_text = "".join(after_sale_html).strip()

# 提取售后政策关键词

if "7天无理由退换" in after_sale_text:

after_sale["return_policy"] = "7天无理由退换"

if "正品保障" in after_sale_text:

after_sale["quality_guarantee"] = "正品保障"

return after_sale

def _parse_detail_images(self, tree) -> List[str]:

"""提取详情图片"""

images = []

# 详情图片通常在 class="detail-img" 或类似的容器中

img_elements = tree.xpath('//div[contains(@class, "detail-img")]/img/@src')

for img in img_elements:

# 过滤掉base64格式的小图片

if not img.startswith("data:image"):

images.append(img)

return images

3. 数据全息重构器

将多个接口返回的分散数据整合为标准化的全息数据结构，解决信息碎片化问题：

python

运行

class GoodsDataReconstructor:

def reconstruct(self, goods_id: str, scheduler: WeidianAPIScheduler) -> Dict:

"""重构商品全息数据"""

# 1. 获取各接口数据

base_info = scheduler.get_goods_base_info(goods_id)

stock_info = scheduler.get_goods_stock(goods_id)

comment_stats = scheduler.get_goods_comment_stats(goods_id)

detail_info = scheduler.get_goods_detail(goods_id)

# 2. 解析详情HTML

html_parser = WeidianHTMLParser()

parsed_detail = html_parser.parse_detail_html(detail_info.get("data", {}).get("detail_html", ""))

# 3. 整合数据

holographic_data = {

"goods_id": goods_id,

"base_info": self._parse_base_info(base_info),

"stock_info": self._parse_stock_info(stock_info),

"comment_stats": self._parse_comment_stats(comment_stats),

"detail_info": parsed_detail,

"crawl_time": time.strftime("%Y-%m-%d %H:%M:%S")

}

return holographic_data

def _parse_base_info(self, base_info: Dict) -> Dict:

"""解析基础信息"""

data = base_info.get("data", {})

return {

"goods_name": data.get("goods_name", ""),

"price": data.get("price", 0) / 100, # 分转元

"original_price": data.get("original_price", 0) / 100,

"main_image": data.get("main_image", ""),

"category_id": data.get("category_id", ""),

"shop_id": data.get("shop_id", ""),

"shop_name": data.get("shop_name", "")

}

def _parse_stock_info(self, stock_info: Dict) -> Dict:

"""解析库存信息"""

data = stock_info.get("data", {})

return {

"stock_count": data.get("stock_count", 0),

"stock_status": data.get("stock_status", 0), # 0: 有货, 1: 缺货

"limit_buy": data.get("limit_buy", 0) # 限购数量

}

def _parse_comment_stats(self, comment_stats: Dict) -> Dict:

"""解析评价统计"""

data = comment_stats.get("data", {})

return {

"comment_count": data.get("comment_count", 0),

"good_rate": data.get("good_rate", 0) / 100, # 好评率（小数）

"score_distribution": {

"5_star": data.get("score_5", 0),

"4_star": data.get("score_4", 0),

"3_star": data.get("score_3", 0),

"2_star": data.get("score_2", 0),

"1_star": data.get("score_1", 0)

}

}

点击获取key和secret

三、完整调用流程与实战效果

python

运行

import hashlib

import random

def main():

# 替换为你的app_key和app_secret

app_key = "your_app_key"

app_secret = "your_app_secret"

goods_id = "12345678" # 替换为目标商品ID

# 初始化调度器