【系列导论】蓝图与基石：拆解多模态AI面试官

Hygge-star

1056人浏览 · 2025-11-24 12:21:56

Hygge-star · 2025-11-24 12:21:56 发布

上文整体介绍了项目总纲，现在开始我们的学习之旅吧！

在敲下第一行代码前，让我们先画好地图，看清我们要攀登的山峰与需要准备的装备。

一、项目愿景：我们要打造一个怎样的系统？

忘掉冰冷的技术术语，我们先回归本质：这个系统到底要解决什么问题？

核心价值：为求职者（尤其是高校学生）提供一个高度拟真、随时可用的AI面试官，通过多维度的深度反馈，帮助用户发现短板、精准提升。
功能具象化：
1. 选择目标岗位（如“大数据开发工程师”），系统开始面试。
2. 实时问答：系统提问，用户通过麦克风和摄像头进行回答。
3. 多维分析：系统不仅听你的回答内容，还分析你的语音语调和面部表情。
4. 生成报告：面试结束，立即生成一份可视化报告，指出你在专业知识、表达能力、自信心等方面的强弱项。

二、技术栈选型：为什么是它们？

技术选型是权衡的艺术。我们的选择基于：功能需求、开发效率、生态成熟度和赛题要求。

层级	技术选型	选型理由
后端	Python (Flask)	Python是AI领域的首选语言，生态无敌。Flask轻量、灵活，适合快速构建API，更能清晰地展示每个组件的集成过程。
前端	JavaScript (React)	组件化开发的标杆，拥有最繁荣的生态。能高效构建复杂的单页面应用，完美应对面试流程中的各种状态交互。
AI核心	讯飞星火 & 相关API	赛题指定。同时也是国内领先的商用大模型，提供了一站式的多模态能力，稳定可靠。
数据库	MySQL	可靠的关系型数据库，用于存储用户、面试记录、报告等结构化数据。
缓存	Redis	极快的内存数据库。用来缓存热点数据（如评测规则）、管理异步任务队列，是提升性能的利器。
文件存储	MinIO	开源的对象存储，可自建为“私有S3”。完美应对视频、音频等非结构化大数据文件的存储需求。
部署	Docker	容器化技术。实现环境隔离、一键部署，是现代化应用上线的标准姿势。

三、系统架构：数据是如何流动的？

下面这张图是整个系列的核心，请你务必反复理解。它描绘了系统如何处理一次完整的面试请求。

flowchart TD
    subgraph A [前端 Frontend]
        A1[React UI]
        A2[媒体采集<br>摄像头/麦克风]
    end

    subgraph B [后端 Backend - Flask]
        B1[API 路由]
        B2[业务逻辑]
        B3[Celery 异步任务]
    end
    
    subgraph C [数据与存储层]
        C1[（MySQL）]
        C2[（Redis）]
        C3[（MinIO）]
    end
    
    subgraph D [AI服务层]
        D1[讯飞星火大模型]
        D2[讯飞语音识别]
        D3[讯飞情绪分析]
    end

    A1 -- HTTP Request (开始面试/提交答案) --> B1
    B1 -- 读写用户/题目数据 --> C1
    B1 -- 缓存会话/报告 --> C2
    
    A2 -- 上传视频/音频文件 --> C3
    
    B2 -- 触发异步分析 --> B3
    B3 -- 从存储获取文件 --> C3
    B3 -- 调用AI服务 --> D
    B3 -- 保存最终评测报告 --> C1
    
    B1 -- HTTP Response (返回报告) --> A1

在这里插入图片描述

流程解读（结合图表）：

用户在前端 点击“开始面试”，React组件通过HTTP请求调用Flask后端。
Flask API层 处理请求，从MySQL中加载面试题目，并利用Redis记录面试状态。
问答过程中，前端通过媒体设备采集音视频，分别录制并分块上传至MinIO对象存储。
用户提交答案后，Flask并不立即处理，而是创建一个Celery异步任务，直接向用户返回“正在分析中”。
在后台，Celery Worker同时执行多个任务：
- 从MinIO获取用户的音视频和简历。
- 并行地调用讯飞语音识别、情绪分析API。
- 将语音识别后的文本，连同用户简历，送入讯飞星火大模型进行内容评估。
所有AI结果返回后，Celery任务执行你在设计中提到的加权评分模型，生成综合评分和可视化报告数据，最终将结果存入MySQL。
前端通过轮询或WebSocket收到“报告已生成”的通知，再从后端获取并展示最终报告。

四、核心难点与破局思路

在开始 coding 之前，认清这些“拦路虎”至关重要。

核心难点	破局思路	对应技术/博客
1. 实时性与长耗时任务的矛盾	异步处理。用户提交后立即返回，AI分析在后台跑。这是系统设计的关键。	Celery, Redis (作为消息代理)
2. 多模态数据的时间同步	打时间戳。所有数据（音频帧、视频帧）都标记一个统一的相对时间，分析时按时间窗口对齐。	自定义同步协议
3. 前端复杂的面试状态管理	状态管理库。使用Redux或Zustand在前端集中管理面试流程、计时器、题目序列等状态。	React, Redux/Zustand
4. 大文件上传与网络稳定性	分片上传。将大视频文件切成小片上传，网络中断后可续传，提升用户体验。	前端分片，后端合并
5. 系统性能与扩展性	缓存+容器化。Redis缓存热点数据；Docker容器化实现水平扩展。	Redis, Docker

五、学习路径规划

我将这个系列分为四个阶段，请你一步一个脚印地跟随：

第一阶段：夯实后端基石 (Flask API与服务设计)
- 博客一：打造高并发的Flask API服务器
- 博客二：用户系统与面试流程状态机
第二阶段：构建前端交互 (React与媒体流处理)
- 博客三：用React构建沉浸式面试前端
- 博客四：浏览器中捕获与处理音视频流
第三阶段：注入AI灵魂 (多模态集成与融合)
- 博客五：集成讯飞星火：让面试官会提问、会思考
- 博客六：让面试官会“听”：语音识别与副语言分析
- 博客七：让面试官会“看”：视频情绪与微表情分析
- 博客八：多模态融合：打造终极评测引擎
第四阶段：交付与升华 (部署、优化与展望)
- 博客九：可视化反馈：用ECharts生成专业报告
- 博客十：Docker容器化与云端部署
- 博客十一（终篇）：项目复盘、性能优化与未来演进