DiffVox 打造下一代声效模型；面部情感识别数据集让 AI 读心术成真！

模型结合动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，可精准解析文本、表格、公式、图表等复杂文档结构，同时支持 109 种语言。依托高效量化技术与推理优化策略，SmolLM3-3B 能在资源受限的设备上稳定运行，并在多项任务中实现接近更大模型的表现，非常适合本地化部署与移动端 AI 应用落地。DeePMD-kit_Example 是 DeePMD-kit 提供的官方示例集，涵盖多

OpenBayes

920人浏览 · 2025-11-20 20:01:56

OpenBayes · 2025-11-20 20:01:56 发布

公共资源速递

This Weekly Snapshots ！

6 个公共数据集：

* Freebayes_Benchmark 基准测试集

* DiaMoE-TTS 多方言语音表音数据集

* APEX 人工智能生产力评测基准数据集

* BWA_Benchmark（SBC）基准测试集

* DeePMD-kit_Example 势能模型示例数据集

* Facial Emotion Recognition 面部情感识别数据集

5 个公共教程：

* DiffVox: 声音区分效果模型

* HunyuanWorld-Mirror：3D 世界生成模型

* PaddleOCR-VL：多模态文档解析

* LongCat-Video：美团开源的AI视频生成模型

* 一键部署 SmolLM3-3B：3B 级长上下文双模推理模型

访问官网立即使用：openbayes.com

公共数据集

1.Freebayes_Benchmark 基准测试集

Freebayes_Benchmark 是一个用于评估 FreeBayes 变异检测工具性能的标准基准集，包含公开测序样本的 BAM/FASTA 文件与可复现运行参数。该数据集结构完整，可用于比较不同版本、构建方式及硬件平台下的运行速度与结果一致性，适合作为本地环境验证与管线优化的参考。

* 在线使用：

https://go.openbayes.com/K67hu

2. DiaMoE-TTS 多方言语音表音数据集

DiaMoE-TTS 是一个面向多方言 TTS 任务的语音表音数据集，基于多种开源方言语料构建，并采用统一的 IPA 表音体系进行了标准化处理。数据覆盖多类型方言，结构规范，可直接用于方言建模、跨方言迁移学习与零样本语音合成研究。

* 在线使用：

https://go.openbayes.com/u0aIC

3. APEX 人工智能生产力评测基准数据集

APEX 是用于评估前沿 AI 模型在高价值知识工作中表现的综合基准，涵盖投行、咨询、法律与基础医疗四类专业任务。数据集包含 200 个真实案例及可解释评分标准，可直接用于模型的专业能力测评与跨领域执行力分析。

* 在线使用：

https://go.openbayes.com/NJBCO

数据集构建流程

4. BWA_Benchmark（SBC）基准测试集

BWA_Benchmark（SBC）用于评估 BWA 在单板计算机及移动设备等资源受限平台上的比对性能。基准提供大肠杆菌参考基因组、真实短读序列与统一运行参数，可用于比较不同 CPU 架构、系统位宽和线程配置下的比对效率与可用性。

* 在线使用：

https://go.openbayes.com/rENCg

5. DeePMD-kit_Example 势能模型示例数据集

DeePMD-kit_Example 是 DeePMD-kit 提供的官方示例集，涵盖多种体系的训练样例、模型配置与分子动力学任务设置。数据组织清晰，可作为验证环境配置、学习势能模型构建流程与搭建自定义 Deep Potential 模型的标准模板。

* 在线使用：

https://go.openbayes.com/1DpRF

6. Facial Emotion Recognition 面部情感识别数据集

Facial Emotion Recognition 数据集是一个用于面部情绪分类的标准基准，涵盖 7 类基础情绪，并基于 FER2013 与 RAF-DB 融合构建。所有图像均经过统一的人脸筛选与 RGB 规范化处理，数据结构清晰、质量稳定。数据集提供标准情绪标签，可直接用于情绪识别模型训练、验证与相关人机交互研究。

* 在线使用：

https://go.openbayes.com/ULoBC

数据集示例

公共教程

1. DiffVox: 声音区分效果模型

DiffVox 是由索尼 AI、索尼集团与伦敦玛丽女王大学联合发布的新一代人声音效风格迁移模型。其核心通过推理时优化技术与高斯先验约束，能够在不牺牲混音参数合理性的情况下，将原始干声精准转化为高度贴近目标参考的声音风格效果。作为专注于人声风格建模的先进系统，DiffVox 能捕捉并重建丰富的音效分布特征，为音乐制作、音频后期和声效生成提供专业级智能支持。

* 在线运行：

https://go.openbayes.com/gh7EQ

项目示例

2.PaddleOCR-VL：多模态文档解析

PaddleOCR-VL 是面向文档解析场景的高效视觉语言模型，以紧凑的 PaddleOCR-VL-0.9B 为核心。模型结合动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，可精准解析文本、表格、公式、图表等复杂文档结构，同时支持 109 种语言。PaddleOCR-VL 在页面级与元素级任务上均达成行业领先（SOTA）表现，并保持极低资源开销与高速推理，非常适用于企业级文档自动化、金融票据理解与多语言档案解析等大规模落地场景。

* 在线运行：

https://go.openbayes.com/kxl4t

项目示例

3. HunyuanWorld-Mirror：3D 世界生成模型

HunyuanWorld-Mirror 是腾讯混元团队于 2025 年发布的高性能 3D 世界重建模型。支持多视图图像与视频等多模态输入，可输出点云、深度图、相机姿态等多类型三维几何结果。其纯前馈架构可在单张显卡上实现处理 8–32 视图的秒级推理，结合动态先验注入与课程学习策略，有效提升对复杂场景的几何表达能力。HunyuanWorld-Mirror 在 3D 点云重建与端到端 3DGS 重建任务中展现了行业领先的细节还原与几何精度。

* 在线运行：

https://go.openbayes.com/B8sCb

项目示例

4. LongCat-Video：美团开源的AI视频生成模型

LongCat-Video 是美团 LongCat 团队开源的 136 亿参数视频生成大模型，专为文本到视频（T2V）、图像到视频（I2V）和视频续写任务而设计。通过多奖励强化学习（GRPO）优化，模型在长视频一致性、高分辨细节生成和时序稳定性方面均达到领先水平。得益于开源特性与卓越的生成能力，LongCat-Video 在内部及公共基准测试上表现可与先进商用系统相媲美，为高质量长视频生产提供了强大工具链。

* 在线运行：

https://go.openbayes.com/ph6Iy

项目示例

5. 一键部署 SmolLM3-3B：3B 级长上下文双模推理模型

SmolLM3-3B 是 Hugging Face TB 团队于 2025 年 7 月开源推出的轻量级长上下文推理模型。作为一款仅 3B 参数却定位于「端侧性能天花板”的开源模型，它在紧凑规模下依然展现出强大的多语言处理能力、长序列理解能力与双模态推理能力。依托高效量化技术与推理优化策略，SmolLM3-3B 能在资源受限的设备上稳定运行，并在多项任务中实现接近更大模型的表现，非常适合本地化部署与移动端 AI 应用落地。

项目示例

* 在线运行：

https://go.openbayes.com/imofO

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【小白无痛】CLIP 多模态模型基石：从原理图解到 PyTorch 代码逐行复现

2048 AI社区

LangChain聊天模型---工具调用

LangChain 支持 3 种@tool这 3 种方式的核心目标都是生成 LangChain 标准的工具对象方式 1：简单直接，依赖 docstring；方式 2：灵活强大，依赖 Pydantic BaseModel；方式 3：简洁紧凑，依赖 Annotated 类型提示。

2048 AI社区

【大数据 & AI】Flink Agents 源码解读 --- (6) --- ActionTask

PythonActionTask 对应一个 Python 函数（更准确地说是一个 PythonFunction 对象），这个函数是在创建 Action 时定义的，存储在 action.getExec() 中。但PythonActionTask 不仅仅是简单的函数封装，而是使其能够在 Flink Agents 框架中正确执行，并支持框架所需的高级特性。复杂逻辑：PythonActionTask 不仅