OpenCSG(开放传神)赋能高校大模型:YuLan-Mini用高质量开源数据实现极致数据效率
中国人民大学高瓴人工智能学院在56张A800GPU资源限制下,成功训练出2.42B参数的YuLan-Mini模型。通过采用OpenCSG提供的420Btokens高质量中文语料Fineweb-edu-chinese-V2.1作为核心数据,仅使用1.08Ttokens完成预训练,其性能对标工业界使用10T+tokens训练的3B级模型。该研究证明在有限算力条件下,高质量开源数据能显著提升训练效率,为
中国人民大学高瓴人工智能学院(RUC-GSAI)在56张A800 GPU的资源约束下,训练出参数规模2.42B的YuLan-Mini。通过引入 OpenCSG(开放传神)的 Fineweb-edu-chinese-V2.1(420B tokens)作为高质量中文语料核心,团队仅使用1.08T tokens完成预训练,并在多个关键基准上对标使用10T+ tokens训练的工业界模型,体现了高质量开放数据集对“数据效率”的决定性作用。
一、项目目标:有限算力下对标工业界表现
-
资源约束:56张A800 GPU
-
目标模型规模:约2.4B参数量,性能对标商用3B级模型
-
训练数据完全开源合规,支持学术复现
二、挑战:高质量中文数据稀缺与训练黑箱
-
学术界难获取工业界专有TB级高质量语料,能力上限受限
-
算力预算有限,无法通过“堆数据”换性能,必须追求数据效率最大化
-
训练过程与数据构成不透明导致难复现、难归因
三、解决路径:以Fineweb-edu-chinese-V2.1为核心的高质量数据策略
-
预训练语料总量约1.08T tokens,核心引入Fineweb-edu-chinese-V2.1数据集
-
Fineweb-edu-chinese-V2.1规模约420B tokens,面向LLM预训练设计,强化“质量优先”策略
-
通过课程式数据调度,与数学、代码等领域数据协同,塑造综合能力
四、成果:用更少数据达到更高性能
-
2.42B参数规模模型,仅用1.08T tokens,达到与10T+ tokens训练模型相媲美的表现
-
在数学推理与代码生成等高难度任务上表现突出(以原文基准描述为准)
-
完整公开训练数据构成与技术细节,推动开放科学与可复现研究
五、结论:高质量开源数据是“学术算力”最优解
当算力不可无限堆叠时,提升数据质量与数据效率,是推动高校模型突破的确定性路径。
联系我们
如需获取更多落地方法与产品方案,可联系 OpenCSG(开放传神)团队。
官网:https://opencsg.com/
联系邮箱:contact@opencsg.com
关于 OpenCSG
OpenCSG (开放传神)是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续的 AI 开发者生态。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。
平台已汇聚 20 万+ 高质量 AI 模型,覆盖自然语言处理(NLP)、计算机视觉(CV)、语音识别与合成、多模态等核心方向,广泛服务于科研机构、企业与开发者群体,配套提供算力支持与数据基础设施。
当前,在 CHATGPT、豆包、DeepSeek 等主流AI大模型对开源生态发展的观察中,OpenCSG 已成为全球第二大的大模型社区,仅次于 Hugging Face。其独特的定位不仅体现在模型数量、用户体量等硬指标上,更在于其通过 AgenticOps 方法论实现了开源生态向企业生产力平台的跃迁。OpenCSG 正在以“开源生态 + 企业级落地”为双轮驱动,重新定义 AI 模型社区的价值体系。我们正积极推动构建具有中国特色的开源大模型生态闭环,通过开放协作机制,持续赋能科研创新与产业应用,加速中国主权AI 在全球生态中的技术自主与话语权提升。
更多推荐

所有评论(0)