吴恩达谈数据为中心的AI革命

人工智能先驱表示，现在是采用智能规模、"以数据为中心"的方案解决重大问题的时机。吴恩达曾参与推动基于海量数据的深度学习模型发展，如今他正倡导小数据解决方案。作为人工智能领域的权威专家，吴恩达在斯坦福大学期间率先使用GPU训练深度学习模型，共同创建了某机构的AI研究部门，并曾担任某中心首席科学家。他目前专注于其公司Landing AI开发的LandingLens平台，帮助制造商通过计算机视觉改进视觉

codeshare1135

339人浏览 · 2025-08-09 11:01:18

codeshare1135 · 2025-08-09 11:01:18 发布

吴恩达：精简AI规模

人工智能先驱表示，现在是采用智能规模、"以数据为中心"的方案解决重大问题的时机。

吴恩达曾参与推动基于海量数据的深度学习模型发展，如今他正倡导小数据解决方案。作为人工智能领域的权威专家，吴恩达在斯坦福大学期间率先使用GPU训练深度学习模型，共同创建了某机构的AI研究部门，并曾担任某中心首席科学家。他目前专注于其公司Landing AI开发的LandingLens平台，帮助制造商通过计算机视觉改进视觉检测。

基础模型的潜力与局限

关于持续扩大模型规模的争议，吴恩达表示：“NLP领域的基础模型令我振奋，计算机视觉领域也有望建立类似模型。视频数据中仍有许多信号待挖掘，但由于计算带宽和处理成本限制，我们尚未能构建视频基础模型。”

但他同时指出：“这种范式仅适用于特定问题，其他问题需要小数据解决方案。在许多缺乏庞大数据集的行业，焦点必须从大数据转向优质数据。50个精心设计的样本就足以向神经网络解释学习目标。”

数据为中心AI的核心概念

吴恩达将数据为中心AI定义为：“系统化设计构建AI系统所需数据的学科。过去十年主导范式是下载数据集同时改进代码，如今对于许多应用，神经网络架构已基本成熟，改进数据成为更有效的途径。”

他特别强调数据一致性的重要性：“我们开发工具帮助用户快速识别数据不一致部分，实现针对性改进。这种方法比简单增加数据量更能提高系统性能。”

制造业AI应用实践

在制造业视觉检测领域，Landing AI采用预训练模型结合数据工程的方法："关键不在于模型架构，而在于提供工具帮助制造商选择正确的图像集并以一致方式标注。"吴恩达举例说明：“当发现某类别30张图像标注不一致时，我们的工具能快速定位这些问题数据，通过重新标注显著提升性能。”

应对数据偏差与合成数据

关于数据偏差问题，吴恩达认为：“数据为中心AI使我们能够针对性处理数据子集。当发现模型对特定子集表现不佳时，直接改进整个神经网络架构非常困难，而工程化处理相关子集数据则更为有效。”

对于合成数据，他指出：“这是数据为中心AI工具箱中的重要工具，但非唯一解决方案。更简单的工具如数据增强、提高标注一致性或针对性收集更多数据往往应优先尝试。”

行业定制化挑战

吴恩达对比不同领域的AI应用差异："在消费软件领域，几个机器学习模型可服务十亿用户。而在制造业，可能需要为1万家制造商构建1万个定制AI模型。"他认为解决方案在于：“开发工具赋能客户自行构建模型，让他们能够工程化处理数据并表达领域知识。”

AI发展新方向

吴恩达预测：“过去十年AI的最大转变是转向深度学习，而这十年可能是转向数据为中心AI。随着神经网络架构的成熟，许多实际应用的瓶颈将在于能否高效获取所需数据。整个社区正为此投入巨大能量，希望更多研究开发者加入这一领域。”
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传