吴恩达:精简AI规模

人工智能先驱表示,现在是采用智能规模、"以数据为中心"的方案解决重大问题的时机。

吴恩达曾参与推动基于海量数据的深度学习模型发展,如今他正倡导小数据解决方案。作为人工智能领域的权威专家,吴恩达在斯坦福大学期间率先使用GPU训练深度学习模型,共同创建了某机构的AI研究部门,并曾担任某中心首席科学家。他目前专注于其公司Landing AI开发的LandingLens平台,帮助制造商通过计算机视觉改进视觉检测。

基础模型的潜力与局限

关于持续扩大模型规模的争议,吴恩达表示:“NLP领域的基础模型令我振奋,计算机视觉领域也有望建立类似模型。视频数据中仍有许多信号待挖掘,但由于计算带宽和处理成本限制,我们尚未能构建视频基础模型。”

但他同时指出:“这种范式仅适用于特定问题,其他问题需要小数据解决方案。在许多缺乏庞大数据集的行业,焦点必须从大数据转向优质数据。50个精心设计的样本就足以向神经网络解释学习目标。”

数据为中心AI的核心概念

吴恩达将数据为中心AI定义为:“系统化设计构建AI系统所需数据的学科。过去十年主导范式是下载数据集同时改进代码,如今对于许多应用,神经网络架构已基本成熟,改进数据成为更有效的途径。”

他特别强调数据一致性的重要性:“我们开发工具帮助用户快速识别数据不一致部分,实现针对性改进。这种方法比简单增加数据量更能提高系统性能。”

制造业AI应用实践

在制造业视觉检测领域,Landing AI采用预训练模型结合数据工程的方法:"关键不在于模型架构,而在于提供工具帮助制造商选择正确的图像集并以一致方式标注。"吴恩达举例说明:“当发现某类别30张图像标注不一致时,我们的工具能快速定位这些问题数据,通过重新标注显著提升性能。”

应对数据偏差与合成数据

关于数据偏差问题,吴恩达认为:“数据为中心AI使我们能够针对性处理数据子集。当发现模型对特定子集表现不佳时,直接改进整个神经网络架构非常困难,而工程化处理相关子集数据则更为有效。”

对于合成数据,他指出:“这是数据为中心AI工具箱中的重要工具,但非唯一解决方案。更简单的工具如数据增强、提高标注一致性或针对性收集更多数据往往应优先尝试。”

行业定制化挑战

吴恩达对比不同领域的AI应用差异:"在消费软件领域,几个机器学习模型可服务十亿用户。而在制造业,可能需要为1万家制造商构建1万个定制AI模型。"他认为解决方案在于:“开发工具赋能客户自行构建模型,让他们能够工程化处理数据并表达领域知识。”

AI发展新方向

吴恩达预测:“过去十年AI的最大转变是转向深度学习,而这十年可能是转向数据为中心AI。随着神经网络架构的成熟,许多实际应用的瓶颈将在于能否高效获取所需数据。整个社区正为此投入巨大能量,希望更多研究开发者加入这一领域。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐