隐藏3D图像的AI生成实验

你是否见过那些隐藏着3D图像的自体立体图?就像1990年代的Magic Eye图片,看似嘈杂的重复图案,直到你以特定方式调节视觉焦距才能看到立体效果。据称,ChatGPT可以生成这类图像!

读者Pippin建议尝试用ChatGPT生成Magic Eye风格图像后,生成了上方令人捧腹的海豚图像。最令人惊讶的是其标注内容——为何会产生如此自信却完全错误的结果?

技术实现机制剖析

当要求"生成独角兽魔法眼3D立体图像"时,ChatGPT传递给DALL-E3(实际负责图像生成的模型)的描述极其详细:

  • 需要包含复杂图案和多样化色彩以确保3D效果突出
  • 背景应包含神秘元素以增强深度幻觉
  • 独角兽的角和鬃毛应在图案中清晰可辨

但DALL-E3返回的图像与预期完全不符。关键在于:ChatGPT不会对返回的图像进行任何识别验证——无论DALL-E3生成什么,对它来说都是黑箱操作。因此ChatGPT会继续按照预设描述执行,仿佛图像完全符合要求。

多模型协作的局限性

某机构的Gemini(原Bard)使用专用图像生成模型Imagen 2,其隐藏图像效果更加不理想。虽然Gemini具备图像描述模型,但仅当用户上传图像时才会调用该功能。在自主生成场景中,它本质上仍是文本生成器。

这些被宣传为"全能AI"的模型,实际更像装满应用的手机:文本生成应用可在特定情况下启动图像生成应用,但它们并非真正意义上的统一程序。

自我验证能力的缺失

即使在纯文本生成场景中(理论上可自我校验),ChatGPT仍然默认自己表现出色。在生成ASCII文字艺术并自行读取时:

  • 在新会话中向其发送自生成的ASCII文字时,它识别为"ERROR"
  • 对自身创作的ASCII艺术品的识别和评级同样糟糕

技术本质揭示

生成ASCII艺术和3D图像并非ChatGPT类模型的主要应用场景,但这充分暴露了根本问题:这些模型并不理解用户需求,也不掌握正确执行的基本步骤。当ChatGPT增加图像识别或描述功能时,并非原文本模型变聪明,只是能调用其他应用而已。

最后尝试让ChatGPT生成《小王子》风格的隐藏绵羊图像,结果基本失败。这再次证明了当前AI在多模态任务协同处理上的技术局限性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐