个人理解:

  • 思想 --> 讨论 --> 白板 --> 草图 --> 原型 --> 设计 --> 代码 --> 测试。。。。。。
  • 敏捷过程中的产出有多少可以被AI识别、转换,促成最终产品以最短的时效提交客户?
    有多少并不成熟的草稿可以被AI汇总、理解后生成标准的规格说明?
    一直恐写文档的软件开发过程,是否能被AI所取代?我们只需要给出只言片语的思考
    代码呢?AI辅助下的软件开发该如何演进?
  • AI对图片文字识别完整、正确 -- OCR专门程序还有必要么?
  • AI对图片功能意图识别正确 -- 给的图片太简单了?还是AI大模型能感受到我最近的输入?
  • 使用标准的WPS Officel打开界面,AI对图片内容的识别效果依然很Nice
  • AI按图实现代码:
    - GUI界面元素基本按原界面实现(区别:"图像显示" 标签,按钮配色)
    - 核心功能"开始识别",部分代码需要手工调整(show_log, cls, ),这个问题在所有Python + OCR的尝试中均存在 -- 为什么?
  • AI大模型对图片的识别 + 代码实现基本满足要求 -- 如果新、旧对话不存在上下文的联系
  • AI进一步降低了开发的门槛和难度,代码生成效率和效果,使不懂得代码的人士能快速通过AI辅助实现自己的想法,对于专业程序员是效率的极大提升
  • 关于编码,专业的代码知识仍是必要且重要的,高质量的提问需要对前次结果进行分析、补充和强化不足 -- 也许下一版本的AI可以一次表现的更完美
  • 也许 Python + OCR 这样的程序对AI来讲有点“简单”,需要设计一个更有难度的需求,来更深入的验证和学习AI大模型

给出需求,使用文心一言 / cursor + AI轻松开发,500+行代码,一次功能实现80%,二次功能实现100%。
虽仍有细节需不断打磨,但相比给出的需求,输出结果完全在可以接受的范围。

如果需求只是一份原型图(手绘?机绘?),AI会给出什么样的结果?
从 文心一言 换成 豆包,试试结果如何:重建对话

-- 提问 1-1:请识别上传图片中的元素列表,以界面位置、元素名、功能 形式输出
   > 手绘图片中的文字识别准确 -- 要什么OCR,直接传图片给AI模型中就好了
   > 在未给出背景说明的前提下,单凭一张手绘示意图对界面元素的意图方向识别正确

 原型:

提问(Prompt):请识别上传图片中的元素列表,以界面位置、元素名、功能 形式输出
豆包 输出:
  • 界面顶部左侧:“图片”“目录”“文件” 选项,功能是切换不同的资源查看类别。
  • 界面顶部右侧:输入框 +“打开” 按钮,功能是输入路径或选择文件以打开相应资源。
  • 界面左侧:“开始识别” 按钮,功能是启动识别操作;“保存为图片”“保存为文本” 按钮,功能是将识别结果分别保存为图片格式和文本格式。
  • 界面中间左侧:“原始图” 显示区域,功能是展示原始图片。
  • 界面中间右侧:“识别图” 显示区域,功能是展示经过识别处理后的图片。
  • 界面底部:进度条,功能是显示识别操作的进度。

-- 提问 1-2:请识别上传图片中的元素列表,以界面位置、元素名、功能 形式输出
   > 标准GUI程序程序界面:基本界面元素识别正确
   > 界面标题未识别,但通过标题?对界面功能点的意识有识别

原型:

提问(Prompt):请识别上传图片中的元素列表,以界面位置、元素名、功能 形式输出

豆包 输出:

  • 界面左上角:“打开” 按钮,功能是用于选择并上传需要识别的图片。
  • 界面上方中间:文件路径显示框,功能是显示已上传图片的文件路径。
  • 界面上方中间:“选择区域” 按钮,功能是用于手动选择图片中需要识别的区域。
  • 界面上方中间:“左旋” 按钮,功能是将图片向左旋转。
  • 界面上方中间:“右旋” 按钮,功能是将图片向右旋转。
  • 界面上方中间:滑块,功能是用于调整图片的显示比例等相关视觉设置。
  • 界面上方右侧:“开始识别” 按钮,功能是启动对图片中文字的识别操作。
  • 界面上方右侧:“保存” 按钮,功能是将识别结果进行保存。
  • 界面右侧大区域:识别结果显示框,功能是显示图片文字识别的结果,且可直接编辑。
  • 界面左下角:图片显示区域,功能是显示已加载的图片,默认识别整个区域。
  • 界面左下角:状态提示文字,功能是提示图片已加载及识别区域的默认设置。

-- 提问 1-3:请识别上传图片中的元素列表,以界面位置、元素名、功能 形式输出
   > WPS OfficeGUI程序打开界面:界面各功能元素识别正确
   > 各元素功能意图识别基本正确

原型:

提问(Prompt):请识别上传图片中的元素列表,以界面位置、元素名、功能 形式输出
豆包 输出:
  • 界面左上角:“文件” 菜单,功能是进行文件的新建、打开、保存、另存为等操作;
    “自动保存” 开关,功能是开启或关闭文档自动保存功能;
    工具栏(包含保存、撤销、重做等图标),功能是执行相应的快捷操作。
  • 界面顶部功能区:“开始”“插入”“页面”“引用”“审阅”“视图”“工具”“会员专享”“WPS AI” 等选项卡,功能是切换不同的功能模块。
  • “开始” 选项卡下的工具栏:
    • 格式刷、粘贴按钮,功能是快速复制格式和粘贴内容。
    • 字体设置区域(宋体(正文)、五号等下拉框,加粗、倾斜、下划线、字体颜色等按钮),功能是设置文字的字体、字号、样式、颜色等。
    • 段落设置区域(对齐方式、缩进、行距、项目符号等按钮),功能是设置段落的对齐、缩进、行距和添加项目符号等。
    • 样式区域(正文、标题 1 - 标题 4、默认段落字体等样式),功能是应用预设的文本样式。
    • 查找替换、翻译、AI 排版、排版、排列、智能公文等按钮,功能是执行查找替换文本、翻译、AI 辅助排版等操作。
  • 界面右侧:编辑工具(如画笔、选择工具等),功能是辅助文档的编辑操作;滚动条,功能是上下滚动查看文档内容。
  • 界面中间:文档编辑区域,功能是输入、编辑和查看文档内容;“按下两次 Ctrl 键唤起 WPS AI,使用 AI 帮我写” 提示,功能是引导用户使用 WPS AI 辅助写作。
  • 界面底部:页面信息(页面:1/1)、字数统计(字数:0)、拼写检查状态(拼写检查:打开)、校对按钮,功能是显示文档的页面、字数信息,以及进行拼写检查和校对操作;视图控制区域(如页面视图、阅读视图等按钮,显示比例滑块),功能是切换文档视图模式和调整显示比例。

-- 提问 2-1:请根据上传图片使用python完成程序编码
   > 系统默认使用TK完成GUI界面设计
   > self.ocr.ocr(self.image_path) ##, cls=True),问题在目前OCR识别的所有尝试中均存在,文心一言/豆包/Cursor
   > 文字识别结果中的 ['rec_texts'] 序列,问题在目前OCR识别的所有尝试中均存在,文心一言/豆包/Cursor
   > 基本功能已实现,选择区域功能

原型:

提问(Prompt):请根据上传图片使用python完成程序编码

豆包 输出:

  • 1次输出:
  • 手工调整,2次输出:‘cls’问题一直存在,需手工二次处理
  • 手工调整,3次输出:
  • 手工调整,4次输出:文字识别结果序列中的 ['rec_texts'] ,在所有识别过程均需手工二次处理

  • 未实现功能:

-- 提问 2-2:请根据上传图片使用python完成程序编码
   > 原图是cursor画出来的,生成的GUI完全匹配图片输入
   > "show_log" 问题依然存在
   > "cls" 问题依然存在
   > ['rec_texts'] 序列问题没了,cursor从之前的错误中学到了?

原型:

提问(Prompt):请根据上传图片使用python完成程序编码

Cursor 输出:

  • 1次输出:

  • 2次输出:

参考:

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐