AIGC（生成式AI）试用 42 -- 程序（Python + OCR）-4

（生成式AI）试用 42 -- 程序（Python + OCR）-4

Rolei_zl

468人浏览 · 2025-11-25 22:11:33

Rolei_zl · 2025-11-25 22:11:33 发布

个人理解：

思想 --> 讨论 --> 白板 --> 草图 --> 原型 --> 设计 --> 代码 --> 测试。。。。。。
敏捷过程中的产出有多少可以被AI识别、转换，促成最终产品以最短的时效提交客户？
有多少并不成熟的草稿可以被AI汇总、理解后生成标准的规格说明？
一直恐写文档的软件开发过程，是否能被AI所取代？我们只需要给出只言片语的思考
代码呢？AI辅助下的软件开发该如何演进？
AI对图片文字识别完整、正确 -- OCR专门程序还有必要么？
AI对图片功能意图识别正确 -- 给的图片太简单了？还是AI大模型能感受到我最近的输入？
使用标准的WPS Officel打开界面，AI对图片内容的识别效果依然很Nice
AI按图实现代码：
- GUI界面元素基本按原界面实现（区别："图像显示" 标签，按钮配色）
- 核心功能"开始识别"，部分代码需要手工调整(show_log, cls, )，这个问题在所有Python + OCR的尝试中均存在 -- 为什么？
AI大模型对图片的识别 + 代码实现基本满足要求 -- 如果新、旧对话不存在上下文的联系
AI进一步降低了开发的门槛和难度，代码生成效率和效果，使不懂得代码的人士能快速通过AI辅助实现自己的想法，对于专业程序员是效率的极大提升
关于编码，专业的代码知识仍是必要且重要的，高质量的提问需要对前次结果进行分析、补充和强化不足 -- 也许下一版本的AI可以一次表现的更完美
也许 Python + OCR 这样的程序对AI来讲有点“简单”，需要设计一个更有难度的需求，来更深入的验证和学习AI大模型

给出需求，使用文心一言 / cursor + AI轻松开发，500+行代码，一次功能实现80%，二次功能实现100%。
虽仍有细节需不断打磨，但相比给出的需求，输出结果完全在可以接受的范围。

如果需求只是一份原型图（手绘？机绘？），AI会给出什么样的结果？
从文心一言换成豆包，试试结果如何：重建对话

-- 提问 1-1：请识别上传图片中的元素列表，以界面位置、元素名、功能形式输出
> 手绘图片中的文字识别准确 -- 要什么OCR，直接传图片给AI模型中就好了
> 在未给出背景说明的前提下，单凭一张手绘示意图对界面元素的意图方向识别正确

原型：

提问（Prompt）：请识别上传图片中的元素列表，以界面位置、元素名、功能形式输出

豆包输出：

界面顶部左侧：“图片”“目录”“文件” 选项，功能是切换不同的资源查看类别。
界面顶部右侧：输入框 +“打开” 按钮，功能是输入路径或选择文件以打开相应资源。
界面左侧：“开始识别” 按钮，功能是启动识别操作；“保存为图片”“保存为文本” 按钮，功能是将识别结果分别保存为图片格式和文本格式。
界面中间左侧：“原始图” 显示区域，功能是展示原始图片。
界面中间右侧：“识别图” 显示区域，功能是展示经过识别处理后的图片。
界面底部：进度条，功能是显示识别操作的进度。

-- 提问 1-2：请识别上传图片中的元素列表，以界面位置、元素名、功能形式输出
> 标准GUI程序程序界面：基本界面元素识别正确
> 界面标题未识别，但通过标题？对界面功能点的意识有识别

原型：

提问（Prompt）：请识别上传图片中的元素列表，以界面位置、元素名、功能形式输出

豆包输出：

界面左上角：“打开” 按钮，功能是用于选择并上传需要识别的图片。
界面上方中间：文件路径显示框，功能是显示已上传图片的文件路径。
界面上方中间：“选择区域” 按钮，功能是用于手动选择图片中需要识别的区域。
界面上方中间：“左旋” 按钮，功能是将图片向左旋转。
界面上方中间：“右旋” 按钮，功能是将图片向右旋转。
界面上方中间：滑块，功能是用于调整图片的显示比例等相关视觉设置。
界面上方右侧：“开始识别” 按钮，功能是启动对图片中文字的识别操作。
界面上方右侧：“保存” 按钮，功能是将识别结果进行保存。
界面右侧大区域：识别结果显示框，功能是显示图片文字识别的结果，且可直接编辑。
界面左下角：图片显示区域，功能是显示已加载的图片，默认识别整个区域。
界面左下角：状态提示文字，功能是提示图片已加载及识别区域的默认设置。

-- 提问 1-3：请识别上传图片中的元素列表，以界面位置、元素名、功能形式输出
> WPS OfficeGUI程序打开界面：界面各功能元素识别正确
> 各元素功能意图识别基本正确

原型：

提问（Prompt）：请识别上传图片中的元素列表，以界面位置、元素名、功能形式输出

豆包输出：

界面左上角：“文件” 菜单，功能是进行文件的新建、打开、保存、另存为等操作；
“自动保存” 开关，功能是开启或关闭文档自动保存功能；
工具栏（包含保存、撤销、重做等图标），功能是执行相应的快捷操作。
界面顶部功能区：“开始”“插入”“页面”“引用”“审阅”“视图”“工具”“会员专享”“WPS AI” 等选项卡，功能是切换不同的功能模块。
“开始” 选项卡下的工具栏：
- 格式刷、粘贴按钮，功能是快速复制格式和粘贴内容。
- 字体设置区域（宋体（正文）、五号等下拉框，加粗、倾斜、下划线、字体颜色等按钮），功能是设置文字的字体、字号、样式、颜色等。
- 段落设置区域（对齐方式、缩进、行距、项目符号等按钮），功能是设置段落的对齐、缩进、行距和添加项目符号等。
- 样式区域（正文、标题 1 - 标题 4、默认段落字体等样式），功能是应用预设的文本样式。
- 查找替换、翻译、AI 排版、排版、排列、智能公文等按钮，功能是执行查找替换文本、翻译、AI 辅助排版等操作。
界面右侧：编辑工具（如画笔、选择工具等），功能是辅助文档的编辑操作；滚动条，功能是上下滚动查看文档内容。
界面中间：文档编辑区域，功能是输入、编辑和查看文档内容；“按下两次 Ctrl 键唤起 WPS AI，使用 AI 帮我写” 提示，功能是引导用户使用 WPS AI 辅助写作。
界面底部：页面信息（页面：1/1）、字数统计（字数：0）、拼写检查状态（拼写检查：打开）、校对按钮，功能是显示文档的页面、字数信息，以及进行拼写检查和校对操作；视图控制区域（如页面视图、阅读视图等按钮，显示比例滑块），功能是切换文档视图模式和调整显示比例。

-- 提问 2-1：请根据上传图片使用python完成程序编码
> 系统默认使用TK完成GUI界面设计
> self.ocr.ocr(self.image_path) ##, cls=True)，问题在目前OCR识别的所有尝试中均存在，文心一言/豆包/Cursor
> 文字识别结果中的 ['rec_texts'] 序列，问题在目前OCR识别的所有尝试中均存在，文心一言/豆包/Cursor
> 基本功能已实现，选择区域功能

原型：

提问（Prompt）：请根据上传图片使用python完成程序编码

豆包输出：

1次输出：
手工调整，2次输出：‘cls’问题一直存在，需手工二次处理
手工调整，3次输出：
手工调整，4次输出：文字识别结果序列中的 ['rec_texts'] ，在所有识别过程均需手工二次处理
未实现功能：

-- 提问 2-2：请根据上传图片使用python完成程序编码
> 原图是cursor画出来的，生成的GUI完全匹配图片输入
> "show_log" 问题依然存在
> "cls" 问题依然存在
> ['rec_texts'] 序列问题没了，cursor从之前的错误中学到了？

原型：

提问（Prompt）：请根据上传图片使用python完成程序编码

Cursor 输出：

1次输出：
2次输出：

参考：

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

小语言模型：综述

2048 AI社区

AI论文整理：GoogLeNet - Going Deeper with Convolutions

本文提出了名为Inception的深度卷积神经网络架构，其具体实现版本GoogLeNet（22层深）在2014年ImageNet大规模视觉识别挑战赛（ILSVRC14）中刷新分类和检测任务的state-of-the-art。该架构核心是通过精心设计的Inception模块（整合1×1、3×3、5×5卷积及3×3最大池化，利用1×1卷积实现维度缩减以控制计算量）提升计算资源利用率，在保持15亿次乘加