合合信息亮相香港AI智慧城市研讨会，以文本智能技术赋能LLM生产力革新

然而，城市运行中产生的海量非结构化数据，例如政策文件、企业报告、民生服务单据、学术科研资料等，长期锁定在 PDF、扫描件、PPT 等多元格式中，因布局复杂、类型多样、质量参差等问题，难以被大模型有效读取利用。智能文档抽取、LLM智能审核等底层能力，合合信息推出的TextIn DocFlow文档自动化平台，已在金融、复杂版面元素的精准识别：无论是复杂表格、多栏排版、数学公式、手写体、印章、页眉页脚，

b_qixin

839人浏览 · 2025-11-17 15:36:02

b_qixin · 2025-11-17 15:36:02 发布

近日，由香港生产力促进局（HKPC）主办的“AI驱动新一代智慧城市”研讨会在香港成功举办。本次研讨会汇聚了来自政府、学术界与科技企业的多位专家，共同探讨人工智能在城市治理、公共服务与可持续发展中的前沿应用。合合信息受邀出席，智能解决方案事业部售前总监李海文发表《重建文档智能边界，赋能下一代LLM生产力引擎》主题演讲，分享了合合信息在多模态大模型文本智能技术方面的创新成果与落地实践。

当前，人工智能技术正加速渗透城市发展各个维度，从公共服务优化到基建营运升级，从可持续生活构建到政策规划创新，AI 已成为驱动智慧城市演进的核心引擎。然而，城市运行中产生的海量非结构化数据，例如政策文件、企业报告、民生服务单据、学术科研资料等，长期锁定在 PDF、扫描件、PPT 等多元格式中，因布局复杂、类型多样、质量参差等问题，难以被大模型有效读取利用。

本次研讨会重点探讨生成式AI、AI 机械人、AI 安全等尖端技术的场景化应用。合合信息作为深耕人工智能领域19年的科技企业，分享了文本智能技术如何打通数据流转的最后一公里，为大模型提供高质量数据输入，引发现场嘉宾广泛关注。

合合信息智能解决方案事业部售前总监李海文发表演讲

针对上述非结构化数据痛点，合合信息已推出了大模型友好的TextIn文档解析，致力于重构文档智能的边界，成为大模型与真实业务数据之间的“桥梁”。TextIn文档解析具备多格式高精度解析能力，支持PDF、Word、Excel、PPT、图片等十余种常见文件格式，可转化输出为Markdown或JSON格式，并保留原始版面元素与坐标信息，为大模型训练与推理提供高质量、可溯源的输入数据。

演讲中系统展示了TextIn文档解析在以下几方面的核心能力：

复杂版面元素的精准识别：无论是复杂表格、多栏排版、数学公式、手写体、印章、页眉页脚，还是图表，TextIn文档解析均可实现高精度还原，并智能捕捉元素之间的语义关联。
表格识别与跨页合并：针对跨页表格、合并单元格、无线表格、密集排版表格等解析难题，TextIn文档解析具备领先的结构还原与内容连续性处理能力。
阅读顺序与文档树构建：通过自研的文档树引擎，系统能理解并还原文档的逻辑层级与阅读顺序，显著提升RAG等场景中的召回效果。
图像增强与干扰排除：集成切边矫正、水印去除等图像处理技术，有效提升扫描件与拍摄文档的识别质量。

本次演讲还结合具体案例，分享了TextIn文档解析在知识库与RAG系统、数据治理与语料清洗、多语言文档翻译、智慧物流与报关等多个场景中的典型应用。同时，基于TextIn文档解析与智能文档抽取、LLM智能审核等底层能力，合合信息推出的TextIn DocFlow文档自动化平台，已在金融、能源、物流、医疗、政务等多个行业落地。