项目基本信息

项目名称: 微博评论情感分析系统
项目目标

开发一个端到端的后端服务,该服务能接收用户上传的评论数据(例如CSV或Excel文件),批量分析所有评论的情感倾向(积极、消极或中性),并最终以结构化数据形式返回整体的好评率、差评率及中评率。

该项目旨在展示一名有五年经验的Java开发者,如何将成熟的后端工程能力与新兴的AI技术相结合,解决实际业务问题。

项目核心价值
  • 技术融合: 完美结合Python(AI模型训练)和Java(后端服务部署),打通AI应用的端到端全链路。
  • 解决实际痛点: 将AI能力从单点判断升级为批量分析,为企业提供量化的舆情洞察。
  • 突出工程能力: 重点展示如何将AI模型工程化,并集成到稳定、可维护的Java生产环境中。

技术栈选型

  • 数据处理与模型训练:
    • Python: AI领域主流编程语言。
    • Pandas: 用于数据清洗、处理和分析。
    • Jieba: 中文分词库,处理中文文本的关键步骤。
    • PyTorch: 流行的深度学习框架,易用且灵活。
    • Hugging Face Transformers: 强大的预训练模型库,极大简化模型训练过程。
  • 模型部署与后端服务:
    • ONNX (Open Neural Network Exchange): 开放的模型交换格式,实现跨框架部署。
    • Spring Boot: 快速构建、功能强大的Java后端框架。
    • DJL (Deep Java Library): 亚马逊开源的Java深度学习库,用于在Java中加载和运行ONNX模型。

项目实施方案(分阶段)

第一阶段:AI核心技术学习与数据处理(约 4-6 周)

目标: 掌握AI项目的基础流程和工具,并完成数据准备。

  1. Python与核心库学习: 熟悉Python基础语法、掌握Pandas、Numpy等库的常用操作。
  2. AI理论入门: 学习吴恩达或李宏毅的入门课程,理解机器学习与深度学习的核心概念。
  3. 环境配置与数据准备:
    • 配置Python环境,安装所有必需库。
    • 从公开渠道获取中文评论数据集。
    • 使用 PandasJieba 完成数据清洗、分词、停用词过滤等预处理工作。
第二阶段:AI模型训练与验证(约 3-4 周)

目标: 训练并获取一个可用的情感分析模型。

  1. 选择与微调模型: 使用 Hugging Face Transformers 库,选择一个中文预训练模型(如bert-base-chinese)。
  2. 编写训练脚本: 使用 PyTorch 编写模型训练脚本,包括数据加载、模型定义、训练循环及模型保存。
  3. 模型验证: 在验证集上评估模型的性能,确保其能够准确地进行情感分类。
第三阶段:Java后端服务与模型部署(约 3-5 周)

目标: 将训练好的AI模型集成到Java后端服务中。

  1. 模型导出: 使用 PyTorchtorch.onnx.export 功能,将训练好的模型转换为 ONNX 格式。
  2. Spring Boot项目搭建: 创建一个 Spring Boot 项目,并添加 DJL 依赖。
  3. 实现文件上传接口: 设计一个API接口,接收用户上传的CSV或Excel文件。
  4. Java核心逻辑开发:
    • 使用 DJL 加载 ONNX 模型。
    • 读取并遍历上传文件中的每一条评论。
    • 对每条评论调用模型进行推理,获取分类结果。
    • 统计积极、消极、中性评论的数量,计算比率。
    • 将结果以JSON格式返回给调用方。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐