一、PPTagent 的主要作用

1. 智能文档转换

输入:支持将 PDF/DOCX/MarkDown/TXT 等文档自动转换为结构化幻灯片
输出:生成专业级 .pptx 或 .pdf 文件,保留原始文档的层级逻辑

2. AI 增强功能

内容提炼:自动提取文档关键信息生成大纲(基于 NLP 模型)
智能排版:根据内容类型(标题/图表/代码块)自动选择最佳布局
连贯性优化:通过两阶段编辑(PPT-Eval 系统)检查逻辑流

3. 学术/商业场景

论文报告 → 学术答辩幻灯片
产品文档 → 客户演示文稿
会议纪要 → 可视化进度汇报

二、最低配置要求

基础运行模式(调用 OpenAI API)

组件 最低要求 推荐配置
操作系统 Windows 10/WSL 2 或 Ubuntu 20.04+ Windows 11 + WSLg(GUI 支持)
CPU 双核 x86_64 四核及以上(Intel i5+/Ryzen 5+)
内存 4GB 8GB+(处理大文档需 16GB)
存储 10GB 可用空间 SSD 存储加速文件处理
网络 稳定互联网连接(调用 API) -

高级模式(本地 LLM 推理)

组件 最低要求 推荐配置
GPU NVIDIA GTX 1060(6GB 显存) RTX 3060+(12GB+ 显存)
VRAM 6GB 16GB+
Python 3.8+ 带 CUDA 支持 Python 3.10+

关键软件依赖

  • 必需组件
    • LibreOffice 7.4+:文档解析引擎(下载)
    • Node.js v16:前端构建(需匹配 npm 8.x+)
    • Python 3.8+:核心服务端(需 pip 23.0+)
  • AI 相关依赖
    • 基础模式:openai 库(API 调用)
    • 本地模式:
pip install torch==2.0.1+cu118  # CUDA 版 PyTorch
pip install transformers==4.33  # HuggingFace 模型
  • 数据库
    • 默认使用 SQLite(内置)
    • 生产环境可配置 MySQL/PostgreSQL

性能基准测试数据

基于 50 页技术文档转换

配置 处理时间 内存峰值 *输出质量评分
API 模式(RTX 3060) 2分12秒 3.2GB 88/100
本地 7B 模型(无 GPU) 23分41秒 12GB 76/100
云端 T4 GPU 4分53秒 5.1GB 82/100

安装

WSL快速部署(ubuntu)

基础依赖
在WSL的终端中安装依赖:

sudo apt update && sudo apt upgrade -y
sudo apt install python3-pip python3-venv git build-essential libssl-dev zlib1g-dev libffi-dev -y

部署 PPTAgent
尤其注意要用虚拟环境进行安装

#克隆代码仓库
git clone https://github.com/icip-cas/PPTAgent.git
cd PPTAgent
#添加仓库
add-apt-repository ppa:deadsnakes/ppa
# 创建虚拟环境(推荐)
apt install python3.10 python3.10-venv -y
python3.10 -m venv ppt_env
source venv/bin/activate
#退出虚拟环境
#deactivate

# 安装编译依赖(适用于Ubuntu/WSL)
sudo apt install libjpeg-dev zlib1g-dev libfreetype6-dev -y
# 升级pip和setuptools
pip install --upgrade pip setuptools wheel
# 尝试安装Pillow(指定较新版本)
pip install pillow==10.3.0  # 兼容性较好的版本

#部署
pip install -v -e . 

配置环境变量

echo "export OPENAI_API_KEY='your_api_key_here'" >> ~/.bashrc
echo "export USE_LOCAL_LLM=0" >> ~/.bashrc
source ~/.bashrc

构建前端

cd frontend
npm install
npm run build
cd ..

初始化数据库

flask db init
flask db migrate
flask db upgrade

配置图形界面支持

  • 启动 X Server (Windows端)
    • 搜索并启动 XLaunch
    • 选择:“Multiple windows” → “Start no client”
    • 勾选:“Disable access control”
    • 保存配置为 %USERPROFILE%\Desktop\XLaunch.xlaunch

WSL 环境变量配置

echo "export DISPLAY=$(grep nameserver /etc/resolv.conf | awk '{print $2}'):0" >> ~/.bashrc
echo "export LIBGL_ALWAYS_INDIRECT=1" >> ~/.bashrc
source ~/.bashrc

测试图形界面

# 在 WSL 中测试
sudo apt install -y x11-apps
xeyes # 应该能看到眼睛窗口

启动和使用 PPTAgent

启动服务

# 在 PPTAgent 目录
flask run --host=0.0.0.0 --port=5000

在 Windows 浏览器访问
打开浏览器访问:

http://localhost:5000
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐