引言

在数字时代,漫画爱好者常常面临语言障碍,尤其是日漫的日语文本难以快速理解。Manga Image Translator 是一个开源工具,能一键检测、翻译并修复图像中的文字,让你轻松将日语漫画翻译成中文或英语等语言。

免费源码下载:https://download.csdn.net/download/qq_29655401/92179761

项目地址:https://github.com/zyddnys/manga-image-translator

一、工具介绍与实用价值

Manga Image Translator 是 GitHub 上一个热门开源项目,专为翻译漫画、图像板和群聊图片中的文字而设计。它不是简单的OCR 工具,而是完整 pipeline:从文本检测、OCR 识别,到机器翻译、图像 inpainting(修复原文字)和文本渲染。核心优势在于实用性——支持批量处理文件夹,支持 20+ 语言(源语言如日语、简中、韩语;目标如英语、中文、法语),输出高质量 PNG/JPG 或可编辑的 XCF/PSD/PDF。

为什么实用?

  • 针对漫画优化:自动处理气泡文本、旋转文字,支持上采样低分辨率图像,避免翻译后排版崩坏。
  • 离线/在线混合:离线模型(如 Sugoi 日英翻译)无需 API 密钥,适合隐私敏感用户;在线如 DeepL/ChatGPT 提供高精度。
  • 深度扩展:集成 GIMP 图层输出,便于后期手动调整;支持术语表(glossary),自定义专有名词翻译(如动漫角色名)。 实际场景:日漫爱好者可批量翻译整本漫画,节省手动打码时间;开发者可集成到 App 中,实现一键多语种图像翻译。

二、环境准备与安装教程

安装前,确保系统干净,避免依赖冲突。工具基于 Python 3.10+,PyTorch 后端,支持 CPU/GPU。

2.1 系统依赖与环境要求

  • Python:3.10 ~ 3.12(检查:python --version)。更高版本可能与 PyTorch 不兼容。
  • PyTorch:CPU 版默认;GPU 版需匹配 CUDA(e.g., CUDA 11.8:pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118)。
  • Windows 特定:安装 Microsoft C++ Build Tools(下载:https://visualstudio.microsoft.com/vs/ ,选择“使用C++ 的桌面开发”工作负载)。
  • GIMP(可选,用于 XCF/PSD 输出):2.x 版本,默认路径 C:\Users\<用户名>\AppData\Local\Programs\Gimp 2。
  • Docker(可选):19.03+,NVIDIA Container Toolkit(GPU 支持)。
  • API 密钥(在线翻译):创建 .env 文件,如 OPENAI_API_KEY=your_key、DEEPL_AUTH_KEY=your_key。模型自动下载到 ./models。

2.2 Pip 安装(推荐初学者)

  1. 克隆仓库:

    text

    git clone https://github.com/zyddnys/manga-image-translator.git
    cd manga-image-translator
  2. 创建虚拟环境:

    text

    python -m venv venv
    # Linux/Mac: source venv/bin/activate
    # Windows: venv\Scripts\activate
  3. 安装依赖:

    text

    pip install -r requirements.txt
    # GPU 版额外:pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade --force-reinstall
  4. 测试:运行 python -m manga_translator config-help,输出配置帮助即成功。首次运行会下载模型(~几 GB)。

2.3 Docker 安装(适合生产环境)

Docker 镜像已预装一切(~15GB),无需手动依赖。

  1. 拉取镜像:docker pull zyddnys/manga-image-translator:main。
  2. CPU Web 服务器(示例):

    text

    docker run --name mit_cpu -p 5003:5003 --ipc=host --rm -v $(pwd)/result:/app/result zyddnys/manga-image-translator:main server/main.py --verbose --start-instance --host=0.0.0.0 --port=5003
    添加环境:-e OPENAI_API_KEY=xxx。
  3. GPU 版:添加 --gpus all --use-gpu。
  4. CLI 示例:

    text

    docker run --rm -v $(pwd)/input:/app/input -v $(pwd)/output:/app/output zyddnys/manga-image-translator:main local -i /app/input --dest /app/output --use-gpu

Docker 优势:隔离环境,一键部署;缺点:镜像大,初次拉取慢。

三、核心功能深度解析

工具 pipeline:检测 → OCR → 翻译 → Inpainting → 渲染 → 输出。每个环节可自定义,深度调优提升翻译精度 20%+。

3.1 文本检测与 OCR

  • 检测器:default(通用)、ctd(日韩漫画最佳)、craft(复杂布局)。参数:--detector ctd,支持旋转(--angle 90)、上采样(--upscale_ratio 2 改善低清图像)。
  • OCR 模型:48px(日韩推荐)、mocr(多语言)。过滤:--min-text-len 3 忽略短词,--box-threshold 0.5 减少噪声。深度:OCR 后可合并边界框,避免气泡分割错误。

3.2 翻译引擎与模型选择

  • 在线:DeepL(高精度)、ChatGPT(上下文理解,支持 CoT 提示模板)。需 API 密钥,延迟 ~1s/页。
  • 离线:Sugoi(日→英专精,BLEU 分高)、NLLB(多语言,~1GB 模型)。参数:--translator sugoi --target-lang ENG,支持术语表(--glossary mit_glossary 保留动漫术语)。
  • 深度:翻译链(--translator-chain offline,chatgpt)先粗译后精炼;替换字典(--pre-dict dict.json)修正 OCR 错误,如 “日” → “日本”。

3.3 图像修复与渲染优化

  • Inpainting:lama_large(推荐,修复自然),参数 --inpainting-size 512(大图用 1024)。精度:--precision fp16 加速 GPU。
  • 渲染:manga2eng(气泡自适应),--font-size-offset 2 调整大小,--font-color FFFFFF:000000(白底黑字)。支持 RTL(阿拉伯语)。
  • 深度:着色(--colorizer mc2 --denoise-sigma 50)复原彩漫;内核擦除(--kernel-size 3)防文本泄漏。

3.4 批量处理与输出格式

  • 批量:输入文件夹,输出 <input>-translated,--skip-no-text 跳过无文字图。
  • 输出:PNG(默认)、PDF(GIMP 生成,多页漫画)。实用:--save-text 保存 TXT,便于二次编辑。

四、使用示例:从 CLI 到 Web

4.1 CLI 本地批量翻译

基础命令:

text

python -m manga_translator local -v -i images/ --use-gpu --translator sugoi --target-lang CHS
  • -v:详细日志。
  • 结果:images-translated/ 文件夹。 高级:--config-file config.json 加载自定义(如上采样 + 术语表)。

4.2 Web 界面与 API 集成

  • Web UI:cd server; python main.py --use-gpu(http://127.0.0.1:8000)。上传单图,实时预览。
  • API:同上,Swagger 文档:http://127.0.0.1:8000/docs 。示例curl:

    text

    curl -X POST "http://127.0.0.1:8000/translate" -F "image=@test.jpg" -F "target_lang=CHS"

在线 demo:https://touhou.ai/imgtrans/(浏览器一键)。

五、高级配置与性能调优

5.1 配置文件 JSON 模式

生成模板:python -m manga_translator config-help >> config.json。示例片段:

json

{
  "detector": {"name": "ctd", "detection_size": 960},
  "ocr": {"name": "48px", "box_threshold": 0.5},
  "translator": {"name": "sugoi", "target_lang": "CHS", "glossary": "mit_glossary"},
  "inpainter": {"name": "lama_large", "inpainting_size": 512},
  "render": {"name": "manga2eng", "font_size_offset": 2}
}

深度:GPT 配置 YAML 支持 prompt_template(如 CoT:“先分析上下文,再翻译”),提升专有名词准确率。

5.2 GPU 加速与故障排除

  • GPU:--use-gpu 加速 5x+;Docker --gpus all。有限模式 --use-gpu-limited 避开离线翻译器。
  • 故障
    • 文本泄漏:增大 kernel_size=5 或 mask_dilation_offset=20。
    • OCR 低准:上采样 --upscale_ratio=2,调整 text_threshold=0.7。
    • Windows 错误:重装 C++ Tools,重启 venv。 性能提示:小图用 CPU,大批量用 GPU;模型 TTL --models-ttl 3600 缓存 1 小时。

六、结语与社区贡献

Manga Image Translator 以其实用 pipeline 和深度自定义,极大提升了图像翻译效率。安装后,你能快速处理数百页漫画,未来可扩展视频支持。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐