一、 综合库与框架(AI应用的基石)

这些项目提供了构建AI应用所需的全套工具,从模型加载、预处理到部署。

  1. LangChain
    简介:当前最流行的用于开发由大语言模型驱动的应用程序的框架。它提供了“链”的概念,可以将大模型、外部数据源、工具(如计算器、搜索引擎)等连接起来,构建复杂的应用(如智能客服、高级问答机器人)。

    GitHub: https://github.com/langchain-ai/langchain

    应用场景:聊天机器人、智能文档问答、代理(Agents)应用。

  2. LlamaIndex
    简介:专注于数据索引,帮助大语言模型与私有或特定领域的数据进行高效交互。可以看作是连接LLM和您自有数据的“桥梁”。

    GitHub: https://github.com/run-llama/llama_index

    应用场景:企业知识库问答、个人文档摘要、结构化数据查询。

  3. Hugging Face Transformers
    简介:提供了数千个预训练模型的开源库,覆盖自然语言处理、图像识别、音频处理等多个领域。是NLP领域的“事实标准”。

    GitHub: https://github.com/huggingface/transformers

    应用场景:文本分类、情感分析、文本生成、图像分类、语音识别。

二、 图像生成与编辑(AIGC的核心)

  1. Stable Diffusion
    简介:开创性的文本生成图像模型,完全开源。衍生出了大量优秀的WebUI和工具,让普通人也能轻松使用。

    相关项目:

    ▪   Stable Diffusion WebUI: 最流行的图形化界面,功能极其强大。https://github.com/AUTOMATIC1111/stable-diffusion-webui
    
    ▪   ComfyUI: 基于节点流程图的图形化界面,更适合工作流定制和可视化。https://github.com/comfyanonymous/ComfyUI
    
    

    应用场景:艺术创作、概念设计、海报生成、AI摄影。

  2. Fooocus
    简介:一个简单易用的Stable Diffusion工具,专注于“提示词生成图片”,用户体验极佳,开箱即用,对新手非常友好。

GitHub: https://github.com/lllyasviel/Fooocus

应用场景:快速将创意想法转化为图像,无需复杂参数调整。

三、 语音与音频处理

  1. Whisper
    简介:OpenAI开源的自动语音识别系统,支持多种语言的转录和翻译,准确率非常高。

    GitHub: https://github.com/openai/whisper

    应用场景:会议记录、视频字幕生成、语音转文字、音频翻译。

  2. GPT-SoVITS
    简介:一个高质量的少量样本语音克隆与文本转语音工具。只需极短的音频数据即可模拟出非常逼真的声音。

    GitHub: https://github.com/RVC-Boss/GPT-SoVITS

    应用场景:语音克隆、有声书制作、视频配音、个性化TTS。

四、 视频生成与编辑

  1. Stable Video Diffusion
    简介:Stability AI开源的图像生成视频模型,可以根据一张图片生成一段短视频。

    GitHub: https://github.com/Stability-AI/Stable-Video-Diffusion

    应用场景:动态海报、短视频素材生成、创意表达。

  2. SadTalker
    简介:根据一张肖像照片和一段音频,生成人物开口说话的视频。

    GitHub: https://github.com/OpenTalker/SadTalker

    应用场景:虚拟数字人、视频口播、在线教育。

五、 有趣的AI代理(AI Agent)

  1. AutoGPT
    简介:早期引发AI Agent热潮的项目。给定一个目标,它可以自主地规划、执行任务(如上网搜索、写代码等),并持续迭代直至目标完成。

    GitHub: https://github.com/Significant-Gravitas/AutoGPT

    应用场景:自动化研究、市场分析、多步骤任务规划。

  2. Open Interpreter
    简介:一个在本地环境中运行的AI代码解释器,可以通过自然语言指令让AI控制你的电脑(执行文件操作、绘图、数据分析等)。

    GitHub: https://github.com/OpenInterpreter/open-interpreter

    应用场景:自动化办公、数据分析、文件管理。

六、 本地部署与运行环境

  1. Ollama
    简介:一个强大的框架,可以轻松地在本地(Mac/Windows/Linux)下载和运行各种开源大语言模型(如 Llama, Mistral, Gemma 等)。

    官网: https://ollama.ai/

    应用场景:在本地私有环境中使用大模型,保护数据隐私。

  2. Open WebUI (原名 Ollama WebUI)
    简介:为 Ollama 等本地大模型服务提供了一个类似ChatGPT的友好Web用户界面。

    GitHub: https://github.com/open-webui/open-webui

    应用场景:为本地部署的模型提供美观易用的聊天界面。

七、 AI应用开发平台与框架

这类平台和框架旨在快速构建和部署基于大语言模型的AI应用,提供图形化界面或标准化组件,降低开发门槛。

  1. FastGPT
    简介:一个基于LLM的高效知识库问答系统开源项目。它提供直观的图形化界面,允许用户通过拖拽方式快速构建、调试和部署基于私有知识的问答AI应用。

    GitHub: https://github.com/labring/FastGPT 。

    应用场景:企业级知识库问答、AI客服机器人、内部知识管理与智能检索。

  2. Dify 。
    简介:一个开源的LLM应用开发平台,其核心理念是“可视化编程”。允许开发者和团队通过图形化界面组装AI应用,支持提示词编排、工作流构建、RAG应用创建等功能。

    GitHub: https://github.com/langgenius/dify 。

    应用场景:构建复杂的AI工作流应用、聊天机器人、文本生成工具、多模型代理应用。

  3. ChatGPT-Next-Web
    简介:一款功能强大、界面优美的开源ChatGPT网页客户端。支持一键部署,可快速构建个人或团队的私人ChatGPT服务,并兼容多种大模型API。

    GitHub: https://github.com/ChatGPTNextWeb/ChatGPT-Next-Web

    应用场景:快速搭建私人ChatGPT站点、为团队提供统一的AI助手前端、模型API的演示界面。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐