Ubuntu安装Xinference教程

通过llama.cpp进行推理时，需要安装llama.cpp。安装好一个环境后，可以将此conda环境打包分发给其他节点。配置好点击小火箭按钮，随后可以看到自己的模型进行对话。自行下载模型，然后按图示的配置启动。然后分发到其他节点解压，

weixin_43730010

844人浏览 · 2025-04-24 14:55:11

weixin_43730010 · 2025-04-24 14:55:11 发布

安装Xinference

1. 创建conda环境并激活

# 创建一个环境
conda create -n Xinference python=3.10.14 
# 激活环境
conda activate Xinference

2. 安装Xinference环境

配置清华源

# 配置
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 单次使用清华源进行升级
python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip

安装大模型需要使用到的依赖，此处我只安装transformers，有需要可以选择[all]

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "xinference[transformers]"

此处需要先安装Pytorch：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch

3. 安装完成后启动：

# 前台
xinference-local --host 0.0.0.0 --port 9997

# 后台
nohup xinference-local --host 0.0.0.0 --port 9997 & > output.log

自行下载模型，然后按图示的配置启动
在这里插入图片描述
配置好点击小火箭按钮，随后可以看到自己的模型进行对话。
通过llama.cpp进行推理时，需要安装llama.cpp

1. 安装编译依赖
首先确保系统已安装C++编译器和CMake：
sudo apt-get update
sudo apt-get install -y build-essential cmake

2. 在Conda环境中安装编译器（如果使用Conda）
conda install -c conda-forge gxx_linux-64  # 安装GNU C++编译器
conda install cmake  # 确保使用较新版本的CMake

3. 升级pip和构建工具
pip install --upgrade pip setuptools wheel
4. 设置环境变量（可选）

# 强制使用conda环境中的CMake
export CMAKE_ARGS="-DCMAKE_C_COMPILER=/path/to/conda/env/bin/gcc -DCMAKE_CXX_COMPILER=/path/to/conda/env/bin/g++"

安装好一个环境后，可以将此conda环境打包分发给其他节点。
找到conda环境所在的位置：/usr/local/app/miniconda3/envs/，执行
tar -czvf 原环境名.tar.gz /path/to/原环境名
然后分发到其他节点解压，此时需要注意解压的位置。

此外，安装集群时，主节点执行如下命令：

xinference-supervisor -H 192.168.1.10   # 192.168.1.10为主节点的地址

worker节点执行：

xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"

参考：
https://blog.csdn.net/vvc_a/article/details/141196329

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

大佬级大模型微调手把手教程（小白能懂，代码可直接复制，全程实战无坑）

现在的大模型（GPT、通义千问、LLaMA等），就像一个“饱读诗书的通才”——能聊天、写代码、做总结，但面对你的具体需求（比如公司客服话术、行业专业问答、专属风格生成），总会显得“不够精准”。而大模型微调，就是“给通才做专项培训”，用少量专属数据，让通用大模型变成“你的专属AI助手”，精准适配你的业务场景。我见过太多小白对微调的困惑：“微调是不是很难？需要高深的数学功底吗？”“没有高端GPU能做微

2048 AI社区

Multi-Agent系统的成本优化：从资源调度到计费模式的完整实践

近两年来，Multi-Agent（多智能体）系统凭借其在复杂任务拆解（如文档批量检索增强翻译、代码库分层重构评审、多轮交互式客户决策辅助）上的强大能力，从科研原型快速走向生产落地。但随之而来的是指数级攀升的基础设施成本与大语言模型（LLM）API调用成本——根据Gartner 2024年Q2的技术趋势报告，部署在公有云的生产级Multi-Agent系统，平均有68%的运营成本（OPEX）来自LLM