Ray：高性能、易扩展的Python分布式计算框架

Ray是一个开源的分布式计算框架，专为Python设计，旨在简化大规模计算任务的开发。它通过任务并行（Tasks）、有状态执行器（Actors）、分布式对象存储（Objects）等核心概念，支持从数据处理到机器学习的多种应用场景。Ray生态系统包含分布式训练（Ray Train）、超参数调优（Ray Tune）、模型服务（Ray Serve）和强化学习（RLlib）等组件，与主流ML框架无缝集成。

KaiWei_L

228人浏览 · 2026-01-12 17:56:07

KaiWei_L · 2026-01-12 17:56:07 发布

引言

在机器学习、数据科学和高性能计算领域，我们经常需要处理大规模的计算任务。传统的单机计算往往无法满足需求，而构建分布式系统又充满挑战。Ray作为一个现代化的分布式计算框架，以其简洁的API、强大的性能和丰富的生态系统，正在改变我们处理大规模计算任务的方式。本文将深入探讨Ray的核心概念、应用场景和最佳实践。

什么是Ray？

Ray是由加州大学伯克利分校RISELab开发的开源分布式计算框架，专门为Python应用程序设计。它的核心目标是让分布式计算变得像编写单机程序一样简单。Ray不仅提供了底层的分布式执行引擎，还构建了丰富的上层库，包括机器学习训练（Ray Train）、超参数调优（Ray Tune）、强化学习（RLlib）和模型服务（Ray Serve）等。

Ray的主要特点包括：

简单易用：只需添加几个装饰器就能将普通Python代码转换为分布式程序
通用性强：支持任务并行、Actor模型、分布式对象存储等多种编程范式
高性能：基于共享内存的对象存储和高效的调度系统
容错性好：自动处理节点故障和任务重试
生态丰富：与主流机器学习框架（PyTorch、TensorFlow）无缝集成

Ray的核心概念

Tasks（任务）
Tasks是Ray中最基本的执行单元，代表无状态的远程函数调用。通过@ray.remote装饰器，可以将普通Python函数转换为可以并行执行的远程任务。

import ray
import time

ray.init()

@ray.remote
def compute_task(x):
    time.sleep(1)  # 模拟计算
    return x * x

# 并行执行多个任务
results = ray.get([compute_task.remote(i) for i in range(10)])
print(results)  # [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

在这个例子中，10个任务会并行执行，总耗时约1秒而不是10秒。remote()方法返回一个Future对象（ObjectRef），ray.get()用于获取实际结果。

Actors（执行器）
Actors是有状态的计算单元，类似于面向对象编程中的类实例。与无状态的Tasks不同，Actor可以维护内部状态，适合需要共享状态或资源的场景。

@ray.remote
class Counter:
    def __init__(self):
        self.value = 0
    
    def increment(self):
        self.value += 1
        return self.value
    
    def get_value(self):
        return self.value

# 创建Actor实例
counter = Counter.remote()

# 调用Actor方法
futures = [counter.increment.remote() for _ in range(5)]
results = ray.get(futures)
print(results)  # [1, 2, 3, 4, 5]

final_value = ray.get(counter.get_value.remote())
print(final_value)  # 5

Objects（对象存储）
Ray使用分布式对象存储来高效地共享数据。对象存储基于Apache Arrow和共享内存实现，支持零拷贝读取，大大提升了数据传输效率。

import numpy as np

@ray.remote
def process_data(data_ref):
    # data_ref是对象引用，实际数据在对象存储中
    data = ray.get(data_ref)
    return np.mean(data)

# 将大数组放入对象存储
large_array = np.random.rand(1000000)
data_ref = ray.put(large_array)

# 多个任务可以共享同一个对象，无需复制
results = ray.get([process_data.remote(data_ref) for _ in range(10)])

动态任务图
Ray支持动态构建任务依赖图，这意味着任务可以在运行时生成新的任务，非常适合递归算法和动态工作负载。

@ray.remote
def fibonacci(n):
    if n <= 1:
        return n
    # 动态生成子任务
    a = fibonacci.remote(n - 1)
    b = fibonacci.remote(n - 2)
    return ray.get(a) + ray.get(b)

result = ray.get(fibonacci.remote(10))
print(result)  # 55

Ray的生态系统

Ray不仅是一个分布式计算框架，更是一个完整的生态系统。

Ray Train：分布式训练
Ray Train简化了分布式机器学习训练，支持PyTorch、TensorFlow等主流框架。

from ray.train.torch import TorchTrainer
from ray.train import ScalingConfig

def train_func(config):
    # 你的训练代码
    import torch
    model = torch.nn.Linear(10, 1)
    # ... 训练逻辑
    pass

trainer = TorchTrainer(
    train_func,
    scaling_config=ScalingConfig(
        num_workers=4,  # 4个GPU worker
        use_gpu=True
    )
)

result = trainer.fit()

Ray Tune：超参数调优
Ray Tune是一个可扩展的超参数调优库，支持多种搜索算法和调度策略。

from ray import tune

def objective(config):
    score = config["a"] ** 2 + config["b"]
    return {"score": score}

# 定义搜索空间
search_space = {
    "a": tune.uniform(0, 1),
    "b": tune.uniform(0, 20)
}

# 运行超参数搜索
tuner = tune.Tuner(
    objective,
    param_space=search_space,
    tune_config=tune.TuneConfig(num_samples=100)
)

results = tuner.fit()
print(results.get_best_result(metric="score", mode="min"))

Ray Serve：模型服务
Ray Serve是一个可扩展的模型服务框架，支持在线推理和批量推理。

from ray import serve
import requests

@serve.deployment
class ModelPredictor:
    def __init__(self, model_path):
        # 加载模型
        self.model = load_model(model_path)
    
    async def __call__(self, request):
        data = await request.json()
        prediction = self.model.predict(data)
        return {"prediction": prediction}

serve.run(ModelPredictor.bind("model.pkl"))

# 客户端调用
response = requests.post("http://localhost:8000/", json={"features": [1, 2, 3]})
print(response.json())

RLlib：强化学习
RLlib是一个强大的强化学习库，提供了多种算法实现和分布式训练能力。

from ray.rllib.algorithms.ppo import PPOConfig

config = PPOConfig()
config = config.environment("CartPole-v1")
config = config.rollouts(num_rollout_workers=4)

algo = config.build()

for i in range(10):
    result = algo.train()
    print(f"Iteration {i}: reward = {result['episode_reward_mean']}")

实际应用场景

大规模数据处理
Ray可以高效处理PB级数据，特别适合ETL流程和数据预处理。

@ray.remote
def process_file(filename):
    # 读取和处理文件
    data = read_file(filename)
    processed = transform(data)
    return processed

files = ["file1.csv", "file2.csv", ...]  # 成千上万个文件
results = ray.get([process_file.remote(f) for f in files])

机器学习流水线
从数据预处理到模型训练、评估和部署的完整流水线。

@ray.remote
def preprocess_data(raw_data):
    return clean_and_transform(raw_data)

@ray.remote
def train_model(preprocessed_data, config):
    model = build_model(config)
    model.fit(preprocessed_data)
    return model

@ray.remote
def evaluate_model(model, test_data):
    return model.score(test_data)

# 构建流水线
data_ref = ray.put(load_raw_data())
preprocessed = preprocess_data.remote(data_ref)
model = train_model.remote(preprocessed, config)
score = evaluate_model.remote(model, test_data)
final_score = ray.get(score)

科学计算和模拟
Ray非常适合运行大规模科学模拟，如蒙特卡洛模拟、物理仿真等。

import random

@ray.remote
def monte_carlo_pi(num_samples):
    inside_circle = 0
    for _ in range(num_samples):
        x, y = random.random(), random.random()
        if x*x + y*y <= 1:
            inside_circle += 1
    return inside_circle

# 在多个worker上并行运行模拟
num_workers = 100
samples_per_worker = 1000000

futures = [monte_carlo_pi.remote(samples_per_worker) for _ in range(num_workers)]
total_inside = sum(ray.get(futures))
pi_estimate = 4 * total_inside / (num_workers * samples_per_worker)
print(f"Pi estimate: {pi_estimate}")

Web服务和API后端
结合Ray Serve，可以构建高性能的web服务。

@serve.deployment(num_replicas=4)
class TextClassifier:
    def __init__(self):
        self.model = load_bert_model()
    
    async def __call__(self, request):
        text = await request.json()
        result = self.model.classify(text)
        return {"category": result}

Ray vs 其他框架

Ray vs Dask
Dask专注于数据并行计算，特别适合处理大型DataFrame。Ray则更通用，支持任意Python代码的分布式执行，并且在机器学习场景下性能更优。

Ray vs Spark
Spark是基于JVM的大数据处理框架，主要用于批处理。Ray原生支持Python，启动速度更快，更适合交互式开发和机器学习工作负载。

Ray vs Celery
Celery是任务队列系统，主要用于异步任务调度。Ray提供更底层的分布式计算抽象，性能更高，但Celery在消息队列和任务管理方面更成熟。

最佳实践

合理使用Tasks和Actors
对于无状态的计算，使用Tasks以获得更好的并行性。对于需要维护状态或资源（如数据库连接、模型实例）的场景，使用Actors。
避免频繁的小任务
创建和调度任务有一定开销，避免创建大量执行时间很短的任务。可以批量处理或增加每个任务的工作量。

# 不好的做法
results = [add.remote(i, 1) for i in range(1000000)]

# 好的做法
@ray.remote
def batch_add(numbers, value):
    return [n + value for n in numbers]

batch_size = 1000
batches = [range(i, min(i+batch_size, 1000000)) for i in range(0, 1000000, batch_size)]
results = ray.get([batch_add.remote(batch, 1) for batch in batches])

使用ray.put()减少数据传输
对于被多个任务使用的大对象，使用ray.put()显式放入对象存储，避免重复序列化。
资源管理
明确指定任务所需的资源（CPU、GPU、内存），让Ray更好地调度。

@ray.remote(num_cpus=2, num_gpus=1, memory=1000*1024*1024)
def gpu_task(data):
    # 需要2个CPU核心、1个GPU和1GB内存
    pass

监控和调试
使用Ray Dashboard监控集群状态、任务执行情况和资源使用。启用Ray时会自动启动Dashboard。

ray.init(dashboard_host="0.0.0.0", dashboard_port=8265)
# 访问 http://localhost:8265

错误处理
合理处理任务失败和超时。

@ray.remote(max_retries=3, retry_exceptions=True)
def unreliable_task():
    # 失败时会自动重试最多3次
    pass

# 设置超时
try:
    result = ray.get(task.remote(), timeout=10)
except ray.exceptions.GetTimeoutError:
    print("Task timeout")

部署和扩展

单机部署

import ray
ray.init()  # 自动使用所有本地CPU核心

集群部署
Ray支持多种部署方式，包括手动集群、Kubernetes、云平台（AWS、GCP、Azure）等。

# 启动head节点
ray start --head --port=6379

# 在worker节点上
ray start --address='head_node_ip:6379'

Kubernetes部署
使用KubeRay operator可以轻松在Kubernetes上部署Ray集群。

apiVersion: ray.io/v1alpha1
kind: RayCluster
metadata:
  name: my-ray-cluster
spec:
  rayVersion: '2.9.0'
  headGroupSpec:
    replicas: 1
    rayStartParams:
      dashboard-host: '0.0.0.0'
  workerGroupSpecs:
  - replicas: 3
    minReplicas: 1
    maxReplicas: 10

总结

Ray正在成为Python分布式计算的事实标准。它不仅提供了简洁易用的API，还通过丰富的生态系统覆盖了从数据处理到模型训练、调优和部署的完整工作流。无论你是数据科学家、机器学习工程师还是后端开发者，Ray都能帮助你更高效地利用计算资源，加速应用开发。

随着大模型训练、强化学习和实时推理等场景的需求不断增长，Ray的重要性也在持续提升。许多知名公司如OpenAI、Uber、Spotify等都在生产环境中使用Ray。如果你正在寻找一个现代化的分布式计算解决方案，Ray绝对值得深入学习和实践。

从简单的并行任务到复杂的分布式系统，Ray都能提供优雅的解决方案。开始使用Ray，让你的Python代码轻松扩展到成百上千台机器，释放分布式计算的真正潜力。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026专科生必备8个降AI率工具测评榜单

2048 AI社区

OkHttp-HTTP 客户端框架

plaintext请求发起（Call.execute()/enqueue()）→ 应用拦截器链（用户自定义）→ 重定向/重试处理→ 桥接处理（默认头、GZIP）→ 缓存处理（命中缓存则直接返回，否则继续）→ 连接建立（连接池复用或新建）→ 网络拦截器链（用户自定义）→ 与服务器通信（发送请求、接收响应）→ 反向返回响应（按拦截器链倒序处理，缓存拦截器更新缓存、桥接拦截器解压等）→ 响应返回给调用者