Python并发执行优化：从异步到多线程的架构演进

纯异步操作：使用混合场景：使用CPU密集型：考虑问题识别：异步并发无法处理同步阻塞操作方案选择：多线程并发 + 异步集成性能提升：总耗时减少45.6%技术收获：深入理解了Python并发模型关键启示：在AI系统中，真正的性能瓶颈往往不在IO，而在计算密集型的LLM推理。选择合适的并发策略，能够显著提升系统性能。本文记录了在开发医学文献检索系统过程中，解决Python并发执行问题的完整技术方案。希望

GeminiJM

730人浏览 · 2025-08-22 17:38:20

GeminiJM · 2025-08-22 17:38:20 发布

Python并发执行优化：从异步到多线程的架构演进

问题背景

在开发基于AI框架的智能检索系统时，我们遇到了一个典型的并发执行问题：虽然使用了 asyncio.gather() 来并发启动两个独立的检索任务，但实际执行时间仍然是两个任务耗时的总和，而不是预期的最大值。

问题现象

任务A耗时：8.29秒
任务B耗时：6.96秒
预期并发总耗时：max(8.29, 6.96) = 8.29秒
实际总耗时：15.25秒

问题分析：系统仍然是串行执行，并发没有生效！

问题根因分析

1. 并发代码是正确的

我们的并发启动代码没有问题：

# 使用asyncio.gather实现并发执行
task_a_results, task_b_results = await asyncio.gather(
    task_a_execution(),
    task_b_execution(),
    return_exceptions=True
)

2. 真正的问题所在

问题不在于并发启动，而在于底层AI模型调用是同步的：

# 在Agent执行器中
answer = self.llm.call(  # 这是同步调用！
    self.messages,
    callbacks=self.callbacks,
)

3. 执行流程分析

时间轴：
0s     Agent1开始执行
0s     Agent2开始执行
1s     Agent1调用AI模型 (阻塞8.19秒)
9s     Agent1完成
9s     Agent2调用AI模型 (阻塞6.96秒)
16s    Agent2完成

关键发现：虽然外层是异步的，但AI模型调用是同步阻塞的，导致两个Agent无法真正并行执行。

解决方案：多线程并发

1. 技术选型

考虑到：

AI模型调用是同步阻塞操作
需要真正的并行执行
保持异步代码结构

我们选择了 ThreadPoolExecutor + asyncio.run_in_executor 的组合方案。

2. 实现代码

# 使用ThreadPoolExecutor + asyncio.run_in_executor实现真正的多线程并发执行
print("=== 开始多线程并发执行任务A和任务B ===")

try:
    # 创建线程池
    thread_pool = ThreadPoolExecutor(max_workers=2)
    
    # 在线程池中运行异步函数
    loop = asyncio.get_event_loop()
    
    # 提交两个任务到线程池
    task_a_future = loop.run_in_executor(
        thread_pool, 
        lambda: asyncio.run(task_a_execution())
    )
    task_b_future = loop.run_in_executor(
        thread_pool, 
        lambda: asyncio.run(task_b_execution())
    )
    
    print("=== 两个任务已提交到线程池，开始并发执行 ===")
    
    # 等待两个任务都完成
    task_a_results = await task_a_future
    task_b_results = await task_b_future
    
    # 关闭线程池
    thread_pool.shutdown(wait=False)
    
    print(f"=== 多线程并发任务执行完成 ===")
    
except Exception as e:
    print(f"多线程执行异常: {e}")
    # 回退到顺序执行...

3. 容错机制

我们还实现了完善的容错机制：

except Exception as e:
    print(f"多线程执行失败，回退到顺序执行 ===")
    
    # 顺序执行任务A
    task_a_results = await task_a_execution()
    
    # 顺序执行任务B
    task_b_results = await task_b_execution()

性能提升效果

1. 执行时间对比

执行方式	任务A	任务B	总耗时	性能提升
串行执行	8.29秒	6.96秒	15.25秒	基准
异步并发	8.29秒	6.96秒	15.25秒	0%
多线程并发	8.29秒	6.96秒	8.29秒	45.6%

2. 实际测试结果

【多线程并发任务执行完成】
任务A结果类型: <class 'dict'>
任务B结果类型: <class 'dict'>

【并发任务】完成，耗时: 8.29秒
【数据后处理】完成，耗时: 0.15秒

【主函数】总耗时统计:
  - 并发任务: 8.29秒 (98.2%)
  - 数据后处理: 0.15秒 (1.8%)
  - 总耗时: 8.44秒

性能提升：从15.25秒减少到8.44秒，节省了6.81秒，提升45.6%！

技术原理深度解析

1. 为什么异步并发没有生效？

asyncio.gather 的局限性

# asyncio.gather 适合非阻塞操作
async def non_blocking_task():
    await asyncio.sleep(1)  # 非阻塞等待
    return "结果"

# 但不适合阻塞操作
async def blocking_task():
    time.sleep(1)  # 阻塞等待，会阻塞整个事件循环
    return "结果"

事件循环阻塞

当AI模型调用阻塞时，整个事件循环被阻塞，其他协程无法执行。

2. 为什么多线程并发能解决问题？

线程独立性

# 线程1：独立执行任务A
Thread1: agent1.execute_task() -> AI模型调用(8.19秒)

# 线程2：独立执行任务B
Thread2: agent2.execute_task() -> AI模型调用(6.96秒)

# 两个线程真正并行执行

GIL的影响分析

# CPU密集型任务：受GIL影响
def cpu_intensive():
    for i in range(10000000):
        result += i * i  # GIL会限制并行

# IO密集型任务：不受GIL影响
def io_intensive():
    time.sleep(1)  # 等待期间释放GIL
    return "完成"

我们的场景：主要是网络IO和AI模型API调用，GIL影响很小。

3. 技术方案对比

方案	优点	缺点	适用场景
asyncio.gather	资源消耗少、代码简洁	无法处理阻塞操作	纯异步、非阻塞操作
ThreadPoolExecutor	真正并行、处理阻塞操作	资源消耗较多	混合场景、阻塞操作
multiprocessing.Pool	绕过GIL、CPU并行	进程开销大	CPU密集型任务

最佳实践总结

1. 技术选型原则

纯异步操作：使用 asyncio.gather
混合场景：使用 ThreadPoolExecutor + asyncio.run_in_executor
CPU密集型：考虑 multiprocessing.Pool

2. 代码架构建议

async def main_function():
    try:
        # 优先尝试多线程并发
        results = await execute_with_threadpool()
    except Exception as e:
        # 回退到顺序执行
        results = await execute_sequentially()
    
    return results

3. 性能监控

# 记录详细的耗时分析
start_time = time.time()
search_start = time.time()

# 执行并发任务
results = await execute_concurrent_tasks()

search_end = time.time()
search_duration = search_end - search_start

# 记录总耗时统计
total_end = time.time()
total_duration = total_end - start_time
print(f"并发任务: {search_duration:.2f}秒 ({search_duration/total_duration*100:.1f}%)")

经验教训

1. 不要被表面现象迷惑

代码看起来是并发的，但底层可能是同步的
需要深入分析执行流程，找到真正的瓶颈

2. 理解技术原理很重要

asyncio.gather 不是万能的
多线程和异步各有适用场景
GIL的影响需要具体分析

3. 性能优化需要数据支撑

添加详细的耗时监控
对比不同方案的性能表现
根据数据做出技术决策

未来优化方向

1. 底层AI接口异步化

# 目标：将同步调用改为异步
# 当前：answer = self.llm.call(messages)
# 未来：answer = await self.llm.call_async(messages)

2. Agent执行器并行化

# 让多个Agent真正并行工作
# 而不是串行执行

3. 缓存和预计算

# 缓存常用的AI推理结果
# 减少重复计算

总结

通过这次技术优化，我们成功解决了Python并发执行的问题：

问题识别：异步并发无法处理同步阻塞操作
方案选择：多线程并发 + 异步集成
性能提升：总耗时减少45.6%
技术收获：深入理解了Python并发模型

关键启示：在AI系统中，真正的性能瓶颈往往不在IO，而在计算密集型的AI推理。选择合适的并发策略，能够显著提升系统性能。

本文记录了在开发AI智能检索系统过程中，解决Python并发执行问题的完整技术方案。希望对遇到类似问题的开发者有所帮助。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

JavaScript异步编程的终极进化：Async/Await 完全指南

async/await 是 ES2017（2017）纳入标准的语法糖，基于 Promise，解决了 Promise 链式调用的繁琐，让异步代码像同步代码；

2048 AI社区

MiroMind的MiroThinker大模型，确实比较聪明，在SCNet使用VLLM推理实践

2048 AI社区

从爬取到问答：Python+RAG全流程实战，构建企业私有知识库

2048 AI社区

所有评论(0)

查看更多评论

GeminiJM

@weixin_40362204

已为社区贡献3条内容