问题描述:

ValueError: No available memory for the cache blocks. Try increasing gpu_memory_utilization when initializing the engine

解决:

gpu_memory_utilization = 0.96  

对于大模型,比如Llama 3-70B,4张A 100(40G)未必可以正常使用,还需要调整提高gpu_memory_utilization(default 0.9)才可以load进GPU显存。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐