dpmsolver 论文核心整理

CharmsGraker

2374人浏览 · 2023-06-21 21:08:16

CharmsGraker · 2023-06-21 21:08:16 发布

推导

DPM-Solver1的误差

由正文所述：
在这里插入图片描述
利用泰勒展开：

在这里插入图片描述

B.3式就是换了个元 $δ=λ−λsλt−λs\delta=\frac{\lambda-\lambda_s}{\lambda_t-\lambda_s}$ ，代入论文公式(3.4)的积分项（不含系数），这里先对B.4式简单代一下，注意到 $h=λt−λsh=\lambda_t- \lambda_s$
$∫λsλte−λϵ^(x^λs,λs)dλ=∫01e−(hδ+λs)∑k=0nδk⋅hkk!ϵ^(k)(x^λs,λs)h(dδ)\int_{\lambda_s}^{\lambda_t}e^{-\lambda}\hat\epsilon(\hat x_{\lambda_s},\lambda_s)d\lambda= \int_{0}^{1}e^{-(h\delta + \lambda_s)}\sum_{k=0}^{n} \frac{\delta^k ·h^k}{k!} \hat \epsilon^{(k)}(\hat x_{\lambda_s},\lambda_s)h(d\delta)$
$=∫01e(1−δ)h−(h+λs)∑k=0nδk⋅hkk!ϵ^(k)(x^λs,λs)h(dδ)=σtαt∫01e(1−δ)h∑k=0nhk+1δkk!ϵ^(k)(x^λs,λs)dδ=σtαt∑k=0nhk+1∫01[δkk!ϵ^(k)e(1−δ)h]ϵ^(k)(x^λs,λs)dδ=σtαt∑k=0nhk+1φk+1(h)ϵ^(k)(x^λs,λs)dδ=\int_{0}^{1}e^{(1-\delta )h -(h+\lambda_s)}\sum_{k=0}^{n} \frac{\delta^k ·h^k}{k!} \hat \epsilon^{(k)}(\hat x_{\lambda_s},\lambda_s)h(d\delta)\\ =\frac{\sigma_t}{\alpha_t}\int_{0}^{1}e^{(1-\delta )h}\sum_{k=0}^{n} h^{k+1}\frac{\delta^k }{k!} \hat \epsilon^{(k)}(\hat x_{\lambda_s},\lambda_s)d\delta\\ =\frac{\sigma_t}{\alpha_t}\sum_{k=0}^{n} h^{k+1}\int_{0}^{1}[\frac{\delta^k }{k!} \hat \epsilon^{(k)}e^{(1-\delta )h}] \hat \epsilon^{(k)}(\hat x_{\lambda_s},\lambda_s)d\delta\\ =\frac{\sigma_t}{\alpha_t}\sum_{k=0}^{n} h^{k+1}\varphi_{k+1}(h) \hat \epsilon^{(k)}(\hat x_{\lambda_s},\lambda_s)d\delta$
其中 $φk(z)\varphi_{k}(z)$ 的定义如附录的B.2所示：
在这里插入图片描述
从而根据上面的推导，得到了B.4式

至于为什么要这样配凑，文中给出了参考文献。（之后再看看）

注意以下结论成立，在推导DPM-Solver2会用到
在这里插入图片描述

下面说明了k=1时候的误差，主要是利用已得到的B.4式验证3.7式的估计
在这里插入图片描述

在这里插入图片描述
由最后一行将 $x_{t_i}$ 移动一下，那么对右式不断重复即可。

DPM-Solver2的误差

在这里插入图片描述
论文的叙述方式是假设算法4成立了，直接验证误差了。

在这里插入图片描述
如果考虑是如何构造出DPM-Solver2的，对于这个算法的个人理解是这样的。
首先DPM-Solver-1已经保证了是O(h)，自然只需要考虑 $x^t\hat x_t$ 的泰勒展开中的第n=1项，也就是一阶导数项，但这个导数不能求。于是得想个法子抹掉他还使得估计又不错。
注意到 $h2φ2(h)=eh−h−1h^2 \varphi_2(h)=e^h - h - 1$ 已经是 $O(h^2)$ 的了，那么实际上DPM-Solver-2只需要估计 $x^t−xt\hat x_t-x_t$ 中含 $h2ε(2)h^2 \varepsilon^{(2)}$ 的项就可以了。
与此相仿，注意到 $\varphi_1(h)=e^h-1$ 也已经是 $O (h)$ 了，那就巧了，我能不能构造选取那个离 $λs\lambda_s$ 有 $r_1h$ 远的点来近似呢？于是可以用$ $h2φ(h)h^2\varphi(h)$ 来估计一下 $φ2\varphi_2$ 呢？自然是可以（因为假设了利普西茨条件），于是这里选取的就是 $λs1−λs=r1h\lambda_{s_1}-\lambda_s=r_1h$ ，这样就行了，也不需要真的去计算这个一阶导数。
但上面的关键点就在于这个 $φ\varphi$ 函数的构造和利普西茨条件的有界

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI创新大赛：开发实战全攻略

《创意AI应用开发大赛指南》摘要：大赛聚焦AI技术创新与场景结合，面向开发者、学生等群体，涵盖生成式AI、多模态模型等技术方向。指南详细介绍了从创意构思到技术实现的完整流程，包括框架选型、数据准备等关键环节，并提供了智能写作助手等实战案例参考。评分标准强调创新性、实用性和技术深度，同时推荐了开源模型库等参赛资源。针对数据不足等常见问题给出解决方案，展望了AI应用个性化、低代码化的发展趋势。

2048 AI社区

JavaScript性能优化20个实战技巧

本文系统介绍了JavaScript性能优化的关键技术，主要包括：1）代码结构优化，通过模块化设计、减少DOM操作和优化循环提升执行效率；2）内存管理，采用弱引用和及时释放对象避免内存泄漏；3）异步编程优化，使用Promise/async/await简化代码结构；4）渲染性能提升，利用requestAnimationFrame和GPU加速；5）网络请求优化，通过合并请求和缓存策略降低延迟。同时介绍了