CS285 2023Fall HW1作业解析

你好！这是你第一次使用Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

Lyrig~

1995人浏览 · 2024-04-30 01:31:56

Lyrig~ · 2024-04-30 01:31:56 发布

CS285 2023Fall HW1

前言
Analysis
Q1.
- Q2.
Code

前言

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

Analysis

Q1.

在这里插入图片描述

分析：给出的条件实际上是Lecture2里提到的General Analysis的弱化版本，在Lecture中，实际上规定了在每一个时间步t，对当前时间步任意状态 $s_t$ 都有 $\pi_\theta(a_t\neq \pi^*(s_t)|s_t)\leq\epsilon$ ，而在这个问题中，该条件弱化为了对任意时间步、任意状态的期望，这实际上是两个期望，一个是对时间的平均（也可以理解为期望），另一个是对每个时间下状态的期望。根据下面的Hint，提示我们大概要构造期望，并用到一个和概率有关的union bound不等式，下面我们来求解。

在这里插入图片描述

首先我们模仿Lecture的内容，对于一个时间步骤 $t$ ，我们任取一个状态 $s_t$ ，为了方便后面的书写，我们先定义一个概率，即截至t时间步内，策略 $\pi_\theta$ 与最优策略完全相同的概率:
$p_{correct}=(1-Pr(\bigcup_{t=1}^t\pi_\theta(a_t)\neq\pi^* (a_t)))\tag{1}$
从而得到以下概率表示，这实际上是Lecture的公式的变形。
$p_{\pi_\theta}(s_t)=p_{correct}p_{\pi^*}(s_t) + (1-p_{correct})p_{wrong}(s_t)\tag{2}$
因此，采用与Lecture中相同的方式，我们可以得到：
$|p_{\pi_\theta}(s_t)-p_{\pi^*}(s_t)|=(1-p_{correct})|p_{wrong}(s_t)-p_{\pi^*}(s_t)|\tag{3}$
这里我们就已经得到了一个初步的表达式了，根据绝对值的性质，证明结论里的常数2已经凑出来了（ $|p_{wrong}(s_t)-p_{\pi^*}(s_t)|\leq 2$ )。我们先将这个搁置一边，这里我们先尝试分析 $p_{correct}$ ，根据Hint2有
$p_{correct}\geq1-\sum_{t=1}^tPr(\pi_\theta(a_t)\neq\pi^* (a_t))=1-\sum_{t=1}^tp(s_t)\pi_\theta(a_t\neq\pi^*(s_t)|s_t)\tag{4}$
从而我们就得到:
$|p_{\pi_\theta}(s_t)-p_{\pi^*}(s_t)|\leq(\sum_{t=1}^tp(s_t)\pi_\theta(a_t\neq\pi^*(s_t)|s_t))|p_{wrong}(s_t)-p_{\pi^*}(s_t)|\tag{5}$
如果左右对这时，再利用前文提到的前置条件，并取t=T即可得到。
不过说实话，这里其实存在一些细节问题，比如eq4的化简中，实际上暗含着一个状态序列 $s_1, s_2, .., s_t)$ ，也就是说，实际上我们是假定了这个序列是前取好的。最后一步对状态求和的过程中，我不确定这种提前取好的序列是否能说的通。这里对于结果有异议的同学，或许可以想一下这个思路。对任何一个时间步t，实际上如果我们取遍其 $s_t$ ，那么都应该是等于期望的，因此最后一步的求和可能能解释的通是一个期望。

Q2.

在这里插入图片描述
（1）如果reward只取决于 $s_t$ ，则可以化简为:
$J(\pi)=\sum_{i=1}^TE_{p_{\pi(s_t)}}r(s_t)=E_{p_{\pi(s_T)} }r(s_T)$
因此，有：
$J(\pi^*)-J(\pi_\theta)=E_{p_{\pi^*(s_T)} }r(s_T)-E_{p_{\pi_\theta(s_T)} }r(s_T)\leq2\epsilon TR_{max}=\mathcal{O}(T\epsilon)$
(2)同理，因为有求和，所以是 $\mathcal{O}(T^2\epsilon)$

Code

待更新

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

SEO与GEO技术对比：从爬虫索引到语义理解

它不是在索引库里搜索关键词，而是基于训练数据和网络信息，理解用户问题的语义，然后生成一个综合性的回答。这个目标的技术实现路径完全不同——优化品牌在多个数据源中的信息一致性、构建跨平台的语义覆盖网络、积累第三方信源的引用背书。通过在官网中嵌入完整的Organization类型标记，尤其是sameAs字段关联各平台官方账号，可以让AI在抓取时直接理解品牌的跨平台实体关联，而不依赖自然语言推断。两者的差

2048 AI社区

第2篇：分层架构、四层权限、状态机——我和 Trae 一起做了哪些架构决策

2048 AI社区

火狐150.0.3扩展全兼容，极致体验玩转浏览器

推荐使用 **“Chrome Store Foxified”** 或 **“Firefox Multi-Account Containers”**（后者虽不是直接加载，但能辅助管理扩展）。火狐150.0.3的“暴力玩法”并非噱头，而是一次对浏览器扩展生态的重新定义。- **跨平台扩展加载**：支持安装`.crx`（Chrome扩展）、`.xpi`（火狐原生扩展）以及部分Edge扩展。- **定期清