[NAACL 2018]Explainable Prediction of Medical Codes from Clinical Text

计算机-人工智能-卷积注意力交叉熵ICD多标签分类

夏莉莉iy

475人浏览 · 2025-12-18 01:06:50

夏莉莉iy · 2025-12-18 01:06:50 发布

论文网址：[1802.05695] Explainable Prediction of Medical Codes from Clinical Text

论文代码：GitHub - jamesmullenbach/caml-mimic: multilabel classification of EHR notes

2.3.1. Convolutional architecture

2.3.2. Attention

2.3.3. Classification

2.3.4. Training

2.3.5. Embedding label descriptions

2.4. Evaluation of code prediction

2.4.1. Datasets

2.4.2. Systems

2.4.3. Evaluation Metrics

2.4.4. Results

2.5. Evaluation of Interpretability

2.5.1. Extracting informative text snippets

2.5.2. Results

2.6. Related Work

2.7. Conclusions and Future Work

1. 心得

（1）是数据划分得很好吗？

2. 论文逐段精读

2.1. Abstract

①文本和标签之间没有直接的对间联系，使得分类很难很杂乱

2.2. Introduction

①ICD分类难点：标签空间大、写作风格不统一

②作者提出Convolutional Attention for Multi-Label classification (CAML)

taxonomy n.分类法；分类学；分类系统

2.3. Method

①ICD编码设为 $\mathcal{L}$

②对每个标签 $i$ 需要去分类这个样本 $y_{i,\ell}\in\{0,1\}$ ，其中 $\ell \in \mathcal{L}$

2.3.1. Convolutional architecture

①临床文本嵌入： $X=[x_{1},x_{2},\ldots,x_{N}]$ ，其中 $N$ 是文本长度

②对每个单词嵌入使用卷积 $\boldsymbol{W}_c \in \mathbb{R}^{k \times d_e \times d_c}$ ：

$\boldsymbol{h}_n = g(\boldsymbol{W}_c * \boldsymbol{x}_{n:n+k-1} + \boldsymbol{b}_c)$

其中 $k$ 是选择卷积的token/words数， $d_e$ 是输入的文本嵌入隐藏层维度， $d_c$ 是输出的文本嵌入隐藏层维度，*是卷积操作， $g\left ( \cdot \right )$ 逐元素非线性变换， $\boldsymbol{b}_{c}\in\mathbb{R}^{d_c}$ 是偏置。作者padding了一下所以输出是 $\boldsymbol{H} \in \mathbb{R}^{ d_c \times N}$

2.3.2. Attention

① $\boldsymbol{H} \in \mathbb{R}^{ d_c \times N}$ 实际上是一个 $k$ -gram的文本特征

②计算文本特征和标签特征的矩阵乘积：

$H^{\mathsf{T}}\mathbf{u}_{\ell}$

其中 $\boldsymbol{u}_{\ell}\in\mathbb{R}^{d_{c}}$ 是标签 $\ell$ 的特征

③归一化：

$\alpha_\ell=\mathrm{SoftMax}(H^\top u_\ell)$

④每个标签的表示：

$v_\ell=\sum_{n=1}^N\alpha_{\ell,n}h_n$

⑤文档级特征嵌入：

$v_j=\max_nh_{n,j}.$

2.3.3. Classification

①对于文档级特征嵌入使用线性层分类：

$\hat{y}_\ell=\sigma(\boldsymbol{\beta}_\ell^\top\boldsymbol{v}_\ell+b_\ell)$

其中 $\beta_\ell\in\mathbb{R}^{d_c}$ 是权重向量， $b_\ell$ 是偏置标量

②模型设计：

2.3.4. Training

①交叉熵损失：

$L_{\mathrm{BCE}}(X,y) =-\sum_{\ell=1}^{\mathcal{L}}y_\ell\log(\hat{y}_\ell) +(1-y_\ell)\log(1-\hat{y}_\ell)$

对权重使用L2正则以及使用Adam优化器

2.3.5. Embedding label descriptions

①I表示相关，HI表示高相关，CAML总是能抓住比较相关的文本：

②另一个约束项variant Description Regularized CAML(DR-CAML)，让可学习向量的特征和描述文本特征（从WHO中得到）相近：

$L(X,y)=L_{\mathrm{BCE}}+\lambda\frac{1}{n_y}\sum_{\ell:y_\ell=1}^{\mathcal{L}}\|z_\ell-\beta_\ell\|_2$

2.4. Evaluation of code prediction

2.4.1. Datasets

①MIMIC III：有8921个标签，其中6918是疾病，2003是操作

②按被试ID划分，同一个被试的多次住院不会被同时分进训练集/验证集/测试集

③数据集：MIMIC III full，MIMIC III 50，MIMIC II：

④数据预处理：移除不包含字母的文本（如500被移除但是500mg保留），将所有字母小写，⭐把整个数据集出现小于三个文档的token标记为UNK

⑤预训练文本嵌入模型word2vec CBOW，维度为 $d_e=100$

⑥所有诊断记录被截断为2500个token

addendum n.补遗；(尤指书籍的)补篇

2.4.2. Systems

①超参数设置：

调参是通过Spearmint Bayesian optimization pack age做到的

2.4.3. Evaluation Metrics

①列举一些评估指标

2.4.4. Results

①MIMIC III full上的对比实验：

②MIMIC III 50上的对比实验：

③MIMIC II full上的对比实验：

2.5. Evaluation of Interpretability

2.5.1. Extracting informative text snippets

①描述了对于不同模型怎么提取标签对应的n-gram

2.5.2. Results

①请专家评估100次预测中标签和n-gram的对应程度：

2.6. Related Work

①列举CNN、LSTM、RNN等方法

2.7. Conclusions and Future Work

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

现代智能制造系统中显式模型与状态机的不可替代性分析

摘要：现代智能制造系统因其强时序性、物理约束和高安全性等本体特征，必须依赖显式模型与状态机作为基础结构。尽管数据驱动方法在感知类任务中表现优异，但隐式模型（如神经网络）无法满足制造系统对过程认知、安全验证及多主体协同的需求。研究表明，显式模型通过形式化表征系统状态与约束，承担着过程认知载体、安全边界保障和AI能力嵌入框架等不可替代功能。未来智能制造的发展核心在于构建可计算、可验证的显式认知体系，而

2048 AI社区

【MCP原生时代】第5篇｜低代码的AI核聚变：从拖拉拽到说句话——把低代码平台变成会听话、会组合、会交付的智能助手

低代码平台长期承诺“人人都是开发者”，但在复杂集成、数据建模与治理上仍依赖工程师。把低代码与模型上下文协议 MCP 结合，能把平台能力以“工具”形式暴露给 AI Agent，使业务人员用自然语言直接驱动应用生成、集成与部署。本文系统阐述低代码与 AI 的协同模式、工具化设计、前端与后端实现要点、审批与治理策略，并提供可复制的工程示例（OpenAPI 片段、低代码工具定义、示例 Hook 与 Pow

2048 AI社区

http的会话控制（flask）

Cookie是由服务器端生成一段能识别用户身份的文本信息，发送给客户端浏览器，浏览器会将Cookie的key/value保存，下次请求同一网站时就随着请求头自动发送该Cookie给服务器（前提是浏览器设置为启用cookie）。如访问fuguang.com时向浏览器中写了Cookie信息，使用同一浏览器访问baidu.com时，无法访问到fuguang.com写的Cookie信息，只能获取到baid