[论文阅读] (44)一种基于LLM少样本多标签的Android恶意软件检测方法

前一篇博客介绍评估LLMs在真实恶意软件活动的恶意代码解混淆能力，展示了大模型在有效去除载荷混淆方面的巨大潜力。本文将概述一种基于LLM少样本多标签的Android恶意软件检测方法，在提升在噪声场景和数据稀缺场景下的检测鲁棒性。实验表明，LeoDroid 在所有数据集上均取得 MS-ACC 超过 0.93 的性能。注意，由于我们团队还在不断成长和学习中，写得不好的地方还请海涵，希望这篇文章对您有所

Eastmount

673人浏览 · 2025-11-21 17:31:56

Eastmount · 2025-11-21 17:31:56 发布

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座，并分享给大家，希望您喜欢。由于作者的英文水平和学术能力不高，需要不断提升，所以还请大家批评指正，非常欢迎大家给我留言评论，学术路上期待与您前行，加油。

欢迎关注作者新建的『网络攻防和AI安全之家』知识星球（文章末尾）

在这里插入图片描述

原文作者：Minhong Dong, Liyuan Liu4, Qi Guo, et al.
原文标题：LeoDroid: An LLM-based Few-Shot Multi-Label Detection for Android Malware
原文链接：https://ieeexplore.ieee.org/document/11050827
发表期刊：2025 IEEE Symposium on Security and Privacy Workshops (SPW)
研究机构：Tiangong University, Tianjin University
笔记作者：贵大0624团队 LI

一.摘要

数据噪声一直是 Android 恶意软件检测中的关键挑战，它会显著降低机器学习模型的检测性能。

传统方法依赖于 VirusTotal 等第三方服务，但其恶意软件演化特性与时间标签的差异会带来不一致性；
深度学习方法在处理噪声数据时同样表现不佳，主要原因在于它们依赖规模庞大的干净数据集，且更倾向于“记忆”噪声标签，而非从中泛化。

为解决上述问题，本文提出 LLM 驱动的少样本多标签恶意软件检测框架 LeoDroid，旨在提升在噪声场景和数据稀缺场景下的检测鲁棒性。该方法依托大语言模型（LLMs），采用两阶段流程：

将核心样本选择策略（core-set strategy）与精心设计的提示工程（prompt engineering）方法结合。
提示设计融合标签描述、核心示例集（core-set examples）及链式思考推理（chain-of-thought），以引导 LLM 执行多标签分类任务。
通过上述集成策略，LeoDroid 在样本规模与噪声容忍度之间实现有效平衡，从而保持较高的检测准确率。

本文在三个真实世界数据集——anonymous CERT、Drebin 和 VirusShare 上验证了该框架。实验结果表明，LeoDroid 在所有数据集上均取得 MS-ACC 超过 0.93 的性能，并在 anonymous CERT 数据集上较传统机器学习方法取得三倍以上的提升。

二.研究动机与创新

结合引言与相关工作，可概括当前 Android 恶意软件检测与噪声鲁棒性研究主要存在以下问题：

(1) 数据噪声持续影响检测性能
当前研究严重依赖 VirusTotal 等第三方标注服务，其投票式标注机制引入显著标签噪声，并随时间推移表现出强烈的时间漂移（temporal drift）。同一恶意样本在不同年份往往得到不同判定，这导致模型难以保持稳定性能。现有噪声处理方法多依赖后验校准或不确定性估计，但无法从根本上解决高噪声标签环境下的分类退化问题。

(2) 多标签恶意行为检测缺乏有效解决方案
Android 恶意软件往往具有多种行为特征，需进行多标签检测。但现有方法倾向于：忽略标签之间的相关性；难以处理复杂、稀疏的行为组合；在数据稀缺与类别不平衡情形下性能迅速下降。这导致模型无法有效捕获攻击行为的组合关系，也无法适应新兴零日样本。

(3) 传统特征工程与深度学习方法面临瓶颈
传统 ML / DL 方法严重依赖：充分、干净的大规模训练样本；手工或高成本动态特征提取；结构化输入格式。在真实环境中，这些条件往往难以满足，使得模型在噪声和小样本环境下泛化能力不足。

(4) 大模型在恶意软件检测中的应用仍处早期
尽管 LLM 在代码理解与多模态推理中表现出色，但在安全领域仍存在：如何有效组织恶意软件特征输入的问题；多标签推理能力不足；缺乏结构化提示工程方法；缺乏鲁棒性验证与噪声控制机制。现有基于 LLM 的检测多数停留在概念验证阶段，尚未形成体系化的框架。

图 1 展示了在 Android 恶意软件检测中，样本规模缩减可降低噪声但会导致训练数据不足，从而形成“降噪”与“数据量”之间的基本矛盾。

在这里插入图片描述

论文从噪声鲁棒性、多标签场景与小样本学习三个关键问题切入，提出以下创新：

(1) 将“噪声处理”问题转化为“噪声容忍”问题的全新建模思路
论文不再试图“净化”噪声标签，而是通过 LLM 语义推理能力 + 高置信样本选择策略实现噪声环境下的鲁棒检测。这是首个利用 LLM 实现多标签恶意行为少样本分类的系统性方法。

(2) 提出基于 KNN-Agglomerative 的 Core-set 样本选择框架
该框架自动部署：自适应聚类确定类别代表性样本；选取噪声影响最小的核心点；在噪声率 10% 的条件下仍保持高质量 few-shot 数据。其理论分析与实验均验证了该方法的噪声鲁棒性优越性。

(3) 提出结构化 Prompt Engineering + Chain-of-Thought 的提示设计体系
Prompt 设计包含：行为标签语义定义、核心样本 few-shot 示例、CoT 推理链。其结构显著提升 LLM 对行为特征与标签间关系的理解能力，并有效减少错误推理。

(4) 引入 Multi-Sample-ACC（MS-ACC）指标，解决多标签评估失真问题
该指标允许在多标签场景下建立更符合现实的准确率计算方式，避免传统 0/1 判定导致的极端不平衡评价。在三大真实数据集上验证鲁棒性与可迁移性.

本文贡献如下：

我们提出了一种关于提升 Android 恶意软件数据质量的新表述方式，将传统的噪声消减问题转化为构建一个具备噪声容忍能力的模型。据我们所知，这是首个利用大语言模型（LLM）开展 Android 系统多标签恶意软件分类的研究。
我们提出了一个全新的两阶段框架，将高置信度样本选择与提示工程相结合。该框架引入 Core-set 策略，通过聚类技术识别具有代表性的样本，为多标签恶意软件检测中的小样本学习奠定了可靠基础。
我们开发了一种创新的提示设计方法，将标签描述、Core-set 示例以及链式思维（chain-of-thought）推理相结合。此集成方法通过结构化组件引导 LLM 学习，增强模型在恶意软件特征与标签之间捕获复杂关系的能力。
通过广泛的实验评估，我们的 LeoDroid 在多个数据集上的表现均优于现有方法。模型在三个不同的数据集上均取得了超过 0.93 的 MS-ACC，并在 anonymousCERT 数据集上较传统机器学习方法提升超过三倍，验证了其实用有效性。

三.研究方法

该研究提出了一种面向 Android 恶意软件行为检测的大模型驱动少样本多标签分类框架 LeoDroid，旨在在高噪声、低样本的约束条件下实现高精度、可泛化的恶意行为识别，本文的框架如图2所示。具体包括：

在这里插入图片描述

(1) 提出噪声鲁棒的 Core-set 样本选择机制
论文首先针对 Android 恶意软件数据集中普遍存在的标签噪声问题，提出以 KNN 相似度矩阵为基础的自适应层次聚类（Agglomerative Clustering）Core-set 策略。该策略通过计算样本间的相似性并提取每一聚类中心作为“高质量样本”，在控制样本量的同时减少噪声样本对模型的干扰，从而为少样本学习构建可靠的训练集基础。在理论层面，论文通过距离分布与噪声比例 λ 的建模证明了噪声样本在聚类中心选择中的影响可控。该方法有效解决了数据噪声导致的训练退化现象，为后续多标签推断提供了坚实的语义代表样本集。

(2) 提出结构化 Prompt Engineering 机制以增强 LLM 的多标签推理能力
论文构建了一个基于高质量样本的结构化提示（Prompt）模板体系，包括三类核心组件：

① 标签语义描述，用于建立模型对各类恶意行为的语义理解基础；
② Core-set 少样本示例，展示真实特征到标签的映射模式；
③ Chain-of-Thought 推理路径，引导大模型进行逐步的逻辑推断以提升行为分类的可解释性与细粒度识别能力。

这种设计不仅提高了 LLM 在特征—行为映射过程中的语义显式性，同时显著增强了模型在未知或零样本恶意行为上的泛化能力。论文进一步在提示结构中加入特征压缩策略以降低 token 成本，提高系统的可部署性。

(3) 构建 LLM-based Few-shot Multi-Label Detection 框架并验证其有效性
最终的 LeoDroid 框架通过核心样本选择+提示工程+LLM多标签推断的两阶段方法实现了复杂恶意行为的多标签识别任务。模型在三类真实数据集 anonymousCERT、Drebin、VirusShare 上均取得了超过 0.93 的 MS-ACC，显著优于传统机器学习模型，尤其在噪声比例达 10% 条件下仍保持稳定性能，展示了其鲁棒性与实用价值。此外，论文声称这是首个将大模型用于 Android 恶意软件多标签分类的研究，为面向细粒度恶意行为分析的未来研究奠定了方法论基础。

算法 1 提出了一个用于自适应选择最优聚类数量的方法，其目标是在多标签 Android 恶意软件场景中，为 Core-set 策略识别稳健且高代表性的核心样本。

算法首先对相似度矩阵进行归一化，并在预设的聚类数范围内迭代执行基于 KNN 相似度矩阵的凝聚层次聚类。
随后，该算法分别计算每种聚类方案的轮廓系数（Silhouette Score）与 Calinski–Harabasz 指标，用于衡量类内紧致性与类间可分性。
算法将两类指标按照加权方式归一与融合，并以最大化综合得分的方式确定最优聚类数量。
最终，算法基于该最优聚类数重新聚类并输出最终标签，为后续 Core-set 代表样本选取提供稳定的数据结构基础，从而显著提升在噪声环境中 Few-shot 样本选择的鲁棒性。

在这里插入图片描述

图 3 展示了 LeoDroid 的提示词模板结构，其由标签描述、Core-set 示例与 Chain-of-Thought 组成，用于引导 LLM 在多标签恶意软件分类任务中执行结构化推理。

在这里插入图片描述

LeoDroid 的核心工作在于：

① 将噪声控制纳入少样本学习流程，通过 Core-set 策略实现高质量样本筛选；
② 提出结构化提示工程并结合链式推理，增强 LLM 的多标签行为分类能力；
③ 构建首个大模型驱动的多标签 Android 恶意软件检测框架，并在多数据集场景下验证其准确性、鲁棒性与实际可用性。

四.实验评估

1.数据集来源和评价指标

选取三个不同的Android恶意软件数据集：

匿名CERT包含专家验证的安全报告。
Drebin数据集涵盖2010年8月到2012年10月的5560个Android应用程序，跨越179个恶意软件家族。
VirusShare包含2019至2022年间收集的恶意软件样本。通过以上数据集的详细分析识别了六种不同列别德恶意行为。

评价指标包括：

Multi-Sample-ACC
Hamming Loss
Zero-One Loss
F1 Score

2.稳定性评估

在噪声鲁棒性评估中，LeoDroid 在含 10% 标签噪声的 Drebin 与 VirusShare 数据集上表现出高度稳定的检测能力。无论数据结构较完整的 Drebin，还是特征稀疏、更具挑战性的 VirusShare，Qwen7B 均维持超过 0.93（VirusShare）与 0.97（Drebin）的 MS-ACC，且 Hamming Loss 与 Zero-One Loss 均显著低于传统 CDN 系列方法。这表明核心样本选择策略有效削弱了噪声传播，使 LLM 能够在极少量样本与一定噪声干扰下仍保持可靠的标签关联建模能力。相比之下，LongAlign 与传统机器学习方法在噪声场景下均出现明显退化，验证了 LLM 驱动的 few-shot 框架在不完美数据环境中的显著优势。

在这里插入图片描述

3.模型参数尺度对性能影响评估

在模型规模影响分析中，实验显示模型性能与参数量呈显著正相关趋势。图 4 与图 5 表明，从 0.5B 到 3B 的跃升带来 MS-ACC、F1-Score 的大幅提升；从 3B 到 7B 虽仍保持增长，但边际增益明显减弱，体现出性能提升趋于饱和的规模效应。

值得注意的是，在特征极度稀疏的 VirusShare 数据集上，F1-Score 与 Zero-One Loss 在 3B 与 7B 间出现反向波动，显示超大规模模型可能在稀疏或不规则数据下出现“过度推理”，甚至轻微幻觉式判断，这与数据质量不足导致模型难以充分利用参数规模的现象一致。

在这里插入图片描述

4.消融实验分析

消融实验进一步揭示了模型内部机制的贡献。在 anonymousCERT、Drebin 及 VirusShare 的实验中，移除链式思维（CoT）模块均导致 MS-ACC、F1-Score 明显下降（如 anonymousCERT 上从 0.978 降至 0.850），表明 CoT 的结构化推理对多标签行为识别至关重要。

同样，few-shot 方式在高质量与含噪数据中均优于 zero-shot，其优势不仅体现在准确性提升，也在于能避免 LLM 在缺乏示例约束时的推理漂移。整体来看，few-shot + CoT 的组合提供了稳定且可扩展的 LLM 推理模式。

在这里插入图片描述

五.讨论与结论

综合三类实验可见，LeoDroid 的检测稳定性来源于两个核心因素：其一，Core-set 机制能在“保持样本代表性”与“抑制噪声扩散”间实现有效平衡，从而保证少量输入即可构成高质量上下文；其二，LLM 的逻辑归纳与语义关联能力在 CoT 的引导下得到强化，使模型能够跨越 Android 行为特征的稀疏性与多标签相关性的双重挑战。

实验亦揭示了重要限制：模型规模提升虽带来一致性的性能增长，但在低质量数据上存在显著的边际递减甚至推理偏移。因此，在实践部署中需要根据数据稠密度、噪声水平与资源限制选择最优模型规模，而非盲目依赖超大模型。

论文读后感：

这篇论文试图解决什么样的问题：在数据噪声和标签选择上的影响下，来提高恶意软件检测的性能。
提出了什么样的方法和创新点：本文提出基于LLM的少镜头多标签恶意软件检测(LeoDroid)模型来系统地解决这些挑战。实施一种复杂核心集策略，精心选择具有代表性样本，将噪声的影响降至最低，通过定制提示工程利用大型语言模型的高级推理能力。
论文的方法取得了什么样的效果：选取了三种真实的数据集进行实验，引入四种评估标准来证实实验的有效性，通过含噪数据集的稳健性评价证实了选取方法的稳健性，进行消融实验，评估 COT模块的贡献以及少射击和零射击学习方法之间的选择，证实了少镜头学习方法优于零镜头方法。

未来工作：

进一步完善噪声鲁棒性建模与真实场景适配能力（持续学习或在线学习框架）
探索更高效的 Prompt 设计与自动化优化机制（RAG、Agent）
扩展多任务与多模态检测能力（恶意家族归属、恶意行为描述）
提升框架的可扩展性与模型效率（LoRA、Prefix Tuning 或蒸馏）

2024年4月28日是Eastmount的安全星球——『网络攻防和AI安全之家』正式创建和运营的日子，该星球目前主营业务为安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券，欢迎新老博友和朋友加入，一起分享更多安全知识，比较良心的星球，非常适合初学者和换安全专业的读者学习。

目前收到了很多博友、朋友和老师的支持和点赞，尤其是一些看了我文章多年的老粉，购买来感谢，真的很感动，类目。未来，我将分享更多高质量文章，更多安全干货，真心帮助到大家。虽然起步晚，但贵在坚持，像十多年如一日的博客分享那样，脚踏实地，只争朝夕。继续加油，再次感谢！

(By:Eastmount 2025-11-21 周五夜于贵阳 http://blog.csdn.net/eastmount/ )

前文赏析：