表观基因组分析实操指南：从实验设计到多组学整合

表观基因组分析已从群体细胞水平迈向单细胞、长读段时代，scNanoATAC-seq2 等新技术的出现，为解析胚胎发育、疾病异质性等复杂生物学问题提供了强大工具。实操中需牢记 “实验设计为基础，数据质控为核心，多组学整合为方向” 的原则，灵活选择技术方案。未来，随着 AI 辅助的调控网络重构、空间表观组学技术的发展，表观基因组学将在精准医疗、再生医学等领域发挥更大作用。

暖阳YH

284人浏览 · 2025-11-22 15:55:19

暖阳YH · 2025-11-22 15:55:19 发布

引言：解码基因调控的 “隐形开关”

传统遗传学难以解释同卵双胞胎的表型差异、环境诱导的性状遗传等现象 —— 这正是表观遗传学的研究范畴。表观基因组通过 DNA 甲基化、组蛋白修饰、染色质构象等不改变 DNA 序列的调控机制，动态调控基因表达，在发育、衰老、疾病发生中扮演关键角色。随着高通量测序技术的发展，WGBS、ATAC-seq、CUT&Tag 等技术已成为解析表观遗传调控的核心工具。本文将从实验设计、数据处理、高级分析到多组学整合，提供一套可落地的表观基因组分析实操方案。

一、核心技术选择与实验设计（实操基础）

1.1 技术选型决策树

研究目标	推荐技术	关键优势	样本要求
全基因组 DNA 甲基化（单碱基分辨率）	WGBS	金标准，覆盖所有 CpG 位点	细胞≥1×10⁶，DNA≥1μg
组蛋白修饰 / 转录因子结合位点	CUT&Tag	操作简便、噪音低、样本量少	细胞≥5×10³，无需甲醛交联
	ChIP-seq	经典方法，抗体选择丰富	细胞≥1×10⁶，需甲醛交联
染色质可及性（调控元件定位）	ATAC-seq	快速高效，可单细胞应用	细胞≥5×10³，新鲜样本最佳
RNA 修饰（m⁶A 等）	MeRIP-seq	高特异性富集修饰 RNA	RNA≥10μg，完整性 RIN≥7
RNA - 蛋白相互作用	RIP-seq	直接鉴定结合 RNA	细胞≥1×10⁷，抗体特异性关键

1.2 实验设计关键要点

（1）样本制备核心原则

细胞样本：新鲜分离后立即处理，避免反复冻融；CUT&Tag 需保持细胞膜完整性，推荐使用 0.05% Digitonin 透化。
组织样本：液氮速冻后研磨，ATAC-seq 需先制备细胞核悬液，避免细胞质污染。
质量控制：DNA 样本 A260/A280=1.8~2.0，RNA 样本 RIN≥7；ATAC-seq 需检测核小体片段分布（NFR<100bp，单核小体≈200bp）。

（2）对照组设计

必设输入对照（Input）：用于排除非特异性结合（ChIP-seq/CUT&Tag）。
技术重复≥2 次，生物学重复≥3 次；差异分析需满足组内相关系数 > 0.8。

二、通用数据处理流程（代码实操）

2.1 数据预处理（质控→比对→去重）

（1）质量控制与过滤

bash

# 1. FastQC检测原始数据质量
fastqc raw_data/*.fastq.gz -o qc_reports/
# 2. Trim Galore去除接头和低质量碱基（ILLUMINA平台）
trim_galore --illumina --paired --clip_R1 10 --clip_R2 10 \
  raw_data/sample1_R1.fastq.gz raw_data/sample1_R2.fastq.gz \
  -o clean_data/

关键指标：过滤后 reads 质量 Q30≥85%，接头残留率 < 0.1%。

（2）序列比对

bash

# 1. 构建参考基因组索引（以hg38为例）
bwa index -a bwtsw reference/hg38.fa
# 2. BWA-MEM比对（ATAC-seq/ChIP-seq）
bwa mem -t 8 -M reference/hg38.fa \
  clean_data/sample1_R1_trimmed.fq.gz \
  clean_data/sample1_R2_trimmed.fq.gz | \
  samtools view -Sb -q 30 -o aligned_data/sample1.bam
# 3. 排序与索引
samtools sort aligned_data/sample1.bam -o aligned_data/sample1_sorted.bam
samtools index aligned_data/sample1_sorted.bam

比对后质控：

独特映射率≥80%（ATAC-seq 需排除线粒体 DNA，比例 < 10%）
用 ATACseqQC 包评估 TSS 富集分数（>5 为合格）：

library(ATACseqQC)
bamFile <- "aligned_data/sample1_sorted.bam"
tssEnrichment(bamFile, txs = TxDb.Hsapiens.UCSC.hg38.knownGene, 
              outPlot = "tss_enrichment.pdf")

（3）去重与黑名单过滤

bash

# 1. Picard去除PCR重复
picard MarkDuplicates I=aligned_data/sample1_sorted.bam \
  O=aligned_data/sample1_dedup.bam M=duplicate_metrics.txt REMOVE_DUPLICATES=true
# 2. 过滤ENCODE黑名单区域（hg38）
bedtools intersect -v -a aligned_data/sample1_dedup.bam \
  -b reference/ENCODE_blacklist_hg38.bed > aligned_data/sample1_final.bam

2.2 核心分析模块（分技术详解）

模块 1：WGBS 数据分析（DNA 甲基化）

（1）甲基化位点 Calling

bash

# Bismark比对（亚硫酸氢盐转化后数据）
bismark --genome reference/hg38/ -1 clean_data/wgbs_sample1_R1.fq.gz \
  -2 clean_data/wgbs_sample1_R2.fq.gz -o bismark_results/
# 提取甲基化位点
bismark_methylation_extractor --bedGraph --counts \
  bismark_results/sample1_bismark_bt2_pe.bam -o methylation_results/

（2）差异甲基化分析

library(methylKit)
# 读取bedGraph文件
methData <- methRead(location = list("sample1_methylation.bedGraph", 
                                     "sample2_methylation.bedGraph"),
                     sample.id = c("control", "treatment"),
                     assembly = "hg38", context = "CpG")
# 过滤低覆盖度位点（≥10×）
filtered <- filterByCoverage(methData, lo.count = 10, lo.perc = NULL)
# 差异甲基化区域（DMR）识别
dmr <- calculateDiffMeth(filtered, overdispersion = "MN", 
                         adjusted.pvalue.cutoff = 0.05, difference = 25)
# 输出DMR结果
write.table(dmr, "dmr_results.txt", sep = "\t", quote = FALSE)

模块 2：ATAC-seq 数据分析（染色质可及性）

（1）峰识别

bash

# MACS2峰识别（默认参数）
macs2 callpeak -t aligned_data/sample1_final.bam -f BAMPE \
  -g hs -n sample1_peaks --outdir peak_results/ --keep-dup all
# 可选：HMMRATAC（ATAC-seq专用，提供核小体定位）
HMMRATAC -b aligned_data/sample1_final.bam -g reference/hg38.fa \
  -o hmmratac_results/ -n sample1

峰质量评估：峰数量≥10,000，平均富集倍数≥4，FDR<0.01。

（2）高级分析

Motif 富集（HOMER）：

bash

findMotifsGenome.pl peak_results/sample1_peaks.narrowPeak hg38 \
  motif_results/ -size 200 -mask

转录因子足迹分析：

library(GenomicRanges)
library(footprintR)
bam <- "aligned_data/sample1_final.bam"
peaks <- import.bed("peak_results/sample1_peaks.narrowPeak")
# 偏移校正（+4bp/-5bp）
footprints <- getFootprints(bam, peaks, genome = "hg38")
plotFootprint(footprints, motif = "JASPAR2024_MA0139.1_JUNB")

模块 3：CUT&Tag 数据分析（组蛋白修饰）

（1）峰识别与差异分析

bash

# MACS2峰识别（组蛋白修饰用--broad参数）
macs2 callpeak -t aligned_data/cuttag_sample1.bam -f BAM \
  -g hs -n sample1 --outdir cuttag_peaks/ --broad --broad-cutoff 0.1
# DiffBind差异峰分析（R脚本）
library(DiffBind)
sampleSheet <- data.frame(SampleID = c("ctrl1", "ctrl2", "treat1", "treat2"),
                          Condition = c("Control", "Control", "Treatment", "Treatment"),
                          bamReads = c("ctrl1.bam", "ctrl2.bam", "treat1.bam", "treat2.bam"),
                          Peaks = c("ctrl1_peaks.broadPeak", "ctrl2_peaks.broadPeak",
                                    "treat1_peaks.broadPeak", "treat2_peaks.broadPeak"))
dbObj <- dba(sampleSheet = sampleSheet, format = "bam")
dbObj <- dba.count(dbObj, bParallel = TRUE)
dbDiff <- dba.contrast(dbObj, categories = DBA_CONDITION)
dbDiff <- dba.analyze(dbDiff, method = DBA_DESEQ2)
dba.report(dbDiff, file = "diff_peaks.txt")

三、多组学整合分析（进阶实战）

3.1 表观组与转录组整合

（1）流程框架

ATAC-seq 峰注释到基因（ChIPseeker）：

library(ChIPseeker)
library(TxDb.Hsapiens.UCSC.hg38.knownGene)
peaks <- readPeakFile("peak_results/sample1_peaks.narrowPeak")
anno <- annotatePeak(peaks, tssRegion = c(-3000, 3000), 
                     TxDb = TxDb.Hsapiens.UCSC.hg38.knownGene)

关联差异表达基因（RNA-seq）：

# 读取RNA-seq差异基因
degs <- read.table("rna_seq_degs.txt", header = TRUE)
# 交集分析
peak_genes <- unique(anno$geneId)
overlap_genes <- intersect(peak_genes, degs$gene_id)
# 功能富集（clusterProfiler）
library(clusterProfiler)
enrichGO(overlap_genes, OrgDb = org.Hs.eg.db, 
         ont = "BP", pAdjustMethod = "fdr")

3.2 单细胞表观组分析（scNanoATAC-seq2 案例）

清华大学纪家葵课题组开发的 scNanoATAC-seq2 技术，实现了单细胞水平的长读段染色质可及性分析，核心流程：

样本制备：单细胞核分离→透化处理→磁珠结合
文库构建：Tn5 转座酶切割→长片段富集→PCR 扩增
数据分析：
- 单细胞分群：Seurat 包基于峰矩阵聚类
- 谱系特异性调控元件鉴定：FindMarkers 识别差异可及性区域
- 父母本等位基因分析：利用 SNP 区分 X 染色体印记失活区域

四、常见问题与解决方案（避坑指南）

4.1 实验层面问题

问题现象	可能原因	解决方案
ATAC-seq 线粒体 DNA 比例 > 30%	细胞核分离不充分	优化裂解液配方，增加离心转速（1000g×10min）
CUT&Tag 峰信号弱	抗体亲和力低	选择 ChIP-grade 抗体，延长孵育时间至 16h
WGBS 转化效率 < 90%	亚硫酸氢盐处理不充分	提高反应温度（55℃），延长处理时间（16h）

4.2 分析层面问题

问题现象	解决方案
峰识别假阳性高	加入 Input 对照，调整 MACS2 q 值 cutoff（<0.01）
差异分析样本重复性差	增加生物学重复（≥3 次），使用 DESeq2 的方差稳定化
长读段比对率低	采用 minimap2 比对，设置参数 `-x map-ont`

五、工具资源汇总

5.1 核心工具链

分析步骤	推荐工具	优势
质控	FastQC、ATACseqQC	全面评估数据质量
比对	BWA-MEM、minimap2	短读段 / 长读段适配
峰识别	MACS2、HMMRATAC	通用性 / 特异性兼顾
差异分析	DiffBind、methylKit	表观组专用统计模型
可视化	IGV、ggplot2、UCSC Genome Browser	交互式 / 批量绘图