【Python画图】单变量及多变量的分布图绘制

用分布图快速了解数据分布。

Kevin Davis

6651人浏览 · 2023-09-01 11:46:30

Kevin Davis · 2023-09-01 11:46:30 发布

第3章变量分布图

本文目录：

第3章变量分布图

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa
...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	virginica
146	6.3	2.5	5.0	1.9	virginica
147	6.5	3.0	5.2	2.0	virginica
148	6.2	3.4	5.4	2.3	virginica
149	5.9	3.0	5.1	1.8	virginica

3.2 密度图

密度图可以查看分布情况，也可以用于比较两组数据的分布情况。
画密度图的方法有很多，常用的方法为Seaborn的kdeplot，或者Seaborn的histplot + kde=True。这里展示一个简单的例子：

import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import proplot as pplt
import scienceplots

plt.rcParams['font.family'] = 'Times New Roman'
plt.rcParams['font.size']   = 14

iris = sns.load_dataset("iris")

with plt.style.context(['science']):
    fig, ax  = plt.subplots(figsize=(10,6), dpi=100, facecolor="w")
    # hist = ax.hist(x=iris['sepal_length'], bins=bins,color='#5698c3',
    #                edgecolor='w',rwidth = 0.8)
    ax = sns.kdeplot(data=iris, x='sepal_length', hue='species', fill=True, alpha=.5)

    ax.set_xlabel('Sepal length')
    ax.set_ylabel('Density')

plt.savefig('./images/Kdeplot_Seaborn.png', dpi=300, bbox_inches='tight')
plt.show()

第3章单变量绘图_23_0.png

可以非常明显地看出不同种类的鸢尾花的萼片长度分布情况，平均长度： $se t os a < v ers i co l or < v i r g ina c a$ 。

注意，Seaborn的kdeplot函数默认采用的是高斯核函数，如果想要用其他核函数的话可以参考KDEpy库。（一般高斯核也够用了）

3.5 多变量分布图

接下来我们来画多个变量的分布图，先从2个到多个变量。这种图的作用一般在于查看多个变量之间的分布情况，以及多个变量之间的相关性如何。

3.5.1 两个变量

对于两个变量的之间的分布图，可以用seaborn的jointplot函数，它默认画的是散点图，但是可以指定kind参数。

# 这里需要重启一下jupyter内核
import matplotlib.pyplot as plt
import seaborn as sns

iris = sns.load_dataset('iris')
sns.set_theme(style="ticks")
# plt.style.reload_library()
# plt.style.use('grid')

plt.figure(figsize=(15, 15), dpi=100, facecolor='w')
sns.jointplot(data=iris,x="sepal_length", hue='species', y="sepal_width")

plt.savefig('./images/Seaborn_jointplot.png', dpi=300, bbox_inches='tight')
plt.show()

第3章单变量绘图_37_1.png

好消息：图很好看。

坏消息：由于jointplot返回的不是axes对象，用不了SciencePlots那严谨的绘图风格。

再来画个蜂窝图：

plt.figure(figsize=(15, 15), dpi=100, facecolor='w')
sns.jointplot(data=iris, x="sepal_length", y="sepal_width", kind='hex')

plt.savefig('./images/Seaborn_jointplot_hex.png', dpi=300, bbox_inches='tight')
plt.show()

第3章单变量绘图_39_1.png

蜂窝图中颜色越深的地方说明该区域的样本数量多，分布越集中。

更多jointplot函数的用法参见Seaborn官方文档：jointplot。

3.5.2 多个变量

当变量个数较多时，可以用matplotlib画多个子图，每个子图两两变量进行画图，但可想而知工作量较大，不太推荐。

这里推荐使用Seaborn的pairplot和heatmap函数。

先来看看pairplot：

plt.figure(figsize=(18, 15), dpi=100, facecolor='w')
sns.pairplot(iris, hue="species")
plt.savefig('./images/Seaborn_pairplot.png', dpi=300, bbox_inches='tight')
plt.show()

第3章单变量绘图_41_1.png

emmmm, pairplot这个函数返回的是PairGrid对象，不是matplotlib.axes.Axes对象，还是没法用SciencePlots。不过这个函数已经封装地很好了，一行代码搞定，就不再封装了~

再来看看热力图函数heatmap。热力图函数主要用来可视化不同变量之间的相关性强弱。

# 计算相关系数二维矩阵
corr = iris.corr()
corr

<ipython-input-6-c5cd6f9fda0c>:2: FutureWarning: The default value of numeric_only in DataFrame.corr is deprecated. In a future version, it will default to False. Select only valid columns or specify the value of numeric_only to silence this warning.
  corr = iris.corr()

	sepal_length	sepal_width	petal_length	petal_width
sepal_length	1.000000	-0.117570	0.871754	0.817941
sepal_width	-0.117570	1.000000	-0.428440	-0.366126
petal_length	0.871754	-0.428440	1.000000	0.962865
petal_width	0.817941	-0.366126	0.962865	1.000000

plt.figure(figsize=(10, 6), dpi=100, facecolor='w')
sns.heatmap(corr, annot=True, fmt=".1f")
plt.savefig('./images/Seaborn_heatmap.png', dpi=300, bbox_inches='tight')
plt.show()

第3章单变量绘图_44_0.png

太丑了，换个颜色。

plt.figure(figsize=(10, 8), dpi=100, facecolor='w')
sns.heatmap(corr, annot=True, fmt=".1f", cmap='Blues')
plt.savefig('./images/Seaborn_heatmap2.png', dpi=300, bbox_inches='tight')
plt.show()

第3章单变量绘图_46_0.png

优雅，实在是太优雅了！

这个热力图能用SciencePlots，但是不太推荐，刻度线太细了，看着反而有点奇怪，不如直接设置Seaborn的风格参数。

参考资料：

[1] 《Datawhale 科研论文配图绘制指南–基于Python》
[2] matplotlib 官方文档
[3] Seaborn 官方文档
[4] Pandas 官方文档
[5] SciencePlots官方仓库及文档

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从Java全栈到云原生：一次真实的技术面试实录

你有没有什么想问我们的？面试官（认真）：我们公司正在大力投入云原生和微服务架构，同时也关注AI与大数据的应用。如果你有兴趣的话，我们可以进一步交流。面试官（点头）：好的，我们会尽快通知你结果。祝你一切顺利！在这次面试中，我们探讨了多个技术点，包括Java基础、Spring Boot、Vue3、MyBatis、微服务、JWT、Kafka、Logback、GitHub Actions等。这些技术点在实

2048 AI社区

通用人工智能(AGI)发展现状：从科幻到现实的跨越

通用人工智能(AGI)正从科幻走向现实。2025年，多模态融合、递归推理引擎和能效革命三大技术突破推动AGI发展，国际科技巨头和中国企业加速布局。AI Agent在金融、医疗、教育等领域广泛应用，企业自动化效率显著提升。然而，数据隐私、算法透明度和就业替代等伦理挑战亟待解决。未来，AGI将向多模态量子计算融合、具身智能和世界模型方向发展，需要建立人机协作新模式和完善的政策法规框架。AGI既带来机遇