Python数据分析——Pandas综合(五)

本文介绍了DataFrame的基本概念、创建方法和常用属性。主要内容包括：通过字典创建DataFrame并设置行列索引；详细说明DataFrame的各类属性如index、values、shape等；介绍获取部分数据的方法；列举常用统计方法如head()、tail()、sum()、mean()等，并附示例说明。文章还提供了相关Numpy和Series知识的回顾链接，以及源码下载地址。适合数据分析初学

Nanhuiyu

716人浏览 · 2025-08-26 16:31:30

Nanhuiyu · 2025-08-26 16:31:30 发布

DataFrame

在本章中，我们将正式进入DataFrame学习，包括DataFrame的属性以及常见函数的应用等方面内容

1，DataFrame的创建

DataFrame的创建方式：

通过字典创建
通过index可以设置索引值idx
通过column可以设置每一列的列名，即创建时字典的key，例如下例中的“奇数列”和“偶数列”以及“姓名”、“年龄”、“学号”，其中的顺序会影响每一列在DataFrame中的位置

示例如下：
在这里插入图片描述

1.2 DataFrame的属性

属性	说明	属性	说明
index	DataFrame的行索引	loc[]	显式索引，按行列标签索引或切片
values	DataFrame的值	iloc[]	隐式索引，按行列位置索引或切片
dtypes	DataFrame的元素类型	at[]	使用行列标签访问单个元素
shape	DataFrame的形状	iat[]	使用行列位置访问单个元素
ndim	DataFrame的维度	T	行列转置
size	DataFrame的元素个数
columns	DataFrame的列标签

其中大部分属性和numpy章节学习时的内容一致，如果不太熟悉的同学记得常回去看看，传送门：
Python数据分析——numpy综合(二)
表格中的内容部分示例如下：
在这里插入图片描述

1.3 获取DataFrame中部分数据的方法

在这里插入图片描述

1.4 DataFrame的常用方法

方法	说明	方法	说明
head()	查看前 n 行数据，默认 5 行	max()	最大值
tail()	查看后 n 行数据，默认 5 行	var()	方差
isin()	判断元素是否包含在参数集合中	std()	标准差
isna()	判断是否为缺失值（如 NaN 或 None）	median()	中位数
sum()	求和，自动忽略缺失值	mode()	众数（可返回多个）
mean()	平均值	quantile(q)	分位数，q 取 0~1 之间
min()	最小值	describe()	常见统计信息（count、mean、std、min、25%、50%、75%、max）
value_counts()	每个唯一值的出现次数	sort_values()	按值排序
count()	非缺失值数量	replace()	替换值
duplicated()	是否重复	nlargest()	返回某列最大的n条数据
drop_duplicates()	去除重复项	nsmallest()	返回某列最小的n条数据
sample()	随机抽样
replace()	替换值
sort_index()	按索引排序