Python 数据清洗之缺失数据填充fillna()

数据量大，缺失数据比较少的情况下，可以直接滤除；数据量小，缺失数据比较多时，对数据进行填充就很有必要了。数据填充函数fillna()，默认参数如下：

梦因you而美

10318人浏览 · 2021-06-04 22:32:17

梦因you而美 · 2021-06-04 22:32:17 发布

数据量大，缺失数据比较少的情况下，可以直接滤除；数据量小，缺失数据比较多时，对数据进行填充就很有必要了。

数据填充函数fillna()，默认参数如下：

案例学习：

import numpy as np
from numpy import nan
import pandas as pd

data = pd.DataFrame(np.arange(3, 19, 1).reshape(4, 4), columns=list('abcd'), index=list("1234"))
print(data)
data.iloc[0:2, 0:3] = nan
print(data)

运行结果：

# 用0填充缺失数据
print(data.fillna(0))

运行结果：

# 用每列特征的均值填充缺失数据
print(data.fillna(data.mean()))

运行结果：

# 用每列特征的中位数填充缺失数据
print(data.fillna(data.median()))

运行结果：

# 用相邻后面（back）特征填充前面空值
print(data.fillna(method='bfill'))
print(data.fillna(method='backfill'))

运行结果：

# 用相邻前面（before）特征填充后面空值
print(data.fillna(method='ffill'))
print(data.fillna(method='pad'))

运行结果：

# 用字典对不同的列填充不同的缺失数据
values = {"a": 10, "b": 20, "c": 30}
print(data.fillna(value=values))

运行结果：

完整代码如下：

import numpy as np
from numpy import nan
import pandas as pd

data = pd.DataFrame(np.arange(3, 19, 1).reshape(4, 4), columns=list('abcd'), index=list("1234"))
print(data)
data.iloc[1:2, 0:3] = nan
print(data)

# 用0填充缺失数据
print("\n用0填充缺失数据\n", data.fillna(0))

# 用每列特征的均值填充缺失数据
print("\n用每列特征的均值填充缺失数据\n", data.fillna(data.mean()))

# 用每列特征的中位数填充缺失数据
print("\n用每列特征的中位数填充缺失数据\n", data.fillna(data.median()))

# 用相邻后面（back）特征填充前面空值
print("\n用相邻后面（back）特征填充前面空值\n", data.fillna(method='bfill'))
print("\n用相邻后面（back）特征填充前面空值\n", data.fillna(method='backfill'))

# 用相邻前面（before）特征填充后面空值
print("\n用相邻前面（before）特征填充后面空值\n", data.fillna(method='ffill'))
print("\n用相邻前面（before）特征填充后面空值\n", data.fillna(method='pad'))

# 用字典对不同的列填充不同的缺失数据
values = {"a": 10, "b": 20, "c": 30}
print("\n用字典对不同的列填充不同的缺失数据\n", data.fillna(value=values))

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

从Copilot到Gemini3.5办公AI进化到哪一步了

2026年AI智能研发管理工具测评：主流平台对比与选型全指南

本文测评 ONES、Jira、GitLab 十类主流工具，围绕AI智能研发管理展开分析，帮助企业团队建立更清晰的选型判断。

cover

IDC预判：AI低代码，制造业3年核心风口

所有评论(0)

查看更多评论

梦因you而美

@apollo_miracle

已为社区贡献6条内容