Python打乱pandas的数据

Python打乱pandas的数据最简单的方法就是采用pandas中自带的 sample这个方法。sample 函数本来是用来采样数据的，默认是打乱数据再采样，所以可以使用他来打乱数据。样例：df.sample(frac=1)这样对可以对df进行shuffle打乱。其中参数frac是要返回的比例，比如df中有10行数据，我只想返回其中的30%,那么frac=0.3。frac=1是采样全部数据，相当

集电极

1689人浏览 · 2021-07-29 11:50:44

集电极 · 2021-07-29 11:50:44 发布

Python打乱pandas的数据

最简单的方法就是采用pandas中自带的 sample这个方法。

sample 函数本来是用来采样数据的，默认是打乱数据再采样，所以可以使用他来打乱数据。

样例：

df.sample(frac=1)

这样对可以对df进行shuffle打乱。其中参数frac是要返回的比例，比如df中有10行数据，我只想返回其中的30%,那么frac=0.3。frac=1是采样全部数据，相当于只进行了打乱操作。

由于打乱数据后的索引是乱序的，有时候，我们可能需要打混后数据集的index（索引）还是按照正常的排序。我们只需要这样操作

df.sample(frac=1).reset_index(drop=True)  # drop是用来去除旧的索引

其他方法

其实，sklearn(机器学习的库）中也有shuffle的方法。

from sklearn.utils import shuffle
df = shuffle(df)

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

构建高性能生成式AI应用：基于Rust Axum与蓝耘DeepSeek-V3.2大模型服务的全栈开发实战

2048 AI社区

CSDN农业知识专栏（开箱即用版）

2048 AI社区

微服务链路追踪组件Skywalking实战详解

2048 AI社区

所有评论(0)

查看更多评论

集电极

@qq_38463737

已为社区贡献31条内容