Python打乱pandas的数据

最简单的方法就是采用pandas中自带的 sample这个方法。

sample 函数本来是用来采样数据的,默认是打乱数据再采样,所以可以使用他来打乱数据。

样例:

df.sample(frac=1)

这样对可以对df进行shuffle打乱。其中参数frac是要返回的比例,比如df中有10行数据,我只想返回其中的30%,那么frac=0.3。frac=1是采样全部数据,相当于只进行了打乱操作

由于打乱数据后的索引是乱序的,有时候,我们可能需要打混后数据集的index(索引)还是按照正常的排序。我们只需要这样操作

df.sample(frac=1).reset_index(drop=True)  # drop是用来去除旧的索引

其他方法

其实,sklearn(机器学习的库)中也有shuffle的方法。

from sklearn.utils import shuffle
df = shuffle(df)
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐