Python打乱pandas的数据
Python打乱pandas的数据最简单的方法就是采用pandas中自带的 sample这个方法。sample 函数本来是用来采样数据的,默认是打乱数据再采样,所以可以使用他来打乱数据。样例:df.sample(frac=1)这样对可以对df进行shuffle打乱。其中参数frac是要返回的比例,比如df中有10行数据,我只想返回其中的30%,那么frac=0.3。frac=1是采样全部数据,相当
·
Python打乱pandas的数据
最简单的方法就是采用pandas中自带的 sample这个方法。
sample 函数本来是用来采样数据的,默认是打乱数据再采样,所以可以使用他来打乱数据。
样例:
df.sample(frac=1)
这样对可以对df进行shuffle打乱。其中参数frac是要返回的比例,比如df中有10行数据,我只想返回其中的30%,那么frac=0.3。frac=1是采样全部数据,相当于只进行了打乱操作。
由于打乱数据后的索引是乱序的,有时候,我们可能需要打混后数据集的index(索引)还是按照正常的排序。我们只需要这样操作
df.sample(frac=1).reset_index(drop=True) # drop是用来去除旧的索引
其他方法
其实,sklearn(机器学习的库)中也有shuffle的方法。
from sklearn.utils import shuffle
df = shuffle(df)
更多推荐



所有评论(0)