pandas DataFrame按比例随机采样以达到拆分数据集的作用

lerry_lca

16011人浏览 · 2020-04-09 16:35:49

lerry_lca · 2020-04-09 16:35:49 发布

1. 创建/加载数据集

data = {
        '水果':['苹果','梨','草莓','香蕉','西瓜'],
        '价格':[2,6,1,8,3]
       }
df=pd.DataFrame(data)
df

	水果	价格
0	苹果	2
1	梨	6
2	草莓	1
3	香蕉	8
4	西瓜	3

2. 按比例随机采样切分数据集

2.1 按比例随机采样

df = df.sample(frac=1.0): 按100%的比例抽样即达到打乱数据的效果
df = df.reset_index()：打乱数据之后index也是乱的，如果你的index没有特征意义的话，直接重置就可以了，否则就在打乱之前把index加进新的一列，再生成无意义的index

df1=df.sample(frac=0.6)#按0.6比例随机采样
df1

	水果	价格
4	西瓜	3
1	梨	6
2	草莓	1

2.2 去掉df中已经采样过的样本

isin表示df中index和df1重复的行，~表示取反，即不重复的，相当于按行索引取差集

df2=df[~df.index.isin(df1.index)]

2.3 得到df2，即df中去掉采样过的样本后的df2

df2

	水果	价格
0	苹果	2
3	香蕉	8

3. 对比查看三个dataframe

如果需要重置行索引，使用df = df.reset_index(drop=True)
默认值是False
如果drop=False，会使原来的index变成新的数据列保留。
如果不想保留原来的index，直接使用重置后的索引，使用drop=True

df

	水果	价格
0	苹果	2
1	梨	6
2	草莓	1
3	香蕉	8
4	西瓜	3

df1

	水果	价格
4	西瓜	3
1	梨	6
2	草莓	1

df2

	水果	价格
0	苹果	2
3	香蕉	8

参考：

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

一文读懂企业AI四阶段演进：从存文档到懂业务，理清智能化路线

从单纯存放文件的文档时代，到能够自主决策的认知智能时代，企业 AI 的四次演进，本质是 AI 与业务融合不断加深的过程。判断企业当前所处阶段，找准进阶方向，是每一位业务人员推进数智化转型的必备认知。当下，AIGC 内容生成已经成为行业基础能力，以向量空间 JBoltAI 为代表的 AIGS 技术范式，正在推动企业 AI 从 "工具应用" 走向 "体系重塑"。无论是尚在搭建文档与知识库的传统企业，还

2048 AI社区

万字长文之—学会写提示词

我们一般在使用大模型产品的时候，我们都是向大模型“提问”，大模型给出“答案”，如果阅读过OpenAI官方使用文档，你就会发现，在官方文档里，你是看不到question和answer这两个词的，我们能看到的是prompt和completion，翻译过来就是提示和补全，也就是说，我们向大模型提出的问题，其实是给大模型一个提示，让它进行补全，补全的内容就是大模型给我们输出的答案。为什么是提示和补全，而不

2048 AI社区

【AI Coding】Claude Code 入门（二）：CLI 命令行模式 — 基础命令与高效操作

Claude Code 的 CLI 模式是它的核心交互方式。你在终端中直接与 AI 对话，它能读写文件、执行命令、理解整个项目上下文。# 最基本的启动方式 claude # 指定项目目录启动 cd ~/my-project && claude # 直接发送一个 prompt（非交互式） claude -p "解释这段代码的作用"