数据集划分 - 训练集、测试集、验证集

数据集划分是炼丹的准备工作。附上一次性划分的步骤。Step1: 获取所有文件名ls >a.txt注意在生成的txt里将其本名删去。Step2：按照比例划分这里使用的是train:test:val = 7:2:1 的比例划分。直接用mod10结果分类。# emptywith open('val.txt','a+',encoding='utf-8') as f_val:f_val.truncat

Banbakaban

2362人浏览 · 2022-01-06 11:19:47

Banbakaban · 2022-01-06 11:19:47 发布

数据集划分是炼丹的准备工作。附上一次性划分的步骤。

Step1: 获取所有文件名

ls >a.txt

注意在生成的txt里将其本名删去。
在这里插入图片描述

Step2：按照比例划分
这里使用的是train:test:val = 7:2:1 的比例划分。直接用mod10结果分类。

# clear contents
with open('val.txt', 'a+', encoding='utf-8') as f_val:
    f_val.truncate(0)
f_val.close()

with open('test.txt', 'a+', encoding='utf-8') as f_test:
    f_test.truncate(0)
f_test.close()

with open('train.txt', 'a+', encoding='utf-8') as f_train:
    f_train.truncate(0)
f_train.close()

# read and write
with open("a.txt", encoding='utf-8') as f:
    count = 0
    for line in f.readlines():
        count = count + 1
        # print("NO.", count, ":", line)
        if count % 10 == 1:
            with open('val.txt', 'a') as f_val:
                f_val.write(line)
            f_val.close()
        elif count % 5 == 0:
            with open('test.txt', 'a') as f_test:
                f_test.write(line)
            f_test.close()
        else:
            with open('train.txt', 'a') as f_train:
                f_train.write(line)
            f_train.close()
f.close()

结果：

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

数据分类分级：从工具化扫描到智能化治理的跨越

摘要：数据安全治理已转向"以数据为中心"模式，"发现即安全"理念强调数据可见性是安全控制的起点。优秀的数据分类分级产品需具备多模态识别能力，结合NLP和AI大模型实现深度语义理解；采用自动化标签体系和行业模板提升效率；覆盖静态存储与动态流量，实现全生命周期管理；并能将分类结果转化为安全策略。同时需保证轻量化性能，通过分布式架构实现无感接入，最终形成动态数据地

2048 AI社区

微信小程序静默登录踩坑：首页接口比登录接口快？4种方案完美解决

摘要：微信小程序中app.vue的onLaunch和首页onLoad并行执行导致登录接口未完成时首页接口已请求失败。提供四种解决方案：1)首页延迟请求（简单项目）；2)使用Promise等待登录完成（推荐）；3)uni-app Vue3专属全局Promise方案；4)全局拦截器+状态管理（中大型项目）。方案3通过main.js挂载全局Promise，在app.vue触发resolve，首页onLo

2048 AI社区

概念明晰：api调用、langchain框架（提示词模板、记忆力）；函数调用与agent区别；rag

结合前文内容，我们用一句话梳理所有概念的逻辑关系，帮你快速记忆：原始大语言模型（LLM）是基础，API调用是我们与LLM交互的方式；LangChain框架为LLM提供了提示词模板、记忆模块等工具，扩展其能力；函数调用是LLM调用外部工具的基础能力，Agent则是集成了函数调用、自主决策的完整智能体；RAG通过检索外部知识库，解决LLM的时效性和幻觉问题，是AI应用中提升响应准确性的关键。作为AI应