停!豆包新模型 + PromptPilot 体验太顶了,不看这篇你绝对后悔!
字节跳动推出两款新AI模型Doubao-Seed-1.6-thinking和Doubao-Seed-1.6-flash,分别侧重深度思考和极速推理,均支持256K上下文窗口和16K tokens输出。同时发布PromptPilot平台,提供从提示词生成、优化到批量测评的全流程支持。实测显示,模型在多模态理解、视频分析等方面表现优异,PromptPilot能有效提升复杂任务的处理效率,通过智能优化显
目录
1.1 Doubao-Seed-1.6-flash丨250715
1.2 Doubao-Seed-1.6-thinking丨250715
字节刚甩出两款新模型,那真是王炸级别的!一个叫 Doubao-Seed-1.6-thinking丨250715,另一个是 Doubao-Seed-1.6-flash丨250715。这俩模型是真厉害,不管是多模态的深度思考能力、快到飞起的推理速度,还是对视觉内容的理解,都做得特别惊艳。
正好,我来替大伙儿先体验体验,好好测评一番。另外他们还公布了个 PromptPilot 平台,能帮用户生成提示词,还能调试和智能优化任务,挺实用的。
行了,废话不多说,咱们这就开启探索模式!
一、聊聊简单的聊天框指令体验
1.1 Doubao-Seed-1.6-flash丨250715
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT低至10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 16k tokens。
体验地址:账号登录-火山引擎
我现在上传一张图片让大模型帮我总结,来让大家感受一下,效果如下:
可以看到多模态深度思考速度非常快!!6.41s就完成了对图片的总结,而且输出的内容也和图片内容一致,可以看到模型对视觉理解非常到位!
1.2 Doubao-Seed-1.6-thinking丨250715
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT低至10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 16k tokens。
我丢入一个视频让模型给我详细介绍视频内容和生成分镜,最后居然也生成了,还挺符合,阔以阔以,你们也可以尝试一下。
1.3 版本对比分析
特性 | Doubao-Seed-1.6-thinking | Doubao-Seed-1.6-flash |
推理速度 | 标准 | 极速(10ms TPOT) |
思考深度 | 深度推理 | 快速响应 |
多模态 | ✅ | ✅ |
上下文长度 | 256K | 256K |
最大输出 | 16K tokens | 16K tokens |
适用场景 | 复杂任务 | 实时应用 |
二、PromtPilot 操作实践
提示词这东西,可是大模型的核心指令,直接关系到模型能不能准确理解你的意思,输出的结果好不好。要是提示词写得好,大语言模型处理复杂任务的本事能明显变强,像逻辑推理、把步骤拆解开这些事儿,都能办得更利落。
而 PromptPilot 这平台,就能从头到尾帮你智能优化提示词,从生成、调整、评估到管理,每个阶段都能顾及到,帮你高效弄出更棒的提示词方案。
现在模型能力越来越强,要解决的问题也越来越复杂,光靠调优单个提示词可不够了,得转向对那种包含多个步骤、工具和 Agent 参与的工作流程进行系统性优化。
PromptPilot 就靠着大模型的本事,自动把问题拆开、规划流程,再结合能用的工具生成各种各样的解决方案,还能根据用户的反馈不断改进,最后轻轻松松就能完成代码部署。
接下来咱们就拿一个测试案例来举例,比如品牌评价的情感分类 —— 也就是文本理解任务,实际操作一下 PromptPilot。
PromtPilot独立站体验地址:https://promptpilot.volcengine.com/startup
2.1 第一步:prompt生成
为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。
我们会得到这样的一个优化过的提示词:
2.2 第二步:继续优化提示词
对生成的提示词不满意?没事儿,你可以自己动手改。要是懒得手动弄,直接点页面右下角的 “优化你的 Prompt”,在对话框里说说你想怎么改、有啥具体要求,就行啦。 比如:
变量名字必须是image_url
生成后的prompt:
你的任务是根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况。此判断是为了确保安全生产。请仔细查看以下生产车间图片:
<生产车间图片>
{{image_url}}
</生产车间图片>
请按照以下步骤进行评估:
1. 仔细查看图片的各个部分,包括设备操作情况和人员防护情况。
2. 判断是否存在违规操作设备的现象,如设备使用方式不符合规定等。
3. 判断是否存在人员未佩戴安全防护用具的情况,如安全帽、防护手套、护目镜等。
4. 形成初步判断。
5. 再次检查,确保没有遗漏重要细节。
在<思考>标签中分析图片,考虑是否存在违规操作设备和未佩戴安全防护用具的情况。然后在<判断>标签中给出你的最终判断,使用"存在违规"或"不存在违规"。最后,在<违规类别>标签中详细列出存在的违规类别,若不存在违规则写"无"。
<思考>
[在此分析图片内容]
</思考>
<判断>
[在此给出"存在违规"或"不存在违规"的判断]
</判断>
<违规类别>
[在此列出违规类别]
</违规类别>
请确保你的判断客观公正,并基于图片的实际情况。
2.3 第三步:调试prompt
已经生成了prompt,接下来就是调试prompt了。
这里需要移动到上传图片框,然后点击URL上传。
可以看到我们这边已经上传成功图片了。
选择target model,即:推理模型,多模态选择带thinking的模型。
点击保存并生成模型回答。
可以看到,在模型回答中,确实存在违规的点,比如:没有佩戴防护手套。
在下方可以点击基于模型回答的改写,可以看到别的模型回答的内容。
这边需要点击更多模型回答的参考。
我们可以看到,模型2的回答内容是不存在违规的,人工仔细观察它的思考和图片,确实应该判定为不违规。
所以我们可以优化一下它的思考过程,让它更加的简洁一点。
我们可以仅保存并添加到评测集。
2.4 第四步:批量测评
2.4.1 进入批量测评界面
2.4.2 上传图片集
方法一:添加行的方式:通过上传图片url来上传case
方法二:直接上传批量集:上传数据集,请注意:需要先修改图片的变量名为image_url, 然后上传文件。
这里需要选择对应文件。
上传之后,我们可以继续预览图片。
这边【点击确认上传】,不一会儿,可以看到都上传完成了。
如果避免麻烦的,可以像我这样连同“理想回答”都填上去。
这边可以看到我们已经都上传好了,然后点击生成全部回答。
我们先评分3个,然后让AI生成评分标准。
通过手动评分的标准,比如我这边评分了三条数据的,然后我们直接使用这个标准,点击【AI评分标准】,后期就可以让AI自动评分,这让后续的数据的评分变得很方便了。批量起来也不再话下!
只需要点击这个【为未评分的回答评分】,就能自动评分。
2.5 第五步:进入智能优化
进入智能优化页面,并开启优化
智能优化完成之后,我们可以查看优化报告。
优化报告不达预期,可以继续优化,因为最终的分数符合我的预期,3.8分,换算到百分制,其实是76分,所以可以正常结束。但是如果不满意,想继续优化,可以点如下按钮,继续优化下一轮,通过更多的迭代轮数提高效果。
更多推荐
所有评论(0)