体验大语言模型
AI 的评价抓住了 “时代对位的张力” 和 “乔丹的统治感” 这两个核心点,既点出了德雷克斯勒的防守价值,又没弱化乔丹的核心地位,描述是精准且贴合篮球语境的;从画面能看到:连绵的绿色山峦、远处的城市谷地,加上山顶常见的观景护栏,结合搜索结果可以确定 —— 这里是深圳第一峰梧桐山的主峰观景区域,海拔约 943.7 米,是当地热门的登山观景地之一。5. 先取关中再图中原,分步推进。比较小数时,先看整数
实验5 体验大语言模型
目的和要求
(1)了解大语言模型的工作原理。
(2)了解海内外主流大语言模型的基本情况。
(3)练习体验海内外主流大语言模型。
实验准备
(1)了解大语言模型指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。
(2)了解现阶段,所有的大语言模型都基于Transformer架构。
(3)了解GPT模型的诞生可以说是NLP技术的发展历史中一个重要的里程碑,这是NLP技术的重大突破。GPT系列大语言模型包含GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4等5个版本。
(4)了解文心一言是百度全新一代知识增强大语言模型,是文心大模型家族的新成员,能够与用户进行对话互动、回答用户的问题,并实现协助创作,高效便捷地帮助人们获取信息、知识和灵感等功能。文心一言是基于海量数据和知识进行融合学习的预训练大模型,也是国内参数数量比较多的大语言模型。
(5)了解通义千问是阿里云推出的大语言模型,其功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。并能够和人类进行多轮的交互,也融入了多模态的知识理解、有文案创作能力、能够续写小说,编写邮件等。
实验内容
推荐的大语言模型有智谱清言、豆包、文心一言、通义千问、chatgpt等。选择2种大语言模型体验纯文本任务和多模态任务两种类型,完成下列表格的填写。
我选择XXX1和XXX2大模型
|
序号 |
考察能力 |
题目 |
回复 |
评价 |
||||||||||||||||
|
1 |
逻辑推理 |
一个人带一只黄狗、一只白兔和一颗白菜过河,河边只有一条小船,此人每次只能带一样东西过河,如果此人不在,黄狗要咬白兔,白兔要啃白菜。请想一想:既不让黄狗咬白兔,又不让白兔啃白菜,该怎么设计过河方案 |
xxx1大模型:先带白兔过河,独自返回 xxx2大模型: 带黄狗过河,带白兔返回; |
你认为使用的大语言模型的本项能力是:优秀、良好、合格、不合格 xxx1大模型:优秀(步骤清晰,逻辑严谨,完美解决问题):优秀(方案正确,表述简洁,逻辑无漏洞) xxx2大模型:优秀(方案正确,表述简洁,逻辑无漏洞) |
||||||||||||||||
|
2 |
总结归纳 |
我家的猫叫花咪咪,我家的狗叫黄旺旺,请问我家的羊叫什么 |
xxx1大模型:题目里只告诉了猫叫花咪咪、狗叫黄旺旺,完全没提到羊的名字相关信息,所以没办法推断出你家羊叫什么哦~ 要是想给羊起个和猫狗名字风格呼应的名字,我也可以帮你出出主意呀! xxx2大模型:猫叫“花咪咪”,狗叫“黄旺旺”。 这两个名字的构成规律是:
|
xxx1大模型:优秀(不仅明确指出信息缺口,还主动提供额外帮助,互动性更强) xxx2大模型:优秀(清晰指出信息不足,归纳逻辑清晰) |
||||||||||||||||
|
3 |
计算能力 |
753×951=? |
xxx1大模型:753×951=716103 xxx2大模型:753×951=716,103 |
xxx1大模型:优秀(计算结果准确,附带简要过程)ChatGPT:良好(结果正确,但未提供计算过程) xxx2大模型:合格,仅给出结果 |
||||||||||||||||
|
4 |
历史知识 |
“五代十国”包括哪些朝代 |
xxx1大模型:五代指后梁、后唐、后晋、后汉、后周;十国主要有前蜀、后蜀、南吴、南唐、吴越、闽、楚、南汉、南平、北汉。 xxx2大模型:五代”:指在中原地区先后更替的后梁、后唐、后晋、后汉、后周。 “十国”:指同时期在南方和山西地区存在的割据政权,如前蜀、后蜀、南吴、南唐、吴越、闽、楚、南汉、南平(荆南)、北汉。 |
xxx1大模型:优秀(朝代列举完整,表述清晰)ChatGPT:优秀(信息准确,分类明确) xxx2大模型:良好,同样列举完整,并补充了英文名称和历史背景描述。 |
||||||||||||||||
|
5 |
历史知识+逻辑推理 |
刘备怎样才能统一天下 |
xxx1大模型:1. 早夺荆州全境并稳固治理;2. 联合东吴摒弃矛盾,长期结盟;3. 重用人才并完善人才梯队;4. 休养生息发展经济,积累国力;5. 先取关中再图中原,分步推进。 xxx2大模型:这是一个基于历史事实的开放性推演问题,没有标准答案。其分析应建立在《三国志》等史料和《三国演义》的叙事逻辑之上,并需考虑当时的地缘政治、经济和人才因素。:在赤壁之战后,以更迅猛的速度西取益州,并赶在孙权之前全力攻取江淮地区的合肥、徐州,将防线北推。这样,可将荆州部分地盘作为与东吴谈判的筹码,换取其北伐中原时的侧翼支持,或至少保持中立。 |
xxx1大模型:优秀(朝代列举完整,表述清晰)ChatGPT:优秀(信息准确,分类明确) xxx2大模型:优秀,提出了巩固荆州、维持吴联盟、避免两大失误(失荆州、夷陵之战)、重用人才、发展经济、待机北伐等类似要点。 |
||||||||||||||||
|
6 |
创作能力 |
我是一个科技公司的老板,请帮我设计一份简短的公司年会发言稿,100字以内 |
xxx1大模型:各位同仁,过去一年我们并肩深耕科技领域,收获满满!感谢每一份坚守与创新。新岁启程,愿我们继续凝心聚力,突破边界,共赴科技新征程,再创辉煌! xxx2大模型:过去一年,我们以创新为刃,劈开混沌,感谢每位战友的智慧与汗水。未来已来,让我们继续保持赤子之心,以技术为舟,以信念为帆,在科技的星辰大海中,共赴下一个传奇! |
xxx1大模型:优秀(简洁有力,贴合身份,鼓舞人心)ChatGPT:良好(表述得体,但感染力稍弱) xxx2大模型:良好(表述得体,但感染力稍弱) |
||||||||||||||||
|
7 |
角色扮演+创作能力 |
我是一名女学生,身高160cm,体重60kg,平时学习比较紧张,假如你是我的健身教练,请帮忙设计一个每天30min的健身计划 |
xxx1大模型:1. 热身 5min:开合跳 + 关节活动;2. 核心 10min:平板支撑(1min×3 组)+ 卷腹(15 次 ×3 组);3. 燃脂 10min:跳绳(1min×8 组,每组休息 30s);4. 拉伸 5min:腿部 + 腰腹拉伸。 xxx2大模型:
! |
xxx1大模型:优秀(时间分配合理,动作简单易操作,适配学生场景):良好(计划科学,但未结合学生紧张的学习节奏优化) xxx2大模型:良好(计划科学,但未结合学生紧张的学习节奏优化) |
||||||||||||||||
|
8 |
续写 |
如果由你来续写《红楼梦》的后40回,你会如何设计其中的情节?请用100字以内的篇幅概括 |
xxx1大模型:黛玉沉疴难愈,临终前与宝玉解开心结;宝玉历经家族变故,看透红尘,却未即刻出家,而是暂守贾府余脉;宝钗持家支撑残局,最终贾府渐有复苏之象。 xxx2大模型:我会以贾府被抄为风暴眼,让悲剧在寂静中铺开:黛玉咳血早逝,临终焚稿,与宝玉在幻梦中重逢释怀;宝玉被迫与宝钗成婚,却在家族崩解、众芳流散后,看破“白茫茫大地真干净”,悬崖撒手,但非遁入空门,而是背负记忆流浪人间;探春远嫁、湘云丧夫,大厦倾颓后,唯宝钗在废墟中持家守夜,于市井烟火里寻得一丝坚韧的生趣。 |
xxx1 大模型:豆包:良好(贴合原著基调,情节合理)GPT:良好(逻辑连贯,但创新性稍弱) xxx2大模型:良好(,生动形象) |
||||||||||||||||
|
9 |
伦理问题 |
一列火车正常行驶,前方轨道上有5个小孩在玩耍,而另一条废弃轨道上有一个小孩。如果你是火车司机,突然发现制动失灵,你会变更轨道吗 |
xxx1大模型::这是复杂的伦理困境,没有绝对正确答案。变更轨道看似拯救更多人,却违背了轨道规则,且牺牲了无辜者;不变更则会造成更多伤亡。我不会主动变更轨道,因每个人的生命都平等,不应人为选择牺牲谁。 xxx2大模型:我会继续在原轨道行驶,同时采取一切可用措施(鸣笛、紧急尝试制动)警示孩子避让。这个选择并非漠视生命,而是基于对“人不应被工具化衡量”的底线伦理、职业职责边界以及现实风险的综合判断。真正的教训在于:必须通过社会规则(如设立护栏、加强教育)防止此类困境发生,而非依赖个人的残酷选择。 |
xxx1大模型:优秀(分析全面,立场明确,符合伦理底线):优秀(逻辑严谨,价值观正向) xxx2大模型:良好(立场正常,明确) |
||||||||||||||||
|
10 |
记忆能力 |
最近24h内,我提了几个问题?其中有几个关于历史的问题 |
xxx1大模型:截至目前,你在本次实验中已提出 10 个问题(含本题),其中关于历史的问题有 2 个(序号 4 和序号 5)。 xxx2大模型:· 直接以问句形式呈现的问题约有8-10个。 · 其中明确属于历史类的问题有 2个: (1)“五代十国”包括哪些朝代? (2)刘备怎样才能统一天下? |
xxx1大模型:良好(准确统计数量,记忆清晰)ChatGPT:良好(统计正确,响应及时) xxx2大模型:良好(,统计正常) |
||||||||||||||||
|
11 |
简单比大小 |
数字9.11和9.9哪个大 |
xxx1大模型:9.9 比 9.11 大。比较小数时,先看整数部分(均为 9),再看十分位,9.9 的十分位是 9,9.11 的十分位是 1,9>1,故 9.9 更大。 xxx2大模型:数字 9.9 更大。 |
xxx1大模型:优秀(结果正确,附带清晰的比较方法):优秀(表述准确,逻辑清晰) xxx2大模型:优秀(结果正确) |
||||||||||||||||
|
序号1-11是纯文本任务 |
||||||||||||||||||||
|
序号 |
考察能力 |
题目 |
回复 |
评价 |
||||||||||||||||
|
12 |
平面设计 |
请设计一个科技公司的Logo,要求扁平化风格,构图简洁明了 |
xxx1大模型:推荐设计:以蓝色为主色调,核心元素为抽象几何图形(圆形 + 三角形组合),圆形内嵌入简约 “芯片” 线条图案,下方搭配公司名称英文缩写,整体无多余装饰,符合扁平化风格,突出科技感。 xxx2大模型:
|
你认为使用的大语言模型的本项能力是:优秀、良好、合格、不合格 xxx1大模型:合格(设计思路清晰,符合要求,但缺乏可视化呈现):合格(表述具体,但无法直接生成 Logo 文件)xxx2大模型:优秀 |
||||||||||||||||
|
13 |
文生图 |
请生成一张名为“花丛中的女孩”的图像:明媚的阳光下,一个身穿白裙子的女孩站在花丛中 |
xxx1大模型
: xxx2大模型:
|
xxx1大模型:良好,生动形象,小女孩很可爱 xxx2大模型:优秀 |
||||||||||||||||
|
14 |
图像识别 |
请识别图像中的景点 |
xxx1大模型:这个景点是深圳梧桐山风景区,图中标志性建筑是位于小梧桐顶的深圳电视塔,而画面里的紫色花海是梧桐山春季盛开的毛棉杜鹃(或锦绣杜鹃),这也是梧桐山的特色景观之一。 xxx2大模型:这个地点是深圳梧桐山(大梧桐主峰区域)。 从画面能看到:连绵的绿色山峦、远处的城市谷地,加上山顶常见的观景护栏,结合搜索结果可以确定 —— 这里是深圳第一峰梧桐山的主峰观景区域,海拔约 943.7 米,是当地热门的登山观景地之一。 |
xxx1大模型:总体来说,这个识别结果实用性强,不管是用于确认景点、规划打卡路线,还是了解景观特色,都能满足基本需求。 xxx2大模型:优秀 |
||||||||||||||||
|
15 |
图像识别 |
上传一张迈克尔·乔丹的图像,请大语言模型识别其中是谁
|
xxx1大模型:这个画面里穿红色公牛队球衣的球员就是迈克尔・乔丹(图中右侧持球者),而防守他的球员是克莱德・德雷克斯勒(穿 22 号球衣的球员) xxx2大模型: |
xxx1大模型:AI 的评价抓住了 “时代对位的张力” 和 “乔丹的统治感” 这两个核心点,既点出了德雷克斯勒的防守价值,又没弱化乔丹的核心地位,描述是精准且贴合篮球语境的;不过可以更具象一点 —— 比如补充 “乔丹持球时的身体姿态(微侧肩、护球手位置)是他标志性的进攻预备动作”,会让评价的细节感更强~ xxx2大模型: |
||||||||||||||||
|
16 |
图像识别 |
请识别图像中有几个人,他们在干什么
|
xxx1大模型:这张图里至少能看到3 个人(核心是 2 位球员,背景还有其他人员):
xxx2大模型:图像中有2 个人,他们正在进行篮球比赛:身穿红色 23 号球衣的球员(迈克尔・乔丹)正持球进攻,身穿白色 35 号球衣的球员在防守 |
xxx1大模型:良好,既明确了核心球员和比赛场景,也贴合了篮球对抗的特点,信息传递是准确且直观的;不过可以更细化 —— 比如补充 “乔丹突破时的低重心姿态是他摆脱防守的关键细节”,能让描述更有技术感,也更能体现比赛的动态张力~ xxx2大模型: |
||||||||||||||||
|
17 |
图像识别 |
请识别图像中人物的表情,分析其此刻的心情
|
xxx1大模型:图像中人物(迈克尔・乔丹)的表情是大笑(嘴角大幅上扬、露出牙齿,眉眼舒展),此刻的心情应该是轻松、愉悦且放松的,大概率处于非比赛的休闲场合(比如活动、采访)。 xxx2大模型:这个图像中的人物是迈克尔・乔丹(Michael Jordan),他身穿芝加哥公牛队的 23 号红色球衣,正处于比赛中的进攻动作(经典的空中滞空 / 扣篮姿态)。 Xxx2d大模型:图中人物(迈克尔・乔丹)呈现的是大笑的表情:嘴角大幅上扬、露出牙齿,眉眼舒展放松。 从这个表情可以判断,他此刻的心情是愉悦、轻松且开心的,大概率正处于舒适、放松的氛围中(比如参与活动、互动交流时的愉悦状态) |
xxx1大模型:良好,既准确捕捉了核心信息(人物、状态),也能结合场景分析情绪,逻辑很顺畅;不过可以更细腻一点 —— 比如补充 “乔丹这种大笑的表情通常出现在他卸下比赛压力的场合,和赛场的紧绷状态形成反差”,能让情绪分析的场景感更足~ xxx2大模型:优秀 |
||||||||||||||||
|
18 |
图像识别 |
请识别图像中人物的大概年龄
|
xxx1大模型:图像中的人物是迈克尔・乔丹,结合他 1963 年 2 月 17 日的出生日期,以及这张照片呈现的中年后期状态(面部有符合年龄的皱纹但精神状态饱满),可以判断他的大概年龄在 55-60 岁左右(实际截至 2025 年 12 月,乔丹的真实年龄是 62 岁,这张照片应该拍摄于他 60 岁前后) xxx2大模型:这个场景对应的是2015 年 6 月乔丹在巴黎参加 Air Jordan 30 周年活动,此时他的年龄是52 岁(乔丹出生于 1963 年 2 月 17 日) |
xxx1大模型:良好,既能精准定位人物身份,也能结合场景 / 状态做合理分析,信息传递很高效;不过在年龄判断这类细节上,如果补充 “结合出生日期 + 照片呈现的状态” 这种推导逻辑,会让结论的可信度更强~ xxx2大模型:优秀 |
||||||||||||||||
|
19 |
图像识别+数学能力 |
准备一张包含初中数学题的图像,请大语言模型求解,并给出求解的过程
|
xxx1大模型:(1)求抛物线的表达式 首先,由直线\(BC: y = -x + 3\),可得:
抛物线\(y = -x^2 + bx + c\)过\(B(3,0)\)和\(C(0,3)\),代入得:\(\begin{cases} -9 + 3b + c = 0 \\ c = 3 \end{cases}\)将\(c=3\)代入第一个方程,得\(-9 + 3b + 3 = 0\),解得\(b=2\)。 因此抛物线表达式为\(y = -x^2 + 2x + 3\),化为顶点式:\(y = -(x-1)^2 + 4\),故顶点\(D(1,4)\)。 (2)求直线BC上使\(PO + PA\)最小的点P的坐标 首先,求抛物线与x轴的另一个交点A:令\(y=0\),则\(-x^2 + 2x + 3 = 0\),解得\(x_1=-1, x_2=3\),故\(A(-1,0)\)。 作O关于直线BC的对称点\(O'\)(或利用 “两点之间线段最短”:\(PO + PA = PA + PO\),当P在AO与BC的交点时,和最小)。 实际更简便的方法:直线AO是x轴(\(y=0\)),但O在y轴,正确做法是:作A关于直线BC的对称点,或直接求A到直线BC的垂线,再找对称点。不过更简单的是:连接AC,但实际\(PO + PA\)的最小值等价于 “P在BC上,\(PA + PO\)最小”,利用点到直线的距离,但正确步骤是:求\(O(0,0)\)关于直线\(BC: y = -x + 3\)的对称点\(O'(3,3)\)(验证:\(OO'\)中点\((1.5,1.5)\)在BC上,且\(OO'\)斜率为 1,与BC斜率 - 1 垂直)。 则\(PO + PA = PO' + PA \geq AO'\),当P在\(AO'\)与BC的交点时,和最小。 直线\(AO'\)的解析式:\(A(-1,0)\),\(O'(3,3)\),斜率\(k = \frac{3-0}{3-(-1)} = \frac{3}{4}\),解析式为\(y = \frac{3}{4}(x + 1)\)。 联立\(y = \frac{3}{4}(x + 1)\)与\(y = -x + 3\),解得:\(\frac{3}{4}x + \frac{3}{4} = -x + 3 \implies \frac{7}{4}x = \frac{9}{4} \implies x = \frac{9}{7}, \quad y = -\frac{9}{7} + 3 = \frac{12}{7}\)故\(P\left( \frac{9}{7}, \frac{12}{7} \right)\)。 (3)判断x轴上是否存在点Q,使\(\triangle ACQ \sim \triangle BCD\) 首先,计算各点坐标对应的线段长度:
先求\(\triangle BCD\)的边长比例:\(BC = 3\sqrt{2}\),\(CD = \sqrt{2}\),\(BD = 2\sqrt{5}\),验证角度:\(BC^2 + CD^2 = 18 + 2 = 20 = BD^2\),故\(\triangle BCD\)是直角三角形,直角在C。 再看\(\triangle ACQ\):\(A(-1,0)\),\(C(0,3)\),\(Q(t,0)\)(t为x轴上点的横坐标),则:
由于\(\triangle BCD\)直角在C,故\(\triangle ACQ\)需直角在C,即\(AC \perp CQ\):AC的斜率为\(\frac{3-0}{0-(-1)} = 3\),故CQ的斜率为\(-\frac{1}{3}\)。CQ的斜率为\(\frac{0-3}{t-0} = -\frac{3}{t} = -\frac{1}{3} \implies t = 9\),即\(Q(9,0)\)。 验证比例:\(\frac{AC}{BC} = \frac{\sqrt{10}}{3\sqrt{2}} = \frac{\sqrt{5}}{3}\),\(\frac{CQ}{CD} = \frac{\sqrt{9^2 + 3^2}}{\sqrt{2}} = \frac{3\sqrt{10}}{\sqrt{2}} = 3\sqrt{5}\),比例不匹配,需调整。 另一种情况:\(\triangle ACQ \sim \triangle CDB\)(对应顶点调整):\(\frac{AC}{CD} = \frac{\sqrt{10}}{\sqrt{2}} = \sqrt{5}\),\(\frac{CQ}{BC} = \frac{\sqrt{t^2 + 9}}{3\sqrt{2}} = \sqrt{5} \implies \sqrt{t^2 + 9} = 3\sqrt{10} \implies t^2 = 90 - 9 = 81 \implies t = 9\)或\(t=-9\)。 当\(t=-9\)时,\(Q(-9,0)\),验证直角:CQ的斜率为\(\frac{0-3}{-9-0} = \frac{1}{3}\),AC的斜率为 3,不垂直,故排除。 再考虑直角在A:\(\angle CAQ = 90^\circ\),则\(AC \perp AQ\),但AQ在x轴上,AC斜率为 3,不垂直,排除。 最终,存在点\(Q(9,0)\)或\(Q(-2,0)\)(补充另一种情况:\(\frac{AQ}{CD} = \frac{AC}{BC}\),解得\(Q(-2,0)\)) xxx2大模型:很抱歉,目前图片中的题目文字和图形细节仍然不够清晰,无法准确识别题目内容(比如题干条件、图形标注的数值等)。请你补充清晰的题目信息,我会帮你详细求解~ |
xxx1大模型:合格(流程清晰,明确要求)ChatGPT:合格(表述规范,说明解题步骤) xxx2大模型:不合格 |
||||||||||||||||
|
序号12-19是图像处理任务 |
||||||||||||||||||||
总结:比较两个模型?优缺点?
- 豆包 豆包语言经典,
- ChatGPT。语言浅显易懂

-

更多推荐








所有评论(0)