实验5  体验大语言模型

目的和要求

(1)了解大语言模型的工作原理

2)了解海内外主流大语言模型的基本情况

3)练习体验海内外主流大语言模型

实验准备

(1)了解大语言模型指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。

(2)了解现阶段,所有的大语言模型都基于Transformer架构。

(3)了解GPT模型的诞生可以说是NLP技术的发展历史中一个重要的里程碑,这是NLP技术的重大突破。GPT系列大语言模型包含GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4等5个版本。

(4)了解文心一言是百度全新一代知识增强大语言模型,是文心大模型家族的新成员,能够与用户进行对话互动、回答用户的问题,并实现协助创作,高效便捷地帮助人们获取信息、知识和灵感等功能。文心一言是基于海量数据和知识进行融合学习的预训练大模型,也是国内参数数量比较多的大语言模型

(5)了解通义千问是阿里云推出的大语言模型,其功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。并能够和人类进行多轮的交互,也融入了多模态的知识理解、有文案创作能力、能够续写小说,编写邮件等。

实验内容

推荐的大语言模型有智谱清言、豆包、文心一言、通义千问、chatgpt等。选择2种大语言模型体验纯文本任务和多模态任务两种类型,完成下列表格的填写。

我选择XXX1XXX2大模型

序号

考察能力

题目

回复

评价

1

逻辑推理

一个人带一只黄狗、一只白兔和一颗白菜过河,河边只有一条小船,此人每次只能带一样东西过河,如果此人不在,黄狗要咬白兔,白兔要啃白菜。请想一想:既不让黄狗咬白兔,又不让白兔啃白菜,该怎么设计过河方案

xxx1大模型:先带白兔过河,独自返回

xxx2大模型: 带黄狗过河,带白兔返回;

你认为使用的大语言模型的本项能力是:优秀、良好、合格、不合格

xxx1大模型:优秀(步骤清晰,逻辑严谨,完美解决问题):优秀(方案正确,表述简洁,逻辑无漏洞)

xxx2大模型:优秀(方案正确,表述简洁,逻辑无漏洞)​

2

总结归纳

我家的猫叫花咪咪,我家的狗叫黄旺旺,请问我家的羊叫什么

xxx1大模型:题目里只告诉了猫叫花咪咪、狗叫黄旺旺,完全没提到羊的名字相关信息,所以没办法推断出你家羊叫什么哦~ 要是想给羊起个和猫狗名字风格呼应的名字,我也可以帮你出出主意呀!

xxx2大模型:猫叫“花咪咪”,狗叫“黄旺旺”。 这两个名字的构成规律是:

  • “花”​ 和 “黄”​ 是颜色(或特征)。
  • “咪咪”​ 和 “旺旺”​ 是常见的小动物称呼或象声词(猫叫“咪咪”,狗叫“汪汪”)。

xxx1大模型:优秀(不仅明确指出信息缺口,还主动提供额外帮助,互动性更强)

xxx2大模型:优秀(清晰指出信息不足,归纳逻辑清晰)

3

计算能力

753×951=?

xxx1大模型:753×951=716103

xxx2大模型:753×951=716,103

xxx1大模型:优秀(计算结果准确,附带简要过程)ChatGPT:良好(结果正确,但未提供计算过程)​

xxx2大模型:合格,仅给出结果

4

历史知识

“五代十国”包括哪些朝代

xxx1大模型:五代指后梁、后唐、后晋、后汉、后周;十国主要有前蜀、后蜀、南吴、南唐、吴越、闽、楚、南汉、南平、北汉。

xxx2大模型:五代”:指在中原地区先后更替的后梁、后唐、后晋、后汉、后周。 “十国”:指同时期在南方和山西地区存在的割据政权,如前蜀、后蜀、南吴、南唐、吴越、闽、楚、南汉、南平(荆南)、北汉。

xxx1大模型:优秀(朝代列举完整,表述清晰)ChatGPT:优秀(信息准确,分类明确)​

xxx2大模型:良好,同样列举完整,并补充了英文名称和历史背景描述。

5

历史知识+逻辑推理

刘备怎样才能统一天下

xxx1大模型:1. 早夺荆州全境并稳固治理;2. 联合东吴摒弃矛盾,长期结盟;3. 重用人才并完善人才梯队;4. 休养生息发展经济,积累国力;5. 先取关中再图中原,分步推进。

xxx2大模型:这是一个基于历史事实的开放性推演问题,没有标准答案。其分析应建立在《三国志》等史料和《三国演义》的叙事逻辑之上,并需考虑当时的地缘政治、经济和人才因素。:在赤壁之战后,以更迅猛的速度西取益州,并赶在孙权之前全力攻取江淮地区的合肥、徐州,将防线北推。这样,可将荆州部分地盘作为与东吴谈判的筹码,换取其北伐中原时的侧翼支持,或至少保持中立。

xxx1大模型:优秀(朝代列举完整,表述清晰)ChatGPT:优秀(信息准确,分类明确)​

xxx2大模型:优秀,提出了巩固荆州、维持吴联盟、避免两大失误(失荆州、夷陵之战)、重用人才、发展经济、待机北伐等类似要点。

6

创作能力

我是一个科技公司的老板,请帮我设计一份简短的公司年会发言稿,100字以内

xxx1大模型:各位同仁,过去一年我们并肩深耕科技领域,收获满满!感谢每一份坚守与创新。新岁启程,愿我们继续凝心聚力,突破边界,共赴科技新征程,再创辉煌!

xxx2大模型:过去一年,我们以创新为刃,劈开混沌,感谢每位战友的智慧与汗水。未来已来,让我们继续保持赤子之心,以技术为舟,以信念为帆,在科技的星辰大海中,共赴下一个传奇!

xxx1大模型:优秀(简洁有力,贴合身份,鼓舞人心)ChatGPT:良好(表述得体,但感染力稍弱)​

xxx2大模型:良好(表述得体,但感染力稍弱)

7

角色扮演+创作能力

我是一名女学生,身高160cm,体重60kg,平时学习比较紧张,假如你是我的健身教练,请帮忙设计一个每天30min的健身计划

xxx1大模型:1. 热身 5min:开合跳 + 关节活动;2. 核心 10min:平板支撑(1min×3 组)+ 卷腹(15 次 ×3 组);3. 燃脂 10min:跳绳(1min×8 组,每组休息 30s);4. 拉伸 5min:腿部 + 腰腹拉伸。

xxx2大模型:

阶段

时长

动作

目的与要点

1. 热身激活

5分钟

1. 开合跳(40秒)
2. 高抬腿(40秒)
3. 腕/踝关节环绕(左右各30秒)
4. 猫牛式伸展(60秒)

升高心率,激活全身,重点活动手腕、脚踝和脊柱,缓解久坐僵硬。

2. 主体训练

20分钟

循环以下4个动作为一组,完成3-4组,组间休息30秒。

1. 深蹲(15次):脚略宽于肩,注意膝盖朝向脚尖。
2. 跪姿俯卧撑(10次):核心收紧,缓慢下放。
3. 交替弓步蹲(每侧12次):保持上身直立,稳定重心。
4. 平板支撑(40秒):全身绷紧,不塌腰不撅臀。

全身性复合动作为主,高效锻炼大肌群,提升代谢。强度适中,可跟练完成。

3. 舒缓拉伸

5分钟

1. 大腿前侧拉伸(每侧30秒)
2. 大腿后侧拉伸(每侧30秒)
3. 背部拉伸(猫牛式,30秒)
4. 肩颈拉伸(颈部侧屈,每侧30秒)

缓解肌肉紧张,促进恢复,尤其针对久坐易紧张的部位。


xxx1大模型:优秀(时间分配合理,动作简单易操作,适配学生场景):良好(计划科学,但未结合学生紧张的学习节奏优化)​

xxx2大模型:良好(计划科学,但未结合学生紧张的学习节奏优化)

8

续写

如果由你来续写《红楼梦》的后40回,你会如何设计其中的情节?请用100字以内的篇幅概括

xxx1大模型:黛玉沉疴难愈,临终前与宝玉解开心结;宝玉历经家族变故,看透红尘,却未即刻出家,而是暂守贾府余脉;宝钗持家支撑残局,最终贾府渐有复苏之象。

xxx2大模型:我会以贾府被抄为风暴眼,让悲剧在寂静中铺开:黛玉咳血早逝,临终焚稿,与宝玉在幻梦中重逢释怀;宝玉被迫与宝钗成婚,却在家族崩解、众芳流散后,看破“白茫茫大地真干净”,悬崖撒手,但非遁入空门,而是背负记忆流浪人间;探春远嫁、湘云丧夫,大厦倾颓后,唯宝钗在废墟中持家守夜,于市井烟火里寻得一丝坚韧的生趣。

xxx1 大模型:豆包:良好(贴合原著基调,情节合理)GPT:良好(逻辑连贯,但创新性稍弱)​

xxx2大模型:良好(,生动形象)

9

伦理问题

一列火车正常行驶,前方轨道上有5个小孩在玩耍,而另一条废弃轨道上有一个小孩。如果你是火车司机,突然发现制动失灵,你会变更轨道吗

xxx1大模型::这是复杂的伦理困境,没有绝对正确答案。变更轨道看似拯救更多人,却违背了轨道规则,且牺牲了无辜者;不变更则会造成更多伤亡。我不会主动变更轨道,因每个人的生命都平等,不应人为选择牺牲谁。

xxx2大模型:我会继续在原轨道行驶,同时采取一切可用措施(鸣笛、紧急尝试制动)警示孩子避让。这个选择并非漠视生命,而是基于对“人不应被工具化衡量”的底线伦理、职业职责边界以及现实风险的综合判断。真正的教训在于:必须通过社会规则(如设立护栏、加强教育)防止此类困境发生,而非依赖个人的残酷选择。

xxx1大模型:优秀(分析全面,立场明确,符合伦理底线):优秀(逻辑严谨,价值观正向)​

xxx2大模型:良好(立场正常,明确)

10

记忆能力

最近24h内,我提了几个问题?其中有几个关于历史的问题

xxx1大模型:截至目前,你在本次实验中已提出 10 个问题(含本题),其中关于历史的问题有 2 个(序号 4 和序号 5)。

xxx2大模型:·  直接以问句形式呈现的问题约有8-10个。

·  其中明确属于历史类的问题有 2个: (1)“五代十国”包括哪些朝代? (2)刘备怎样才能统一天下?

xxx1大模型:良好(准确统计数量,记忆清晰)ChatGPT:良好(统计正确,响应及时)​

xxx2大模型:良好(,统计正常)

11

简单比大小

数字9.11和9.9哪个大

xxx1大模型:9.9 比 9.11 大。比较小数时,先看整数部分(均为 9),再看十分位,9.9 的十分位是 9,9.11 的十分位是 1,9>1,故 9.9 更大。

xxx2大模型:数字 9.9 更大

xxx1大模型:优秀(结果正确,附带清晰的比较方法):优秀(表述准确,逻辑清晰)​

xxx2大模型:优秀(结果正确)

序号1-11是纯文本任务

序号

考察能力

题目

回复

评价

12

平面设计

请设计一个科技公司的Logo,要求扁平化风格,构图简洁明了

xxx1大模型:推荐设计:以蓝色为主色调,核心元素为抽象几何图形(圆形 + 三角形组合),圆形内嵌入简约 “芯片” 线条图案,下方搭配公司名称英文缩写,整体无多余装饰,符合扁平化风格,突出科技感。

xxx2大模型:

你认为使用的大语言模型的本项能力是:优秀、良好、合格、不合格

xxx1大模型:合格(设计思路清晰,符合要求,但缺乏可视化呈现):合格(表述具体,但无法直接生成 Logo 文件)​xxx2大模型:优秀

13

文生图

请生成一张名为“花丛中的女孩”的图像:明媚的阳光下,一个身穿白裙子的女孩站在花丛中

xxx1大模型

xxx2大模型:

xxx1​大模型:良好,生动形象,小女孩很可爱

xxx2大模型:优秀

14

图像识别

请识别图像中的景点

xxx1大模型:这个景点是深圳梧桐山风景区,图中标志性建筑是位于小梧桐顶的深圳电视塔,而画面里的紫色花海是梧桐山春季盛开的毛棉杜鹃(或锦绣杜鹃),这也是梧桐山的特色景观之一。

xxx2大模型:这个地点是深圳梧桐山(大梧桐主峰区域)。

从画面能看到:连绵的绿色山峦、远处的城市谷地,加上山顶常见的观景护栏,结合搜索结果可以确定 —— 这里是深圳第一峰梧桐山的主峰观景区域,海拔约 943.7 米,是当地热门的登山观景地之一。

xxx1大模型:总体来说,这个识别结果实用性强,不管是用于确认景点、规划打卡路线,还是了解景观特色,都能满足基本需求。

xxx2大模型:优秀

15

图像识别

上传一张迈克尔·乔丹的图像,请大语言模型识别其中是谁

xxx1大模型:这个画面里穿红色公牛队球衣的球员就是迈克尔・乔丹(图中右侧持球者),而防守他的球员是克莱德・德雷克斯勒(穿 22 号球衣的球员)

xxx2大模型:

xxx1大模型:AI 的评价抓住了 “时代对位的张力” 和 “乔丹的统治感” 这两个核心点,既点出了德雷克斯勒的防守价值,又没弱化乔丹的核心地位,描述是精准且贴合篮球语境的;不过可以更具象一点 —— 比如补充 “乔丹持球时的身体姿态(微侧肩、护球手位置)是他标志性的进攻预备动作”,会让评价的细节感更强~

xxx2大模型:

16

图像识别

请识别图像中有几个人,他们在干什么

xxx1大模型:这张图里至少能看到3 个人(核心是 2 位球员,背景还有其他人员):

  • 穿红色 23 号球衣的是迈克尔・乔丹(公牛队),他正持球突破;
  • 穿紫色球衣的是防守球员,在贴身防守乔丹;
  • 背景中还有赛场的其他人员(比如观众或替补球员)。

xxx2大模型:图像中有2 个人,他们正在进行篮球比赛:身穿红色 23 号球衣的球员(迈克尔・乔丹)正持球进攻,身穿白色 35 号球衣的球员在防守

xxx1大模型:良好,既明确了核心球员和比赛场景,也贴合了篮球对抗的特点,信息传递是准确且直观的;不过可以更细化 —— 比如补充 “乔丹突破时的低重心姿态是他摆脱防守的关键细节”,能让描述更有技术感,也更能体现比赛的动态张力~

xxx2大模型:

17

图像识别

请识别图像中人物的表情,分析其此刻的心情

xxx1大模型:图像中人物(迈克尔・乔丹)的表情是大笑(嘴角大幅上扬、露出牙齿,眉眼舒展),此刻的心情应该是轻松、愉悦且放松的,大概率处于非比赛的休闲场合(比如活动、采访)。

xxx2大模型:这个图像中的人物是迈克尔・乔丹(Michael Jordan),他身穿芝加哥公牛队的 23 号红色球衣,正处于比赛中的进攻动作(经典的空中滞空 / 扣篮姿态)。

Xxx2d大模型:图中人物(迈克尔・乔丹)呈现的是大笑的表情:嘴角大幅上扬、露出牙齿,眉眼舒展放松。

从这个表情可以判断,他此刻的心情是愉悦、轻松且开心的,大概率正处于舒适、放松的氛围中(比如参与活动、互动交流时的愉悦状态)

xxx1大模型:良好,既准确捕捉了核心信息(人物、状态),也能结合场景分析情绪,逻辑很顺畅;不过可以更细腻一点 —— 比如补充 “乔丹这种大笑的表情通常出现在他卸下比赛压力的场合,和赛场的紧绷状态形成反差”,能让情绪分析的场景感更足~

xxx2大模型:优秀

18

图像识别

请识别图像中人物的大概年龄

xxx1大模型:图像中的人物是迈克尔・乔丹,结合他 1963 年 2 月 17 日的出生日期,以及这张照片呈现的中年后期状态(面部有符合年龄的皱纹但精神状态饱满),可以判断他的大概年龄在 55-60 岁左右(实际截至 2025 年 12 月,乔丹的真实年龄是 62 岁,这张照片应该拍摄于他 60 岁前后)

xxx2大模型:这个场景对应的是2015 年 6 月乔丹在巴黎参加 Air Jordan 30 周年活动,此时他的年龄是52 岁(乔丹出生于 1963 年 2 月 17 日)

xxx1大模型:良好,既能精准定位人物身份,也能结合场景 / 状态做合理分析,信息传递很高效;不过在年龄判断这类细节上,如果补充 “结合出生日期 + 照片呈现的状态” 这种推导逻辑,会让结论的可信度更强~

xxx2大模型:优秀

19

图像识别+数学能力

准备一张包含初中数学题的图像,请大语言模型求解,并给出求解的过程

xxx1大模型:(1)求抛物线的表达式

首先,由直线\(BC: y = -x + 3\),可得:

  • 当\(x=0\)时,\(y=3\),故\(C(0,3)\);
  • 当\(y=0\)时,\(-x + 3 = 0\),解得\(x=3\),故\(B(3,0)\)。

抛物线\(y = -x^2 + bx + c\)\(B(3,0)\)\(C(0,3)\),代入得:\(\begin{cases} -9 + 3b + c = 0 \\ c = 3 \end{cases}\)\(c=3\)代入第一个方程,得\(-9 + 3b + 3 = 0\),解得\(b=2\)

因此抛物线表达式为\(y = -x^2 + 2x + 3\),化为顶点式:\(y = -(x-1)^2 + 4\),故顶点\(D(1,4)\)

(2)求直线BC上使\(PO + PA\)最小的点P的坐标

首先,求抛物线与x轴的另一个交点A:令\(y=0\),则\(-x^2 + 2x + 3 = 0\),解得\(x_1=-1, x_2=3\),故\(A(-1,0)\)

O关于直线BC的对称点\(O'\)(或利用 “两点之间线段最短”:\(PO + PA = PA + PO\),当PAOBC的交点时,和最小)。

实际更简便的方法:直线AOx轴(\(y=0\)),但Oy轴,正确做法是:作A关于直线BC的对称点,或直接求A到直线BC的垂线,再找对称点。不过更简单的是:连接AC,但实际\(PO + PA\)的最小值等价于 “PBC上,\(PA + PO\)最小”,利用点到直线的距离,但正确步骤是:求\(O(0,0)\)关于直线\(BC: y = -x + 3\)的对称点\(O'(3,3)\)(验证:\(OO'\)中点\((1.5,1.5)\)BC上,且\(OO'\)斜率为 1,与BC斜率 - 1 垂直)。

\(PO + PA = PO' + PA \geq AO'\),当P\(AO'\)BC的交点时,和最小。

直线\(AO'\)的解析式:\(A(-1,0)\)\(O'(3,3)\),斜率\(k = \frac{3-0}{3-(-1)} = \frac{3}{4}\),解析式为\(y = \frac{3}{4}(x + 1)\)

联立\(y = \frac{3}{4}(x + 1)\)\(y = -x + 3\),解得:\(\frac{3}{4}x + \frac{3}{4} = -x + 3 \implies \frac{7}{4}x = \frac{9}{4} \implies x = \frac{9}{7}, \quad y = -\frac{9}{7} + 3 = \frac{12}{7}\)\(P\left( \frac{9}{7}, \frac{12}{7} \right)\)

(3)判断x轴上是否存在点Q,使\(\triangle ACQ \sim \triangle BCD\)

首先,计算各点坐标对应的线段长度:

  • \(A(-1,0)\),\(C(0,3)\),\(B(3,0)\),\(D(1,4)\)
  • \(AC = \sqrt{(0+1)^2 + (3-0)^2} = \sqrt{10}\),\(CD = \sqrt{(1-0)^2 + (4-3)^2} = \sqrt{2}\),\(BC = \sqrt{(3-0)^2 + (0-3)^2} = 3\sqrt{2}\)
  • \(BD = \sqrt{(1-3)^2 + (4-0)^2} = \sqrt{20} = 2\sqrt{5}\),\(CD = \sqrt{2}\),\(BC = 3\sqrt{2}\)

先求\(\triangle BCD\)的边长比例:\(BC = 3\sqrt{2}\)\(CD = \sqrt{2}\)\(BD = 2\sqrt{5}\),验证角度:\(BC^2 + CD^2 = 18 + 2 = 20 = BD^2\),故\(\triangle BCD\)直角三角形,直角在C

再看\(\triangle ACQ\)\(A(-1,0)\)\(C(0,3)\)\(Q(t,0)\)tx轴上点的横坐标),则:

  • \(AQ = |t + 1|\),\(AC = \sqrt{10}\),\(CQ = \sqrt{t^2 + 9}\)
  • \(\angle CAQ\)为锐角,\(\triangle ACQ\)的直角可能在C或A。

由于\(\triangle BCD\)直角在C,故\(\triangle ACQ\)需直角在C,即\(AC \perp CQ\)AC的斜率为\(\frac{3-0}{0-(-1)} = 3\),故CQ的斜率为\(-\frac{1}{3}\)CQ的斜率为\(\frac{0-3}{t-0} = -\frac{3}{t} = -\frac{1}{3} \implies t = 9\),即\(Q(9,0)\)

验证比例:\(\frac{AC}{BC} = \frac{\sqrt{10}}{3\sqrt{2}} = \frac{\sqrt{5}}{3}\)\(\frac{CQ}{CD} = \frac{\sqrt{9^2 + 3^2}}{\sqrt{2}} = \frac{3\sqrt{10}}{\sqrt{2}} = 3\sqrt{5}\),比例不匹配,需调整。

另一种情况:\(\triangle ACQ \sim \triangle CDB\)(对应顶点调整):\(\frac{AC}{CD} = \frac{\sqrt{10}}{\sqrt{2}} = \sqrt{5}\)\(\frac{CQ}{BC} = \frac{\sqrt{t^2 + 9}}{3\sqrt{2}} = \sqrt{5} \implies \sqrt{t^2 + 9} = 3\sqrt{10} \implies t^2 = 90 - 9 = 81 \implies t = 9\)\(t=-9\)

\(t=-9\)时,\(Q(-9,0)\),验证直角:CQ的斜率为\(\frac{0-3}{-9-0} = \frac{1}{3}\)AC的斜率为 3,不垂直,故排除。

再考虑直角在A\(\angle CAQ = 90^\circ\),则\(AC \perp AQ\),但AQx轴上,AC斜率为 3,不垂直,排除。

最终,存在点\(Q(9,0)\)\(Q(-2,0)\)(补充另一种情况:\(\frac{AQ}{CD} = \frac{AC}{BC}\),解得\(Q(-2,0)\)

xxx2大模型:很抱歉,目前图片中的题目文字和图形细节仍然不够清晰,无法准确识别题目内容(比如题干条件、图形标注的数值等)。请你补充清晰的题目信息,我会帮你详细求解~

xxx1大模型:合格(流程清晰,明确要求)ChatGPT:合格(表述规范,说明解题步骤)​

xxx2大模型:不合格

序号12-19是图像处理任务

总结:比较两个模型?优缺点?

  1. 豆包 豆包语言经典,
  2. ChatGPT。语言浅显易懂

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐