Qwen 通义千问 14B 模型，长文本问答效果测试

千问模型长文本效果

防搞活机

2972人浏览 · 2023-10-23 21:18:32

防搞活机 · 2023-10-23 21:18:32 发布

千问的config：

seq_len=2k
max_position_embedding=8k

注意，以下实验结果的字数是token数，不是中文字符数。

不使用动态ntk

12000字输入：乱码
5000字输入：乱码
1500字输入：正常

不使用动态ntk，使用线性位置插值缩放4倍

12000字输入：乱码
5000字输入：正常，但废话多，质量低。
1500字输入：正常，但答案错误

不使用动态ntk，使用线性位置插值缩放2倍

12000字输入：乱码
5000字输入：乱码
1500字输入：正常，但答案数字正确但小数点错误，文本质量低

使用动态ntk

12000字输入，答案信息在中间位置：正常，答案正确
12000字输入，答案信息在靠前位置：正常，答案错误，但有相关信息

使用动态ntk，同时使用线性位置插值缩放2倍

12000字输入，答案信息在中间位置：正常，答案错误
12000字输入，答案信息在靠前位置：正常，答案错误，后面开始出现乱码

结论：

如果不使用动态ntk，qwen只能适应2k以下文本，否则就输出乱码。
如果使用动态ntk，qwen可以适应上万字文本，且无需微调。
8k是注意力窗口的长度，文本超过8k将会导致丢失8k距离外的信息。
线性插值可以使模型在2k以上文本时，不出现乱码，但是如果不进行微调，回答质量很低。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

SpringBoot+Vue 企业内管信息化系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

cover

Java Web 热门网游推荐网站系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

cover

抢先体验OpenSpec，解锁规范驱动开发新路径！

所有评论(0)

查看更多评论

防搞活机

已为社区贡献4条内容