【AI大模型前沿】InternVL3.5：上海 AI Lab 开源多模态大模型、荣登多模态开源榜首

InternVL3.5是InternVL系列的最新力作，它在继承前代模型优势的基础上，通过一系列技术创新实现了性能的飞跃。该模型采用“ViT–MLP–LLM”范式，融合了动态高分辨率文本分词器、InternViT视觉编码器以及视觉-语言连接器三大核心组件，能够处理从1B到241B的多种模型规模，覆盖不同资源需求场景。InternVL3.5在多模态通用、推理、文本和智能体任务的综合得分上达到了开源多

xiaobing259

699人浏览 · 2025-09-20 11:27:28

xiaobing259 · 2025-09-20 11:27:28 发布

系列篇章💥

No.	文章
1	【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath：如何革新癌症病理诊断技术
2	【AI大模型前沿】清华大学 CLAMP-3：多模态技术引领音乐检索新潮流
3	【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破
4	【AI大模型前沿】阿里 QwQ-32B：320 亿参数推理大模型，性能比肩 DeepSeek-R1，免费开源
5	【AI大模型前沿】TRELLIS：微软、清华、中科大联合推出的高质量3D生成模型
6	【AI大模型前沿】Migician：清华、北大、华科联手打造的多图像定位大模型，一键解决安防监控与自动驾驶难题
7	【AI大模型前沿】DeepSeek-V3-0324：AI 模型的全面升级与技术突破
8	【AI大模型前沿】BioMedGPT-R1：清华联合水木分子打造的多模态生物医药大模型，开启智能研发新纪元
9	【AI大模型前沿】DiffRhythm：西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10	【AI大模型前沿】R1-Omni：阿里开源全模态情感识别与强化学习的创新结合
11	【AI大模型前沿】Qwen2.5-Omni：阿里巴巴的多模态大模型，实现看、听、说、写一体化
12	【AI大模型前沿】SmolDocling：256M参数的轻量级多模态文档处理利器，10分钟搞定百页PDF
13	【AI大模型前沿】Stable Virtual Camera：Stability AI 推出的2D图像转3D视频模型，一键生成沉浸式视频
14	【AI大模型前沿】阿里 Qwen3 震撼开源，模型新王诞生，开启全球大模型新纪元
15	【AI大模型前沿】InternVL：OpenGVLab开源多模态大模型，解锁视觉问答与多语言翻译的全能应用图鉴
16	【AI大模型前沿】Fin-R1：上海财经大学联合财跃星辰推出的金融推理大模型，凭7B参数拿下评测第二，离行业第一仅差3分
17	【AI大模型前沿】Med-R1：基于强化学习的医疗视觉语言模型，突破跨模态医学推理的普适性
18	【AI大模型前沿】Baichuan-M1-14B：百川智能推出专为医疗优化的开源大语言模型
19	【AI大模型前沿】一键生成宫崎骏动画风，EasyControl Ghibli 让照片秒变吉卜力艺术品
20	【AI大模型前沿】TxGemma：谷歌推出的高效药物研发大模型，临床试验预测准确率超90%
21	【AI大模型前沿】F5R-TTS：腾讯推出TTS领域的新王者，又快又准又自然，零样本语音克隆新高度
22	【AI大模型前沿】MiniMind-V：低成本打造超小多模态视觉语言模型（仅需1.3元人民币和1小时）
23	【AI大模型前沿】MoCha：端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24	【AI大模型前沿】HuatuoGPT-o1-7B：中英文双语医学推理，打破语言障碍的AI大模型
25	【AI大模型前沿】MedReason：大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26	【AI大模型前沿】SkyReels-V2：昆仑万维开源的无限时长电影生成模型，开启视频生成新纪元
27	【AI大模型前沿】Dia：Nari Labs开源16亿参数TTS模型，只需文本输入，生成媲美真人对话的语音
28	【AI大模型前沿】阿里巴巴开源LHM：单图生成可动画3D人体模型，开启3D建模新纪元
29	【AI大模型前沿】TinyLLaVA-Video-R1：北航开源视频推理模型、小尺寸大智慧、参数少一半，性能翻一番
30	【AI大模型前沿】TTRL：测试时强化学习，开启无标签数据推理新篇章
31	【AI大模型前沿】Aero-1-Audio：Qwen2.5架构加持，轻量级音频模型天花板、吊打Whisper
32	【AI大模型前沿】DianJin-R1：阿里云通义点金联合苏大推出的金融推理增强大模型
33	【AI大模型前沿】VITA-Audio：腾讯开源的高效语音交互多模态大语言模型
34	【AI大模型前沿】Multiverse：全球首个AI多人游戏世界模型，低成本高效率新突破
35	【AI大模型前沿】Seed1.5-VL：多模态理解的效率革新者，以小博大，性能惊艳
36	【AI大模型前沿】ViLAMP：蚂蚁集团和人民大学联手打造的长视频理解利器，单卡处理3小时视频
37	【AI大模型前沿】Muyan-TTS：开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音
38	【AI大模型前沿】Dolphin：字节跳动开源文档解析大模型，轻量级、高效、多格式，开启文档处理新时代
39	【AI大模型前沿】ChatTS：字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
40	【AI大模型前沿】Index-AniSora：B站开源的动漫视频生成模型，助力高效创作
41	【AI大模型前沿】RelightVid：上海 AI Lab联合复旦等高校推出的视频重照明模型
42	【AI大模型前沿】BAGEL：字节跳动开源、多模态大模型的创新突破与实践指南
43	【AI大模型前沿】Matrix-Game：昆仑万维开源大模型，一键生成你的专属虚拟世界
44	【AI大模型前沿】Pixel Reasoner：滑铁卢联合港科大等高校推出的视觉语言模型，助力视觉推理新突破
45	【AI大模型前沿】CoGenAV：多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+
46	【AI大模型前沿】Ming-Lite-Omni：蚂蚁集团开源的统一多模态大模型的创新实践
47	【AI大模型前沿】DeepEyes：小红书与西安交大联合打造的多模态深度思考模型
48	【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代
49	【AI大模型前沿】MiniCPM 4.0：面壁智能开源的极致高效端侧大模型（小版本、低消耗、220倍极致提速）
50	【AI大模型前沿】SmolVLA：Hugging Face开源的轻量级视觉-语言-行动机器人模型
51	【AI大模型前沿】Time-R1：伊利诺伊大学香槟分校开源的时间推理语言模型、实现过去→未来全链路推演
52	【AI大模型前沿】MonkeyOCR：基于结构-识别-关系三元组范式的文档解析模型
53	【AI大模型前沿】GLM-4.5：智谱打造的开源SOTA模型，推理、代码与智能体能力融合先锋
54	【AI大模型前沿】百度飞桨PaddleOCR 3.0开源发布，支持多语言、手写体识别，赋能智能文档处理
55	【AI大模型前沿】Stream-Omni：多模态交互的“黄金三角”——视觉、语音、文本的完美融合
56	【AI大模型前沿】Vui：Fluxions-AI开源的轻量级语音对话模型，开启自然语音交互新时代
57	【AI大模型前沿】腾讯AI Lab开源的SongGeneration：音乐生成大模型的技术探索与实践
58	【AI大模型前沿】Osmosis-Structure-0.6B：小型语言模型在结构化信息提取中的突破
59	【AI大模型前沿】Kwai Keye-VL：颠覆认知！国产多模态大模型突然发布，视频理解能力堪比人类
60	【AI大模型前沿】Nanonets-OCR-s：从学术论文到法律合同，智能识别公式、签名、表格与图像
61	【AI大模型前沿】OmniAvatar：浙大联合阿里打造的音频驱动全身视频生成模型
62	【AI大模型前沿】DAMO GRAPE：阿里达摩院与浙江肿瘤医院联合打造的早期胃癌识别AI模型
63	【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断
64	【AI大模型前沿】原石科技MetaStone-S1：突破性反思型生成式大模型的技术解析与实践指南
65	【AI大模型前沿】清华实验室开源MOSS-TTSD：口语对话语音生成的突破
66	【AI大模型前沿】昆仑万维开源Skywork-R1V3：38B多模态推理模型，高考数学142分刷新开源SOTA
67	【AI大模型前沿】Voxtral：Mistral AI开源的高性价比语音转录与理解模型
68	【AI大模型前沿】Goedel-Prover-V2：普林斯顿联合清华开源的定理证明模型，AI数学研究新里程碑
69	【AI大模型前沿】Seed-X：字节跳动开源的7B参数多语言翻译模型，挑战超大型模型性能
70	【AI大模型前沿】OpenReasoning-Nemotron：英伟达开源的推理利器，助力数学、科学与代码任务
71	【AI大模型前沿】阿里通义千问 Qwen3-Coder：开启智能代码生成与代理式编程新时代
72	【AI大模型前沿】Qwen3-SmVL：基于阿里通义千问3和SmolVLM拼接打造1 GB显存可跑的中文超小多模态大模型
73	【AI大模型前沿】通义万相Wan2.2：阿里270亿参数巨兽开源，消费级显卡就能跑，免费平替Sora上线
74	【AI大模型前沿】Higgs Audio V2杀疯：Boson AI开源语音大模型（克隆声音、同步BGM、低延迟对话一键搞定）
75	【AI大模型前沿】腾讯混元3D世界生成模型HunyuanWorld-1.0：开启沉浸式3D内容创作新纪元
76	【AI大模型前沿】Intern-S1：上海AI Lab打造的科学多模态大模型，助力科研智能化
77	【AI大模型前沿】腾讯混元Dense模型：从智能座舱到客服机器人，用0.5B参数打穿全场景
78	【AI大模型前沿】Qwen-Image：免费开源、写段文案→直接出图→还能继续精修，全程不用PS
79	【AI大模型前沿】小米开源MiDashengLM：语音、音乐、环境声一网打尽、智能座舱直接起飞
80	【AI大模型前沿】InternVL3.5：上海 AI Lab 开源多模态大模型、荣登多模态开源榜首

前言

在人工智能领域，多模态大模型的发展正以前所未有的速度改变着我们对机器智能的认知。InternVL3.5作为上海人工智能实验室推出的最新一代开源多模态大模型，凭借其在通用能力、推理能力和部署效率上的全面升级，为多模态人工智能的研究和应用开辟了新的道路。
在这里插入图片描述

一、项目概述

InternVL3.5是InternVL系列的最新力作，它在继承前代模型优势的基础上，通过一系列技术创新实现了性能的飞跃。该模型采用“ViT–MLP–LLM”范式，融合了动态高分辨率文本分词器、InternViT视觉编码器以及视觉-语言连接器三大核心组件，能够处理从1B到241B的多种模型规模，覆盖不同资源需求场景。InternVL3.5在多模态通用、推理、文本和智能体任务的综合得分上达到了开源多模态大语言模型（MLLMs）的最高水平，显著缩小了与GPT-5等顶级商业模型之间的性能差距。
在这里插入图片描述

二、核心功能

（一）多模态感知

InternVL3.5在多模态感知任务上表现出色，能够精准地理解和描述图像、视频等视觉内容。其241B-A28B模型在多模态通用任务中的平均得分达到74.1分，超越了现有的开源模型，与商业模型GPT-5（74.0分）不相上下。无论是对复杂场景的图像描述，还是对视频内容的精准解读，InternVL3.5都能提供高质量的文本输出，展现了强大的多模态感知能力。

（二）多模态推理

在多学科推理基准MMMU中，InternVL3.5取得了77.7分的优异成绩，较前代模型提升了超过5个百分点，位列开源模型榜首。这一成绩不仅体现了InternVL3.5在多模态推理任务上的卓越表现，也标志着其在处理复杂推理问题时的可靠性和准确性。无论是数学问题的逻辑推理，还是跨学科知识的综合运用，InternVL3.5都能给出合理的解答。

（三）文本能力

InternVL3.5在文本处理方面同样表现出色，在AIME、GPQA及IFEval等多个文本基准测试中，模型的平均得分达到了85.3分，处于开源模型的领先水平。无论是文本生成、文本理解还是文本分类等任务，InternVL3.5都能精准地把握文本内容，生成高质量的文本输出，满足不同场景下的文本处理需求。

（四）GUI智能体

InternVL3.5强化了GUI智能体能力，能够实现跨平台的自动化操作。在ScreenSpot GUI定位任务中，InternVL3.5以92.9分的成绩超越了主流开源模型。

（五）具身空间推理

InternVL3.5具备强大的具身空间推理能力，能够泛化到全新的复杂具身场景中。它支持可泛化的长程物体抓取操作，使机器人能够在复杂环境中准确地定位和抓取物体。

（六）矢量图形处理

InternVL3.5在矢量图形处理方面也有着出色的表现，在SGP-Bench测试中以70.7分刷新了开源模型的纪录。它能够根据用户指令生成或编辑SVG矢量图形，适用于网页图形生成、工程图纸解析等专业场景。

在这里插入图片描述

三、技术揭秘

（一）级联强化学习（Cascade RL）

通过“离线预热-在线精调”两阶段流程，离线阶段使用混合偏好优化（MPO）算法快速提升基础推理能力，为后续训练提供高质量样本；在线阶段基于GSPO算法，以模型自身生成的样本为基础，动态调整输出分布，显著提升训练稳定性和推理性能。

（二）动态视觉分辨率路由（ViR）

为每个图像切片动态选择压缩率，在语义密集区域保留高分辨率，背景区域自适应压缩，减少视觉tokens，显著提升推理速度，同时几乎不损失性能。

（三）解耦部署框架（DvD）

将视觉编码器与语言模型分置于不同GPU，结合BF16精度特征传输与异步流水线设计，使视觉计算与语言生成并行执行，大幅提升吞吐量，解决传统串行部署的资源阻塞问题。

（四）全量级模型优化

提供从10亿到2410亿参数的九种尺寸模型，覆盖不同资源需求场景，包含稠密模型和专家混合模型（MoE），首个支持GPT-OSS语言模型基座的开源多模态大模型，满足多样化应用需求。

四、性能表现

InternVL3.5的多模态推理、文本处理、 GUI智能体等在多个基准测试中表现出色。
在这里插入图片描述

五、应用场景

（一）办公自动化

在办公自动化领域，InternVL3.5的GUI智能体功能大放异彩。它能够实现跨平台的自动化办公操作，例如自动处理Excel数据录入、PPT设计排版、邮件发送等任务。通过精准识别和操作图形用户界面，InternVL3.5可以大幅提高工作效率，减少人工操作的繁琐性，让办公变得更加高效和便捷。

（二）智能家居

InternVL3.5的具身空间推理能力使其在智能家居控制领域具有重要应用价值。它可以辅助机器人在家庭环境中完成物品定位、路径规划和物理交互任务。例如，智能清洁机器人可以根据InternVL3.5提供的环境布局信息，自主规划清洁路径，实现高效清洁。

（三）教育辅导

在教育辅导领域，InternVL3.5凭借其多模态推理和文本能力，能够为学生提供个性化的学习辅导。它可以解答复杂的学科问题，如数学物理题解、逻辑推理训练等，帮助学生更好地理解和掌握知识。

（四）内容创作

对于内容创作者来说，InternVL3.5的通用多模态感知能力是一个强大的助手。它可以自动生成图像描述、视频字幕等，帮助创作者快速生成创意内容。无论是视频制作、图文编辑还是社交媒体内容创作，InternVL3.5都能提供高质量的文本和视觉内容，提高内容创作的效率和质量，激发创作者的灵感。

（五）网页设计与图形生成

在网页设计和图形生成领域，InternVL3.5的矢量图形处理能力为设计师带来了极大的便利。它可以根据用户指令生成或编辑SVG矢量图形，适用于网页设计、图标制作等场景。通过智能化的图形生成和编辑功能，设计师可以更加高效地完成设计任务，提升设计效率和个性化体验，为网页设计和图形创作带来新的可能性。

六、快速使用

（一）安装依赖

确保安装了transformers>=4.52.1版本。

pip install transformers>=4.52.1

（二）加载模型

import torch
from transformers import AutoTokenizer, AutoModel
path = "OpenGVLab/InternVL3_5-8B"
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True).eval().cuda()

（三）推理示例

# 导入所需的库
import math
import numpy as np
import torch
import torchvision.transforms as T
from decord import VideoReader, cpu
from PIL import Image
from torchvision.transforms.functional import InterpolationMode
from transformers import AutoModel, AutoTokenizer

# ImageNet数据集的均值和标准差，用于图像归一化处理
IMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD = (0.229, 0.224, 0.225)

# 构建图像预处理流程
def build_transform(input_size):
    """
    构建图像预处理流程，包括将图像转换为RGB模式、调整图像大小、转换为张量并进行归一化处理。
    :param input_size: 输入图像的大小
    :return: 预处理流程
    """
    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
    transform = T.Compose([
        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),  # 确保图像为RGB模式
        T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),  # 调整图像大小
        T.ToTensor(),  # 转换为张量
        T.Normalize(mean=MEAN, std=STD)  # 归一化处理
    ])
    return transform

# 寻找最接近目标宽高比的宽高比
def find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):
    """
    在给定的目标宽高比列表中，寻找与输入宽高比最接近的宽高比。
    :param aspect_ratio: 输入图像的宽高比
    :param target_ratios: 目标宽高比列表
    :param width: 输入图像的宽度
    :param height: 输入图像的高度
    :param image_size: 目标图像大小
    :return: 最接近的宽高比
    """
    best_ratio_diff = float('inf')  # 初始化最佳宽高比差值为无穷大
    best_ratio = (1, 1)  # 初始化最佳宽高比为1:1
    area = width * height  # 计算输入图像的面积
    for ratio in target_ratios:
        target_aspect_ratio = ratio[0] / ratio[1]  # 计算目标宽高比
        ratio_diff = abs(aspect_ratio - target_aspect_ratio)  # 计算与输入宽高比的差值
        if ratio_diff < best_ratio_diff:  # 如果当前差值更小
            best_ratio_diff = ratio_diff  # 更新最佳差值
            best_ratio = ratio  # 更新最佳宽高比
        elif ratio_diff == best_ratio_diff:  # 如果差值相同
            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:  # 且目标面积更大
                best_ratio = ratio  # 更新最佳宽高比
    return best_ratio

# 动态预处理图像
def dynamic_preprocess(image, min_num=1, max_num=12, image_size=448, use_thumbnail=False):
    """
    对图像进行动态预处理，包括调整图像大小、分割图像等。
    :param image: 输入图像
    :param min_num: 最小分割块数
    :param max_num: 最大分割块数
    :param image_size: 目标图像大小
    :param use_thumbnail: 是否使用缩略图
    :return: 预处理后的图像列表
    """
    orig_width, orig_height = image.size  # 获取输入图像的宽度和高度
    aspect_ratio = orig_width / orig_height  # 计算输入图像的宽高比

    # 生成目标宽高比列表
    target_ratios = set(
        (i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) if
        i * j <= max_num and i * j >= min_num)
    target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])  # 按宽高比排序

    # 寻找最接近目标宽高比的宽高比
    target_aspect_ratio = find_closest_aspect_ratio(
        aspect_ratio, target_ratios, orig_width, orig_height, image_size)

    # 计算目标宽度和高度
    target_width = image_size * target_aspect_ratio[0]
    target_height = image_size * target_aspect_ratio[1]
    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]  # 计算分割块数

    # 调整图像大小
    resized_img = image.resize((target_width, target_height))
    processed_images = []  # 初始化预处理后的图像列表
    for i in range(blocks):  # 遍历每个分割块
        box = (
            (i % (target_width // image_size)) * image_size,  # 左上角x坐标
            (i // (target_width // image_size)) * image_size,  # 左上角y坐标
            ((i % (target_width // image_size)) + 1) * image_size,  # 右下角x坐标
            ((i // (target_width // image_size)) + 1) * image_size  # 右下角y坐标
        )
        # 分割图像
        split_img = resized_img.crop(box)
        processed_images.append(split_img)
    assert len(processed_images) == blocks  # 确保分割块数正确
    if use_thumbnail and len(processed_images) != 1:  # 如果使用缩略图且分割块数不为1
        thumbnail_img = image.resize((image_size, image_size))  # 生成缩略图
        processed_images.append(thumbnail_img)
    return processed_images

# 加载图像并进行预处理
def load_image(image_file, input_size=448, max_num=12):
    """
    加载图像并进行预处理。
    :param image_file: 图像文件路径
    :param input_size: 输入图像大小
    :param max_num: 最大分割块数
    :return: 预处理后的图像张量
    """
    image = Image.open(image_file).convert('RGB')  # 打开图像并转换为RGB模式
    transform = build_transform(input_size=input_size)  # 构建预处理流程
    images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)  # 动态预处理图像
    pixel_values = [transform(image) for image in images]  # 对每个图像块应用预处理流程
    pixel_values = torch.stack(pixel_values)  # 将图像块堆叠为张量
    return pixel_values

# 加载预训练模型和分词器
path = 'OpenGVLab/InternVL3_5-8B'
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,  # 使用bfloat16数据类型
    load_in_8bit=False,  # 不使用8位量化
    low_cpu_mem_usage=True,  # 低CPU内存使用
    use_flash_attn=True,  # 使用Flash注意力机制
    trust_remote_code=True,  # 信任远程代码
    device_map="auto"  # 自动分配设备
).eval()
tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True, use_fast=False)  # 加载分词器

# 加载图像并进行预处理
pixel_values = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()  # 加载图像并转换为bfloat16格式
generation_config = dict(max_new_tokens=1024, do_sample=True)  # 设置生成配置

# 纯文本对话
question = 'Hello, who are you?'  # 提问
response, history = model.chat(tokenizer, None, question, generation_config, history=None, return_history=True)  # 获取回答
print(f'User: {question}\nAssistant: {response}')  # 打印对话内容

question = 'Can you tell me a story?'  # 提问
response, history = model.chat(tokenizer, None, question, generation_config, history=history, return_history=True)  # 获取回答
print(f'User: {question}\nAssistant: {response}')  # 打印对话内容

# 单图单轮对话
question = '<image>\nPlease describe the image shortly.'  # 提问
response = model.chat(tokenizer, pixel_values, question, generation_config)  # 获取回答
print(f'User: {question}\nAssistant: {response}')  # 打印对话内容

# 单图多轮对话
question = '<image>
question = 'Please write a poem according to the image.'  # 提问
response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=history, return_history=True)  # 获取回答
print(f'User: {question}\nAssistant: {response}')  # 打印对话内容

七、结语

InternVL3.5作为开源多模态大模型领域的一颗明珠，凭借其卓越的性能、广泛的应用场景和高效的部署能力，为多模态人工智能的发展注入了新的活力。其开源的模型和代码为研究人员和开发者提供了宝贵的资源，有助于推动多模态技术从“理解”到“行动”的跨越。未来，随着多模态技术的不断演进，InternVL3.5有望在更多领域发挥更大的作用，为人工智能的发展贡献更多力量。

项目地址

GitHub仓库：https://github.com/OpenGVLab/InternVL
Hugging Face模型地址：https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
技术报告：https://huggingface.co/papers/2508.18265

在这里插入图片描述

😎 作者介绍：资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索（CSDN博客之星|AIGC领域优质创作者）
📖专属社群：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，回复‘入群’ 即刻上车，获取邀请链接。
💘领取三大专属福利：1️⃣免费赠送AI+编程📚500本，2️⃣AI技术教程副业资料1套，3️⃣DeepSeek资料教程1套🔥（限前500人）
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我们，一起携手同行AI的探索之旅，开启智能时代的大门！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI原生应用A_B测试：如何设计高效的实验报告？

技术团队说“实验组Perplexity下降12%，模型更通顺”；运营团队说“实验组点击率提升8%，但用户投诉增加30%”；这个版本到底能不能推？指标更复杂（生成内容的“质量”“相关性”是主观且多维的）；数据更“噪”（大模型输出的多样性导致指标波动大）；决策成本更高（错误推广可能影响用户信任）。传统A/B测试报告要么堆砌技术指标（让业务侧看不懂），要么只看表面数据（忽略AI核心价值），最终导致“决策

2048 AI社区

AI 算力加速指南：让设计、办公、创作效率翻倍

AI算力正深刻变革设计、办公与创作领域。在设计方面，AI绘画工具（如Stable Diffusion）可快速生成高质量图像，RTX4090显卡甚至支持每秒超100张图的生成；智能排版与工业建模工具则大幅缩短设计周期。办公场景中，WPS等软件通过AI实现文档自动生成、数据智能分析及会议实时记录，提升效率。创作领域，AI辅助文学构思、音乐编曲及视频剪辑，降低专业门槛。硬件上，高性能GPU（如RTX40