系列篇章💥

No. 文章
1 【GitHub开源AI精选】LLM 驱动的影视解说工具:Narrato AI 一站式高效创作实践
2 【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破
3 【GitHub开源AI精选】哈工大(深圳)& 清华力作 FilmAgent:剧本自动生成 + 镜头智能规划,开启 AI 电影制作新时代
4 【GitHub开源AI精选】Lumina - Image 2.0 文生图模型,以小参数量实现高分辨率多图生成新突破
5 【GitHub开源AI精选】探索 Mobile-Agent:X-PLUG 推出的创新型移动智能操作代理
6 【GitHub开源AI精选】吴恩达团队开源VisionAgent:用自然语言开启计算机视觉新时代
7 【GitHub开源AI精选】Oumi:一站式AI开发平台,涵盖训练、评估与部署全流程
8 【GitHub开源AI精选】深入剖析RealtimeSTT:开源实时语音转文本库的强大功能与应用
9 【GitHub开源AI精选】PodAgent:多智能体协作播客生成框架,自动化打造高质量播客,赋能内容创作与品牌传播
10 【GitHub开源AI精选】OpenManus开源AI工具:3小时复刻Manus,39.5k星
11 【GitHub开源AI精选】OpenGlass:大模型赋能的开源方案,25美元打造智能眼镜,支持语音控制+AR叠加
12 【GitHub开源AI精选】AppAgentX:西湖大学发布可自主进化的手机智能体,实现GUI操作的高效与智能
13 【GitHub开源AI精选】Agent-S架构揭秘:低代码+多模态融合的智能体新范式
14 【GitHub开源AI精选】Open-Interface:大模型驱动的计算机“自动驾驶”系统|自然语言操控的自动化工具
15 【GitHub开源AI精选】2025年AI工程师必备!AgentOps五大功能重构智能体开发流程
16 【GitHub开源AI精选】LangManus:社区驱动的多智能体AI自动化框架,开启复杂任务处理新纪元
17 【GitHub开源AI精选】autoMate:AI 驱动的本地自动化助手,用自然语言解锁高效办公,让电脑任务自己动起来
18 【GitHub开源AI精选】Sitcom-Crafter:北航联合港中文等高校打造的剧情驱动3D动作生成系统
19 【GitHub开源AI精选】Local Deep Researcher:本地化部署的AI研究助手,零门槛开启智能研究
20 【GitHub开源AI精选】Browser Use:开源AI自动化工具,让AI像人类一样操控网页
21 【GitHub开源AI精选】LLaVA-Med:微软打造的生物医学领域多模态AI助手,助力医疗智能化
22 【GitHub开源AI精选】RF-DETR:Roboflow 的实时目标检测模型『边缘设备鹰眼』,低至160FPS的工业级检测利器
23 【GitHub开源AI精选】MegaTTS 3:字节跳动开源语音利器,吊打VALL-E,自然度逼近真人录音
24 【GitHub开源AI精选】LocAgent:斯坦福联合耶鲁大学等机构推出的代码问题定位智能体
25 【GitHub开源AI精选】WhisperX:70倍实时语音转录!革命性词级时间戳与多说话人分离技术
26 【GitHub开源AI精选】Crawl4AI:LLM专属极速开源爬虫利器、1秒处理百万级数据
27 【GitHub开源AI精选】Oliva:开源语音RAG助手,一句话秒搜海量数据,多AI协作颠覆传统搜索
28 【GitHub开源AI精选】UFO²:微软开源的 Windows 桌面 Agent 操作系统,开启智能自动化新时代
29 【GitHub开源AI精选】ebook2audiobook:AI驱动的电子书转有声书利器,支持1107种语言+语音克隆
30 【GitHub开源AI精选】WebThinker:赋能大型推理模型的自主科研新范式
31 【GitHub开源AI精选】ZeroSearch:阿里巴巴开源的大模型搜索引擎框架,无需真实搜索引擎交互
32 【GitHub开源AI精选】Toolkami:极简AI Agent框架,七种工具实现高效轻量化开发
33 【GitHub开源AI精选】Docext:NanoNets 打造的文档提取利器,本地化、高效能、免费开源
34 【GitHub开源AI精选】SketchVideo:手残党福音!草图秒变大片,快手黑科技让创作效率飙升300%
35 【GitHub开源AI精选】NLWeb:微软开源的自然语言交互利器,让网站秒变智能AI应用
36 【GitHub开源AI精选】ScrapeGraphAI:基于LLM的智能爬虫,多页面爬取、语音生成,开启数据提取新纪元
37 【GitHub开源AI精选】FaceShot:同济大学联合上海 AI Lab 推出的无需训练肖像动画生成框架
38 【GitHub开源AI精选】Minion Agent:开源界的“全能王”,深度研究、自动规划全搞定
39 【GitHub开源AI精选】AgenticSeek:开源本地通用AI Agent,打造自主执行任务的智能助手
40 【GitHub开源AI精选】Morphik:开源多模态检索增强生成工具,助力AI应用开发
41 【GitHub开源AI精选】TEN VAD:高性能实时语音活动检测系统,助力AI对话系统高效交互
42 【GitHub开源AI精选】Google AI Edge Gallery:谷歌赋能的离线AI模型探索利器
43 【GitHub开源AI精选】PandasAI:一键开启数据对话时代,非技术用户也能轻松上手
44 【GitHub开源AI精选】ContentV:字节跳动开源的高效文生视频模型框架,助力AI视频生成技术突破
45 【GitHub开源AI精选】VRAG-RL:阿里通义推出的多模态RAG推理框架,助力视觉信息理解与生成
46 【GitHub开源AI精选】MultiTalk:中山大学与美团联合打造的音频驱动多人对话视频生成框架
47 【GitHub开源AI精选】Salesforce开源项目MAS-Zero:零监督下的多智能体系统设计框架
48 【GitHub开源AI精选】InftyThink:浙大联合北大打造的无限深度推理范式,突破大模型长推理瓶颈
49 【GitHub开源AI精选】RAG-Anything:港大开源利器、让AI真正理解复杂文档,PDF、表格、公式全能读
50 【GitHub开源AI精选】PreenCut深度解析:开源AI视频剪辑利器,用自然语言一句话精准定位片段
51 【GitHub开源AI精选】TradingAgents-CN:基于多智能体LLM的中文金融交易决策框架深度解析
52 【GitHub开源AI精选】KlicStudio:极简 AI 视频翻译配音工具,让跨平台内容本地化效率翻倍,GitHub狂揽7.9k星
53 【GitHub开源AI精选】JoyAgent-JDGenie:京东开源的通用多智能体系统,助力AI应用落地
54 【GitHub开源AI精选】SuperDesign:开源AI设计Agent,让你的设计从想法到实现只需60秒
55 【GitHub开源AI精选】WeKnora:腾讯开源的文档理解与语义检索框架,助力智能问答与知识管理
56 【GitHub开源AI精选】LandPPT:开源AI PPT生成工具,助力演示文稿高效创作
57 【GitHub开源AI精选】NeuralAgent:开源桌面AI助手,助力高效生产力与自动化任务执行
58 【GitHub开源AI精选】开源AI桌面助手Glass:实时屏幕捕捉与音频识别,助力高效办公
59 【GitHub开源AI精选】MiroFlow:开源多Agent系统开发框架,助力AI大模型高效开发
60 【GitHub开源AI精选】ScreenCoder:开源智能UI截图转代码工具,助力前端开发自动化
61 【GitHub开源AI精选】OxyGent:京东开源的多智能体协作框架,助力高效智能系统开发
62 【GitHub开源AI精选】Hugging Face AI Sheets:开源无代码构建、丰富和转换数据集的利器
63 【GitHub开源AI精选】Coze Studio:字节跳动开源的AI智能体开发平台,一站式构建与部署AI应用
64 【GitHub开源AI精选】Chaterm:开源的AI终端工具,运维版Cursor,助力高效云管理
65 【GitHub开源AI精选】MobileUse:由MadeAgents打造的分层反思驱动的移动自动化GUI代理
66 【GitHub开源AI精选】WhisperLiveKi:开源实时语音识别利器,实时转写+说话人识别+完全本地部署,一键搞定会议纪要
67 【GitHub开源AI精选】Open-Fiesta:开源AI聊天平台,多模型并行对比的新选择
68 【GitHub开源AI精选】AgentScope:阿里开源多智能体核弹、并行工具+Actor架构+秒级介入+沙箱隔离
69 【GitHub开源AI精选】Super Agent Party:开源3D AI桌面伴侣,开启智能交互新体验(聊天、写代码、控直播)
70 【GitHub开源AI精选】Parlant:为企业级应用而生的开源LLM智能体框架,打造“AI员工监工”,让LLM可解释、可审计
71 【GitHub开源AI精选】AI-Video-Transcriber:开源AI视频转录与摘要工具,支持30+平台,赋能高效内容处理
72 【GitHub开源AI精选】DeepDoc:开源本地知识库深度研究工具,多格式文档解析与智能报告生成
73 【GitHub开源AI精选】Strix:AI驱动的安全测试先锋,助力应用安全防护
74 【GitHub开源AI精选】通义DeepResearch:开源深度研究智能体,助力复杂信息检索与多步推理
75 【GitHub开源AI精选】Presentation-AI:ALLWEONE团队打造的开源AI演示文稿生成工具
76 【GitHub开源AI精选】SciToolAgent:浙大开源的知识图谱驱动的科研利器
77 【GitHub开源AI精选】FireRedChat:小红书开源的全双工语音交互系统,开启智能语音新时代
78 【GitHub开源AI精选】OpenLens AI:清华推出的医学研究全自主AI助手,开启科研新纪元
79 【GitHub开源AI精选】StableAvatar:复旦大学联合微软亚洲研究院推出的无限时长音频驱动虚拟形象视频生成技术框架
80 【GitHub开源AI精选】MineContext:字节开源的主动式上下文感知 AI 工具,助力高效信息管理
81 【GitHub开源AI精选】LLaVA-OneVision-1.5:面向多模态训练大众化的全开源框架


前言

随着人工智能技术的飞速发展,多模态模型逐渐成为研究热点。LLaVA-OneVision-1.5 作为一款开源的多模态模型,通过高效训练和高质量数据实现了高性能、低成本和强复现性。它不仅在多模态任务中表现出色,还为社区提供了完整的代码、数据和模型资源,助力低成本复现和拓展。
在这里插入图片描述

一、项目概述

LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架,旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率。基于 Qwen3 的语言模型,通过三阶段训练流程(语言–图像对齐、高质量知识中期预训练和视觉指令对齐)进行优化。它在多模态基准测试中表现出色,成本可控,且全链条透明开放。
在这里插入图片描述

二、核心功能

(一)多模态理解与生成

LLaVA-OneVision-1.5 能够处理和理解图像、文本等多种模态的信息,并生成高质量的文本描述、回答问题或进行推理。这种能力使其在多模态任务中表现出色,能够为用户提供丰富的信息交互体验。例如,用户可以上传一张图片,模型不仅能识别其中的物体,还能生成详细的描述文本,帮助用户更好地理解图片内容。

(二)视觉问答(VQA)

该模型支持视觉问答功能,能够针对图像中的内容回答各种问题。它支持广泛的视觉任务,如物体识别、场景理解等。用户可以上传一张图片并提出问题,模型会根据图片内容给出准确的答案。这种功能在教育、智能客服等领域具有广泛的应用前景。

(三)图像描述生成

LLaVA-OneVision-1.5 可以为输入的图像生成准确且富有细节的描述文本。这一功能不仅能够帮助用户快速了解图像内容,还能为内容创作者提供创意灵感。例如,用户可以上传一张风景图片,模型会生成一段生动的描述,用户可以根据这段描述进一步创作诗歌或故事。

(四)指令遵循与执行

LLaVA-OneVision-1.5 具有良好的指令遵循能力,能够根据用户提供的指令执行相应的任务。无论是图像编辑、信息提取还是其他复杂的任务,模型都能准确理解并执行。这种能力使得模型在自动化任务处理方面具有很高的效率和准确性。

(五)跨模态检索

该模型支持基于文本查询图像或基于图像查询文本的跨模态检索功能。用户可以通过输入一段文本描述来查找相关的图像,或者上传一张图片来查找相关的文本信息。这种功能在信息检索和内容推荐领域具有重要的应用价值。

(六)长尾识别能力

LLaVA-OneVision-1.5 对数据中出现频率较低的类别或概念也能进行有效识别和理解。这种长尾识别能力使得模型在处理复杂多样的数据时更加鲁棒,能够更好地适应各种实际应用场景。例如,在医疗影像分析中,模型能够识别一些罕见疾病的特征,为医生提供辅助诊断。

(七)多语言支持

LLaVA-OneVision-1.5 支持多种语言的输入和输出,具备一定的跨语言理解和生成能力。这使得模型能够在全球范围内为不同语言的用户提供服务,极大地扩展了其应用范围。例如,用户可以用中文提问,模型可以用英文回答,或者反之。

(八)知识增强

LLaVA-OneVision-1.5 通过高质量的知识数据进行预训练,使模型具备更丰富的世界知识。这种知识增强能力使得模型在处理复杂的多模态任务时能够提供更准确、更有深度的答案。例如,在回答关于历史事件的问题时,模型能够结合丰富的历史知识给出详细的解释。

(九)高效训练与复现

LLaVA-OneVision-1.5 采用优化的训练策略和数据打包技术,实现高效的训练过程。同时,它提供了完整的代码、数据和模型资源,方便社区低成本复现和拓展。这种高效性和开放性使得模型能够快速迭代和优化,为研究人员和开发者提供了极大的便利。

在这里插入图片描述

三、技术揭秘

(一)视觉编码器

LLaVA-OneVision-1.5 采用自研的 RICE-ViT(Region-aware Cluster Discrimination Vision Transformer)作为视觉编码器。该编码器通过区域感知注意力机制和统一的区域簇判别损失,增强对图像中局部区域的语义理解。它还支持可变输入分辨率,使模型能够灵活处理不同尺寸的图像,从而提高其在多模态任务中的表现。

(二)投影器设计

为了实现视觉特征与语言特征的有效对齐,LLaVA-OneVision-1.5 使用多层感知机(MLP)作为投影器。该投影器将视觉特征映射到语言模型的文本嵌入空间,确保两种模态的特征在同一个空间中进行交互。这种设计不仅提高了特征对齐的准确性,还增强了模型的多模态融合能力。

(三)语言模型

LLaVA-OneVision-1.5 的语言模型基于 Qwen3,这是一个强大的语言生成和理解模型。Qwen3 提供了高质量的语言生成能力,支持多模态任务中的文本处理。通过结合视觉编码器的输出,语言模型能够生成与图像内容相关的文本描述,从而实现多模态任务的无缝交互。

(四)三阶段训练流程

LLaVA-OneVision-1.5 采用三阶段训练流程,逐步提升模型的多模态对齐能力和任务泛化能力。第一阶段是语言–图像对齐,通过大规模的预训练数据对齐语言和视觉模态。第二阶段是高质量知识中期预训练,进一步提升模型的知识水平。第三阶段是视觉指令对齐,通过指令微调数据增强模型的指令遵循能力。

(五)离线并行数据打包

为了提高训练效率,LLaVA-OneVision-1.5 采用离线并行数据打包技术。通过特征驱动的“概念均衡”策略构建预训练数据集,减少 padding 浪费,提高训练效率。这种数据打包方法不仅优化了数据的使用,还显著降低了训练成本。

(六)混合并行与长上下文优化

在训练过程中,LLaVA-OneVision-1.5 采用混合并行(张量并行、流水并行和序列并行)以及长上下文优化技术。这些技术提升了算力利用效率和显存效率,使得模型能够在大规模数据上高效训练。通过这些优化,模型能够处理更长的序列,从而提高其在复杂任务中的表现。

(七)数据构建与优化

LLaVA-OneVision-1.5 构建了大规模的预训练数据集和指令微调数据集。预训练数据集采用“概念均衡”策略,确保数据的多样性和高质量。指令微调数据集覆盖了多种任务类别,通过多源聚合和格式统一,确保数据的高质量和多样性。这些数据集为模型的训练提供了坚实的基础,使其在多模态任务中表现出色。

四、基准评测

LLaVA-OneVision-1.5 在多个基准测试中优于 Qwen2.5-VL。例如,在 MathVista mini、WeMath、MathVision、MMMU val、MMMU-Pro standard 和 MMMU-Pro vision 等任务中,LLaVA-OneVision-1.5-4B 均表现优于 Qwen2.5-VL-3B。
在这里插入图片描述

五、应用场景

(一)智能客服

LLaVA-OneVision-1.5 可广泛应用于智能客服领域。用户可上传图像或输入文本问题,模型快速理解并提供准确回答。例如,用户上传商品图片询问价格,模型能识别商品并给出详细信息。这不仅提升客服效率,还能改善用户体验,降低人力成本,适用于电商、金融等行业。

(二)内容创作

该模型为内容创作者提供强大支持。它能根据图像生成生动描述或创意文案,激发创作灵感。比如,输入一张风景照,模型生成诗意描述,创作者可据此撰写故事或诗歌。此外,它还能辅助视频脚本创作,根据分镜头草图生成详细脚本,提高创作效率和质量。

(三)教育辅助

在教育领域,LLaVA-OneVision-1.5 有诸多应用。教师可上传教学图片,模型生成详细解释,帮助学生理解复杂概念。例如,展示人体骨骼图,模型生成骨骼名称和功能描述。它还能根据教学大纲生成练习题和答案,减轻教师备课负担,提升教学互动性和趣味性。

(四)医疗影像分析

LLaVA-OneVision-1.5 能辅助医生解读医学影像,提供初步诊断建议。例如,上传 X 光片,模型识别异常并生成报告,指出可能疾病。它还能分析病理切片图像,辅助病理学家发现病变。这有助于提高诊断效率和准确性,尤其在偏远地区或资源紧张的医院,可快速提供初步诊断,为患者争取治疗时间。

(五)智能驾驶

在智能驾驶系统中,LLaVA-OneVision-1.5 可理解道路场景,辅助决策。例如,识别交通标志、行人和障碍物,为自动驾驶车辆提供实时信息。它还能分析复杂路况,预测其他车辆行为,帮助车辆提前做出安全决策。这不仅提升驾驶安全性,还能优化驾驶路线,提高交通效率。

(六)图像编辑与设计

LLaVA-OneVision-1.5 为图像编辑和设计带来便利。用户可上传图像并输入指令,如“将照片背景替换为海滩”,模型自动完成编辑。它还能根据设计需求生成创意元素,如为海报添加特效文字。这降低了图像处理门槛,使非专业用户也能轻松完成高质量设计,广泛应用于广告、媒体等行业。

六、快速使用

使用 Hugging Face 快速启动示例:

from transformers import AutoTokenizer, AutoProcessor, AutoModelForCausalLM
from qwen_vl_utils import process_vision_info
model_path = "lmms-lab/LLaVA-OneVision-1.5-8B-Instruct"

# default: Load the model on the available device(s)
model = AutoModelForCausalLM.from_pretrained(
    model_path, torch_dtype="auto", device_map="auto", trust_remote_code=True
)

# default processor
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

# Preparation for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=1024)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

七、结语

LLaVA-OneVision-1.5 作为一款开源的多模态模型,不仅在技术上实现了创新,还通过高效的训练策略和高质量的数据构建,为多模态任务提供了强大的支持。它为社区提供了完整的代码、数据和模型资源,助力低成本复现和拓展。希望本文能够帮助读者更好地了解 LLaVA-OneVision-1.5 的技术细节和应用场景。

项目地址

  • Github 地址:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
  • HuggingFace 模型库:https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
  • arXiv 技术论文:https://arxiv.org/pdf/2509.23661
  • 在线体验 Demo:https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐