惊艳四座!阿里重磅开源Qwen2-VL多模态大模型
球速体育welcome经过一年的努力,阿里巴巴的AI团队近日发布了一个令人瞩目的成果:Qwen2-VL,这是一款全新的多模态大模型,这一版本是Qwen模型系列中的最新成员,基于之前的Qwen2进行了升级和优化,尤其在视觉和语言的结合上表现出色。
Qwen2-VL在高分辨率及不同比例图像理解方面表现出色,超越了多项基准测试,并具备理解长达20分钟视频内容的能力,支持视频问答、对话和内容创作。此外,Qwen2-VL具备复杂推理和决策能力,能够与智能设备无缝集成,通过视觉或文本指令操控设备。多语言支持也是其亮点,覆盖了包括英语、中文、日语、韩语等多种语言。阿里巴巴已在Apache 2.0许可证下开源Qwen2-VL,提供多个版本,并与Hugging Face Transformers等平台集成,便于开发者使用和二次开发。(使用效果和链接在文章底部)
该模型虽强大,但存在局限性,如无法提取视频音频,知识更新仅到 2023 年 6 月。 在处理复杂指令、计数、字符识别和 3D 感知任务时,模型表现较弱,准确性有限。
该架构结合了 ViT 模型和 Qwen2 语言模型,使用约 6 亿参数的 ViT 来处理图像和视频输入。为增强模型理解视频中视觉信息的能力,进行了几项关键升级:
Qwen2-VL 的主要改进之一是实现了动态分辨率支持,使其能够处理任意分辨率的图像,并动态调整视觉标记数量。这一改进使模型更接近人类视觉感知,适应各种清晰度或大小的图像。
另一个关键增强是多模态旋转位置嵌入 (M-ROPE)。它将旋转嵌入解构为时间、空间(高度和宽度)三部分,使模型能同时捕捉并整合 1D 文本、2D 视觉和 3D 视频位置信息。
从六个关键维度评估了模型的视觉能力:复杂问题解决、数学、文档和表格理解、多语言文本图像理解、场景问答、视频理解及基于代理的交互。总体而言,72B 模型在大多数指标上表现出顶级性能,常超越 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型,特别在文档理解方面优势显著。
7B 模型保留了图像、多图像和视频输入的支持,实现了更具成本效益的模型。该模型在文档理解(如 DocVQA)和图像多语言文本理解(如 MTVQA)任务中表现出色,达到了最先进的性能。
用于移动部署的 2B 模型。尽管体积小巧,但它在图像、视频、多语言理解,以及视频任务、文档理解和场景问答方面表现出色。
栏 目:Apache
下一篇:流行HTTP服务器Apache HTTP Server 2
本文标题:惊艳四座!阿里重磅开源Qwen2-VL多模态大模型
本文地址:http://aihaoedu.com/fuwuqijiaocheng/2013.html
您可能感兴趣的文章
- 10-26华为云 DTSE 团队通过开源专业服务助力马来西亚 X 集团平滑迁移上云
- 10-26四方云动 工信部处罚阿里表明了什么信号?
- 10-26IBM在“宽松的”Apache许可下发布最新Granite基础模型
- 10-26ALC (Apache Local Community) Beijing是什么?
- 10-26什么是Apache?Apache是什么意思?
- 10-24如何在网站上开启HTTPS功能呢?
- 10-24德国主权技术基金两年内向开源领域投资超过 2490 万美元
- 10-24知道创宇:从创宇盾感知Apache Log4j2 曝光前后惊魂24小时态势
- 10-24频频出现拼写、音标、翻译等内容错误 莫让词典类APP误人子弟
- 10-23Apache配置文件中文版
阅读排行
推荐教程
- 10-03法语助手法汉-汉法词典 apache是什么意思_apache的中文解释和发音_的翻译怎么读
- 09-25亚马逊AWS将OpenSearch开源搜索项目移交至Linux基金会实现社区主导治理
- 10-08鄱阳湖读bo还是po?鄱阳湖位于哪个省?
- 08-2531个绝对惊艳的数据可视化作品让你感受“数据之美”!
- 08-30漏洞利用接踵而至:Apache为Log4j发布2170新版补丁修复
- 06-29Apache中国下载镜像开通
- 08-29Apache HTTP Server 2451 发布 - OSCHINA
- 06-24Apache服务器迎来5年内首次重大更新:云计算支持
- 06-24数据可视化|看得懂的数据
- 08-30Apache基金会正式宣布Apache InLong成为顶级项目