欢迎来到球速体育·(中国)官方网站QIUSU SPORTS!

Apache

当前位置: 球速体育·(中国)官方网站 > 服务器教程 > Apache

惊艳四座!阿里重磅开源Qwen2-VL多模态大模型

时间:2024-09-02 03:43:00|栏目:Apache|点击:

  球速体育welcome经过一年的努力,阿里巴巴的AI团队近日发布了一个令人瞩目的成果:Qwen2-VL,这是一款全新的多模态大模型,这一版本是Qwen模型系列中的最新成员,基于之前的Qwen2进行了升级和优化,尤其在视觉和语言的结合上表现出色。

  Qwen2-VL在高分辨率及不同比例图像理解方面表现出色,超越了多项基准测试,并具备理解长达20分钟视频内容的能力,支持视频问答、对话和内容创作。此外,Qwen2-VL具备复杂推理和决策能力,能够与智能设备无缝集成,通过视觉或文本指令操控设备。多语言支持也是其亮点,覆盖了包括英语、中文、日语、韩语等多种语言。阿里巴巴已在Apache 2.0许可证下开源Qwen2-VL,提供多个版本,并与Hugging Face Transformers等平台集成,便于开发者使用和二次开发。(使用效果和链接在文章底部)

  该模型虽强大,但存在局限性,如无法提取视频音频,知识更新仅到 2023 年 6 月。 在处理复杂指令、计数、字符识别和 3D 感知任务时,模型表现较弱,准确性有限。

  该架构结合了 ViT 模型和 Qwen2 语言模型,使用约 6 亿参数的 ViT 来处理图像和视频输入。为增强模型理解视频中视觉信息的能力,进行了几项关键升级:

  Qwen2-VL 的主要改进之一是实现了动态分辨率支持,使其能够处理任意分辨率的图像,并动态调整视觉标记数量。这一改进使模型更接近人类视觉感知,适应各种清晰度或大小的图像。

  另一个关键增强是多模态旋转位置嵌入 (M-ROPE)。它将旋转嵌入解构为时间、空间(高度和宽度)三部分,使模型能同时捕捉并整合 1D 文本、2D 视觉和 3D 视频位置信息。

  从六个关键维度评估了模型的视觉能力:复杂问题解决、数学、文档和表格理解、多语言文本图像理解、场景问答、视频理解及基于代理的交互。总体而言,72B 模型在大多数指标上表现出顶级性能,常超越 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型,特别在文档理解方面优势显著。

  7B 模型保留了图像、多图像和视频输入的支持,实现了更具成本效益的模型。该模型在文档理解(如 DocVQA)和图像多语言文本理解(如 MTVQA)任务中表现出色,达到了最先进的性能。

  用于移动部署的 2B 模型。尽管体积小巧,但它在图像、视频、多语言理解,以及视频任务、文档理解和场景问答方面表现出色。

上一篇:rapidssl泛域名ssl证书有哪些功能

栏    目:Apache

下一篇:流行HTTP服务器Apache HTTP Server 2

本文标题:惊艳四座!阿里重磅开源Qwen2-VL多模态大模型

本文地址:http://aihaoedu.com/fuwuqijiaocheng/2013.html

广告投放 | 联系我们 | 版权申明

重要申明:本站所有的文章、图片、评论等,均由网友发表或上传并维护或收集自网络,属个人行为,与本站立场无关。

如果侵犯了您的权利,请与我们联系,我们将在24小时内进行处理、任何非本站因素导致的法律后果,本站均不负任何责任。

联系QQ:88888888 | 邮箱:aihaoedu.com

Copyright © 球速体育·(中国)官方网站 版权所有