新版本来袭!通义千问开源Qwen25你期待吗?
2024年9月18日阿里开源了Qwen2.5一系列模型,及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型,提供多种不同规模的版本,包括:
除了3B和72B的版本外,Qwen2.5所有的开源模型都采用了 Apache 2.0 许可证。您可以在相应的模型仓库中找到许可证文件。此外,本次通义千问团队还开源了性能不输于GPT-4o的Qwen2-VL-72B
更大的训练数据集:Qwen2.5 语言模型的所有尺寸都在最新的大规模数据集上进行了预训练,该数据集包含多达 18T tokens。相较于 Qwen2,Qwen2.5 获得了显著更多的知识(MMLU:85+),并在编程能力(HumanEval 85+)和数学能力(MATH 80+)方面有了大幅提升。
更强的指令遵循能力:新模型在指令执行、生成长文本(超过 8K 标记)、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。Qwen2.5 模型总体上对各种system prompt更具适应性,增强了角色扮演实现和聊天机器人的条件设置功能。
长文本支持能力:与 Qwen2 类似,Qwen2.5 语言模型支持高达 128K tokens,并能生成最多 8K tokens的内容。
强大的多语言能力:它们同样保持了对包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言的支持。
专业领域的专家语言模型能力增强,即用于编程的 Qwen2.5-Coder 和用于数学的 Qwen2.5-Math,相比其前身 CodeQwen1.5 和 Qwen2-Math 有了实质性的改进。具体来说,Qwen2.5-Coder 在包含 5.5 T tokens 编程相关数据上进行了训练,使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。同时,Qwen2.5-Math 支持 中文 和 英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和 TIR(Tool-Integrated Reasoning)。球速体育welcome
您可能感兴趣的文章
- 10-26华为云 DTSE 团队通过开源专业服务助力马来西亚 X 集团平滑迁移上云
- 10-26四方云动 工信部处罚阿里表明了什么信号?
- 10-26IBM在“宽松的”Apache许可下发布最新Granite基础模型
- 10-26ALC (Apache Local Community) Beijing是什么?
- 10-26什么是Apache?Apache是什么意思?
- 10-24如何在网站上开启HTTPS功能呢?
- 10-24德国主权技术基金两年内向开源领域投资超过 2490 万美元
- 10-24知道创宇:从创宇盾感知Apache Log4j2 曝光前后惊魂24小时态势
- 10-24频频出现拼写、音标、翻译等内容错误 莫让词典类APP误人子弟
- 10-23Apache配置文件中文版
阅读排行
推荐教程
- 10-03法语助手法汉-汉法词典 apache是什么意思_apache的中文解释和发音_的翻译怎么读
- 09-25亚马逊AWS将OpenSearch开源搜索项目移交至Linux基金会实现社区主导治理
- 10-08鄱阳湖读bo还是po?鄱阳湖位于哪个省?
- 08-2531个绝对惊艳的数据可视化作品让你感受“数据之美”!
- 08-30漏洞利用接踵而至:Apache为Log4j发布2170新版补丁修复
- 06-29Apache中国下载镜像开通
- 08-29Apache HTTP Server 2451 发布 - OSCHINA
- 06-24Apache服务器迎来5年内首次重大更新:云计算支持
- 06-24数据可视化|看得懂的数据
- 08-30Apache基金会正式宣布Apache InLong成为顶级项目