智东西 12小时前
全球开源大模型新王!阿里Qwen2.5来了,性能跨量级超Llama3.1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 三北

编辑 | 漠影

云计算 " 春晚 " 云栖大会开幕,通义千问大模型再次燃爆全场!

智东西 9 月 19 日杭州报道,今日,阿里云推出全球最强开源大模型 Qwen2.5-72B,性能 " 跨量级 " 超越 Llama3.1-405B,再登全球开源大模型王座。

▲ Qwen2.5-72B 在多项权威测试中超越 Llama-405B

同时,一大串 Qwen2.5 系列模型随之开源,包括:语言模型 Qwen2.5、视觉语言模型 Qwen2-VL-72B、编程模型 Qwen2.5-Coder、数学模型 Qwen2.5-Math 等,累计上架超 100 个,部分性能赶超 GPT-4o,刷新世界纪录。

" 今天是疯狂星期四 "、" 史诗级产品 "…… 发布几个小时里,Qwen2.5 在海内外社交媒体上掀起讨论热潮,全球开发者纷纷加入试用测试队伍。

▲ Qwen2.5 在海内外社交媒体上掀起讨论热潮

智东西也第一时间在魔搭平台上试用了 Qwen2.5,以结合视觉识别的 Qwen2.5-Math 为例,当输入一张几何相似选择题截图,Qwen2.5-Math 快速识别题意,并给出了正确的解题过程和答案 "B",准确与速度都不错。

▲智东西试用 Qwen2.5-Math

自 2023 年 4 月以来短短一年半时间,通义千问 Qwen 已长成仅次于 Llama 的世界级模型群

根据阿里云 CTO 周靖人公布的最新数据,截至 2024 年 9 月中旬,通义千问开源模型累计下载量已突破4000 万,衍生大模型超5 万个。

▲ Qwen 系列衍生大模型超 5 万个

Qwen2.5 在性能上具体有哪些提升?超 100 个新上架开源模型有哪些亮点?智东西抵达杭州云栖大会现场为大家揭秘。

博客地址:https://qwenlm.github.io/blog/qwen2.5/

项目地址:https://huggingface.co/spaces/Qwen/Qwen2.5

▲官方博客发布阿里云 Qwen2.5 模型族群

一、再登全球榜首,Qwen2.5 跨量级赶超 Llama3.1-405B

具体来看看 Qwen2.5 的性能。

Qwen2.5 模型支持高达128K的上下文长度,可生成最多8K内容,支持超29 种语言,这意味着能帮用户胜任万字文章撰写。

不仅如此,基于 18T token 数据预训练,相比 Qwen2,Qwen2.5 整体性能提升18%以上,拥有更多的知识、更强的编程数学能力。

▲阿里云 CTO 周靖人在讲解 Qwen2.5

据悉,旗舰模型 Qwen2.5-72B 模型在 MMLU-rudex 基准(考察通用知识)、MBPP 基准(考察代码能力)和 MATH 基准(考察数学能力)的得分高达 86.8、88.2、83.1。

720 亿参数的 Qwen2.5,甚至" 跨数量级 " 超越 4050 亿巨量参数的 Llama3.1-405B

Llama3.1-405B 由 Meta 于 2024 年 7 月发布,在 150 多个基准测试集中追平甚至超越了当时 SOTA(业界最佳)模型 GPT-4o,引发 " 最强开源模型即最强模型 " 论断。

Qwen2.5 指令跟随版本Qwen2.5-72B-Instruct 在 MMLU-redux、MATH、MBPP、LiveCodeBench、Arena-Hard、AlignBench、MT-Bench、MultiPL-E 等权威测评中,超越 Llama3.1-405B

▲ Qwen2.5-72B 模型测评情况

Qwen2.5 再次坐稳全球最强开源大模型位置,助推 " 开源超闭源 " 行业趋势。

这是阿里云继今年 6 月开源通义千问 Qwen2 系列、赶超当时的最强开源模型 Llama3-70B 后,再次推出开源系列版本。

每一个新王出现后,很快就会被通义新版本超越,这已成为 AI 开发者圈熟悉的节奏。

9 月 18 日晚间 Qwen2.5 开放后,不少开发者激动地觉都不睡了,先试再说。

▲海内外开发者热议 Qwen2.5

二、史上最大模型族群诞生,开源模型上架超百个

Qwen2.5 开源模型数量史无前例。

阿里云 CTO 周靖人在云栖大会上宣布,Qwen2.5 系列总计上架开源模型超过 100 个,充分适配各种场景的开发者和中小企业需求。

这响应了众多开发者的呼声,他们已经在各大社交媒体 " 催更 " 多时。

▲海内外开发者催更 Qwen2.5

1、语言模型:从 0.5B 到 72B 七个尺寸,从端侧到工业级场景全覆盖

Qwen2.5 开源了7 个尺寸语言模型,包括 0.5B、1.5B、3B、7B、14B、32B、72B,均在对应赛道实现了 SOTA 成绩。

▲多个尺寸 Qwen2.5 满足多样化场景需求

这些版本助开发者兼顾模型能力和成本,适配多种场景需求,比如,3B 是适配手机等端侧设备的黄金尺寸,32B 是最受开发者期待的 " 性价比之王 ",72B 是足够用于工业级、科研级场景的性能王者。

博客地址:

https://qwenlm.github.io/zh/blog/qwen2.5-llm/

2、多模态模型:视觉模型理解 20 分钟视频,音语言模型支持 8 种语言

备受期待的大规模视觉语言模型 Qwen2-VL-72B,今日正式开源。

Qwen2-VL 能识别不同分辨率和长宽比的图片,理解20 分钟以上长视频,具备调节手机和设备的视觉智能体能力,视觉理解能力超越 GPT-4o 水平

▲大规模视觉语言模型 Qwen2-VL-72B 开源

在全球权威测评 LMSYS Chatbot Arena Leaderboard 上,Qwen2-VL-72B 成为得分最高的开源视觉理解模型。

▲ Qwen2-VL-72B 成为得分最高的开源视觉理解模型

Qwen2-Audio 大规模音频语言模型则是一款能听懂人声、音乐、自然声音的开源模型,支持语音聊天、音频信息分析,支持超8 种语言和方言,在主流测评指标上全球领先。

博客地址:

http://qwenlm.github.io/blog/qwen2-vl/

3、专项模型:最先进开源数学模型亮相,赶超 GPT-4o

用于编程的 Qwen2.5-Coder、用于数学的 Qwen2.5-Math,也于本次云栖大会宣告开源。

其中,Qwen2.5-Math 是迄今为止最先进的开源数学模型系列,本次开源了 1.5B、7B、72B 三个尺寸和数学奖励模型 Qwen2.5-Math-RM。

▲ Qwen2.5-Math 开源

旗舰模型 Qwen2-Math-72B-Instruct 在数学相关的下游任务中,表现优于 GPT-4o 和 Claude 3.5 等专有模型。

Qwen2.5-Coder 在多达 5.5T tokens 的编程相关数据上作了训练,当天开源 1.5B 和 7B 版本,未来还将开源 32B 版本。

▲ Qwen2.5-Coder 开源

博客地址:

https://qwenlm.github.io/zh/blog/qwen2.5-math/

https://qwenlm.github.io/zh/blog/qwen2.5-coder/

此外值得一提的是,通义千问旗舰模型 Qwen-Max也实现了全面升级,在 MMLU-Pro、MATH 等十多个权威基准上接近甚至赶超 GPT-4o,上线通义千问官网和通义 APP。用户也可通过阿里云百炼平台调用 Qwen-Max 的 API。

▲ Qwen-Max 实现全面升级

自 2023 年 4 月初代通义千问大模型发布以来,阿里云让中国企业低成本用上大模型,反过来也推动今天的 Qwen2.5 系列 " 越用越好用 "。

Qwen2.5 系列模型涵盖基础版本、指令跟随版本、量化版本,正是在实战场景中迭代而来。

三、通义千问 Qwen 下载破 4000 万," 产仔 " 超 5 万个

狂飙一年半,通义千问已成为仅次于 Llama 的世界级模型群。

周靖人公布的两组最新数据对此进行了印证:

一是模型下载量,截至 2024 年 9 月初,通义千问开源模型累计下载量已经突破4000 万,这是开发者和中小企业用脚投票的结果;

二是衍生模型数量,截至 9 月初,通义原生模型和衍生模型总数超过5 万个,仅次于 Llama。

▲通义千问开源模型累计下载量突破 4000 万

至此," 万模同源 " 已成为中国大模型产业发展的显著趋势。

什么概念?国产开源不仅在性能上稳居全球榜首,并且在生态上开疆扩土。海内外的开源社区、生态伙伴、开发者成为通义千问的 " 自来水 ",通义千问成为很多企业采用的第一款大模型,也是用得最久的大模型。

早在 2023 年 8 月,阿里云就开源通义千问 70 亿参数模型至免费可商用,再到今年的 Qwen1.5、Qwen2、Qwen2.5 接连发布,让开发者快速用上最先进模型的同时,获得更大控制权和调优空间,从而成为更多企业的首选。

7 月初,全球最大开源社区 Hugging Face 的工程师曾发推认证,通义是中国最卷的大模型。而通过阿里云,通义大模型已经服务了各行各业的30 多万客户。在刚刚过去的 2024 年第二季度(对应阿里巴巴 2025 财年 Q1),阿里云 AI 相关产品收入实现三位数增长。

▲通义大模型服务超 30 万客户

阿里云做对了什么?

笔者认为,不同于国外大厂微软与 ChatGPT 强绑定、亚马逊 AWS 汇聚三方模型做底层基础设施,阿里云综合两者优势,一开始就选择了AI 基础设施服务和自研大模型两手抓。

聚焦自研模型方面,阿里云是国内唯一坚定明确模型开源开放的云巨头,在模型突破、生态兼容、开发者服务等方面都不遗余力地做出了巨大投入,从而让通义大模型一步步走进世界 AI 竞争的核心圈。

结语:万模同源,行业分水岭时刻

开源模型正追平甚至赶超闭源模型。从 7 月 Meta 的 Llama-405B 到今天阿里云的 Qwen2.5-72B," 万源同模 " 景观正在形成。通义千问大模型的一年半狂飙,让众多行业和企业实现更低成本 AI 规模化落地,行业正进入新的分水岭时刻。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

开源 阿里云 通义千问 云栖大会
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论