量子位 07-31
失联大神李沐B站复更:领读Llama 3.1论文,还多讲了一点AI八卦;大模型竞技场Llama 3.1排名第三
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 大神李沐老师时隔 1 年多,终于回归 B 站 " 填坑 "经典论文精读系列了!

没错,最新主角儿还是 Llama-3.1:

在这个 18 分钟左右的视频中,李沐老师手把手教我们读 Llama-3.1 技术论文,甚至还爆料了一些八卦。(指路 7 分 50 秒左右)

他提到,Llama 团队在训练最大模型时,其实一开始同时训练了 MoE 模型和稠密模型,但是前者后来失败了,所以最后只发了一个简单版本。

更多细节大家可以去看原视频,悄咪咪透露,李沐老师刚一上线,播放瞬间破万了。

一大批研究僧们正闻风赶来,瞧瞧热一就知道大家的精神状态了:

(视频地址在文末领取)

与此同时,大模型竞技场排名更新,Llama-3.1-405B代表开源模型首次跻身竞技场前三,仅次于 GPT-4o 和 Claude-3.5-Sonnet。

当然了,这一结果可能并不意外,Meta 官方早就暗戳戳地将这几个作了一番比较。

同样是人类评估,Llama-3.1-405B 和另外两个打得不分上下。

另外我们看到,Llama-3.1-405B 不仅整体能打,在单项(编码、数学、指令遵循、硬提示)中依然牢牢占据前三。

值得一提的是,Llama-3.1-70B也来到了总榜第 9,整体置信水平相较之前有了大幅提高。

不过最令人惊喜的是,与此同时,国外网友也对 405B 的新战绩发来贺电,更有人 " 贴心 " 提醒:

405B 只接受过 " 计算最优 " 训练,他们(指 Meta)本来可以继续前进,下一次迭代将会是惊人的

Okk,知道 Llama-3.1-405B 很腻害了!

这不,仅发布一周,网友们已经玩出花了……

搞生产第一步,先在本地跑起来试试 ~

Open Interpreter(一个让 LLMs 在用户本地运行的项目)技术社区经理为我们展示了他的成果——

让 Llama-3.1-8B 在树莓派上运行,仅用到 CPU。

据他透露, 这项尝试使用了 Raspberry Pi 5(8GB 内存)、M.2 Hat 和 Hailo AI 模块,且采用了 4-bit quantization(4 位量化)。

不过小哥也调侃,这家伙运行几句话就能真 · 烧干 CPU。

接下来,小哥已经在网友的催促下磨刀霍霍向 405B 了 ~

除了上面这个例子,还有网友用 Llama-3.1-405B 在任何GitHub 仓库上开始创建聊天机器人

而且是不花钱那种,Hugging Face 免费提供了创建新助手的功能。

不过 Groq 工程师 Rick Lamers 在尝试后提出质疑:

当前的 RAG 管道可能存在问题,容易产生幻觉。

但不管怎样,网友们想尝试的心还是拦不住了 ~

另外,除了实实在在拿出东西,还有网友拿 Llama-3.1-405B 放起了烟雾弹。

就在刚刚,网友 Hassan 宣布:

使用 Llama-3.1-405B 生成完整的 React 应用程序。

好家伙,这下开发 APP 岂不是更简单了!

虽然还未正式开源,但底下网友们已经开始排好队了。

更多玩法欢迎大家自行解锁 ~

李沐 Llama3.1 论文精读‍‍‍‍

https://www.bilibili.com/video/BV1WM4m1y7Uh/

榜单完整数据:

https://chat.lmsys.org/?leaderboard

参考链接:

[ 1 ] https://x.com/lmsysorg/status/1818321701052276990

[ 2 ] https://x.com/rohanpaul_ai/status/1817588798320222518

[ 3 ] https://x.com/nutlope/status/1818319880191643801

[ 4 ] https://x.com/satvikps/status/1817672316077154320

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

b站 ai 大神 李沐 聊天机器人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论