IT之家 07-17
苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 7 月 17 日消息,非营利性新闻工作室 ProofNews 昨日(7 月 16 日)发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,在训练其 AI 模型时均使用了来自 YouTube 的视频资源。

报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。

该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容,其中还包含 12000 多个平台已删除视频的字幕内容。

YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,IT 之家附上相关信息如下:

MrBeast(2.89 亿订阅者,其中有 2 段视频用于训练)

Marques Brownlee(1900 万订阅者,有 7 段视频)

Jacksepticeye(近 3100 万订阅者,有 377 段视频)

PewDiePie(1.11 亿订阅者,有 337 段视频)

YouTube Subtitles 数据集隶属于一个名为 "The Pile" 的数据集,其中包括其他几个训练数据集。大多数 "The Pile" 数据集都对任何有足够空间和计算能力的人开放。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

youtube 英伟达 ai it之家 the
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论