钛媒体快报 07-17
英伟达等巨头被曝违规使用YouTube数据训练模型,涉17万个视频
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

钛媒体 App 7 月 17 日消息,据媒体消息,包括苹果、英伟达、Salesforce 和 Anthrophic 在内的一些大型科技公司,被曝在训练 AI 模型时使用了来自谷歌旗下视频网站 YouTube 的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从 YouTube 上抓取的大量视频字幕文本,违反了 YouTube 禁止从平台上未经许可抓取内容的规定。报道指出,这些科技公司在训练 AI 模型时都使用了一个名为 "YouTube Subtitles(YouTube 字幕)" 的数据集,大小为 5.7GB,包含 4.89 亿个单词,来自 Youtube 上超过 4.8 万个频道中的 17.35 万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和 Youtube 自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

youtube 英伟达 ai 谷歌 日语
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论