主页 > 资讯 > 新闻 > 大型科技公司疑未授权使用YouTube字幕训练AI

大型科技公司疑未授权使用YouTube字幕训练AI

时间:2024-07-17 来源: 作者:起名废

近日,据知名科技媒体Wired报道,全球多家科技巨头,其中包括美国的苹果公司,未经YouTube视频内容创作者的明确授权,就利用了他们上传视频的字幕文件来训练人工智能模型。受影响的创作者阵容庞大,涵盖了科技博主Marques Brownlee(MKBHD)、游戏名人MrBeast、PewDiePie以及知名脱口秀主持人斯蒂芬·科尔伯特、约翰·奥利弗和吉米·坎摩尔等人。

这些字幕文件,本质上是视频内容的文本转换版本,对于AI模型的训练至关重要,因为它们提供了大量的语言数据。调查结果显示,全球顶尖的科技公司,如硅谷的苹果、英伟达和Salesforce等,都在利用来自数万个不同频道的YouTube视频资料来增强其AI技术的能力,这显然违反了YouTube平台关于未经许可不得抓取内容的规定。

据报道,非盈利组织EleutherAI负责下载并公开了这些字幕文件,初衷是为开发人员和学术研究者提供训练资源。然而,即使如此,像苹果这样的大公司在其研究项目中,如四月份发布的OpenELM模型的训练过程中,也使用了"The Pile"这一大型数据集,该数据集是"The Pile"的一部分,大部分数据对公众开放,任何人都可获取。尽管苹果声称并未直接下载这些字幕,但其通过间接途径使用了这些数据,使得EleutherAI的行动成为争议焦点。

值得注意的是,尽管这些数据集本身可能是公开的,但科技巨头的参与使得围绕数据使用和版权归属的问题变得复杂。使用网络上的数据训练AI系统,尤其是当涉及大规模和复杂的模型时,可能会带来潜在的法律风险。此前已有AI系统因错误引用网络内容而引发抄袭争议的案例,而科技公司使用第三方数据集可能导致知识产权纠纷。

此次事件引发了关于数据隐私、版权保护以及大型科技企业责任的讨论,提醒企业在推进AI研发的同时,必须遵守相关法规,尊重数据所有者的权益。