大型科技公司疑未授权使用YouTube字幕训练AI

时间：2024-07-17 来源：作者：起名废

近日，据知名科技媒体Wired报道，全球多家科技巨头，其中包括美国的苹果公司，未经YouTube视频内容创作者的明确授权，就利用了他们上传视频的字幕文件来训练人工智能模型。受影响的创作者阵容庞大，涵盖了科技博主Marques Brownlee（MKBHD）、游戏名人MrBeast、PewDiePie以及知名脱口秀主持人斯蒂芬·科尔伯特、约翰·奥利弗和吉米·坎摩尔等人。

这些字幕文件，本质上是视频内容的文本转换版本，对于AI模型的训练至关重要，因为它们提供了大量的语言数据。调查结果显示，全球顶尖的科技公司，如硅谷的苹果、英伟达和Salesforce等，都在利用来自数万个不同频道的YouTube视频资料来增强其AI技术的能力，这显然违反了YouTube平台关于未经许可不得抓取内容的规定。

据报道，非盈利组织EleutherAI负责下载并公开了这些字幕文件，初衷是为开发人员和学术研究者提供训练资源。然而，即使如此，像苹果这样的大公司在其研究项目中，如四月份发布的OpenELM模型的训练过程中，也使用了"The Pile"这一大型数据集，该数据集是"The Pile"的一部分，大部分数据对公众开放，任何人都可获取。尽管苹果声称并未直接下载这些字幕，但其通过间接途径使用了这些数据，使得EleutherAI的行动成为争议焦点。

值得注意的是，尽管这些数据集本身可能是公开的，但科技巨头的参与使得围绕数据使用和版权归属的问题变得复杂。使用网络上的数据训练AI系统，尤其是当涉及大规模和复杂的模型时，可能会带来潜在的法律风险。此前已有AI系统因错误引用网络内容而引发抄袭争议的案例，而科技公司使用第三方数据集可能导致知识产权纠纷。

此次事件引发了关于数据隐私、版权保护以及大型科技企业责任的讨论，提醒企业在推进AI研发的同时，必须遵守相关法规，尊重数据所有者的权益。

更多推荐