最近,关于中国DeepSeek和OpenAI的争论还在持续发酵,昨天,AI行业巨头OpenAI公开指控DeepSeek涉嫌蒸馏其模型技术。 简单说就是OpenAI认为DeepSeek并不是独立训练了一个全新的AI模型,而是通过某种方式利用了OpenAI的模型输出,训练出了一个自己模型,是“复制”了OpenAI的技术,而不是从头开始自己研发的。 OpenAI还表示,他们已经通过“技术手段”发现了DeepSeek可能存在的侵权行为,并将采取措施。但OpenAI的声明并没有透露具体的证据,只是说他们掌握了确凿的数据。 那么,这个“蒸馏”到底是什么?是不是就是一种“抄作业”呢? 事实上,在AI研究领域,“模型蒸馏”(Knowledge Distillation)是一种常见的技术,它的本质是用一个大型的、高精度的“老师模型”来训练一个更小、更高效的“学生模型”。 简单举个例子:有一位资深的数学教授,他的知识非常广泛,水平也很高,但请他讲课得花很多钱。 而你就想培养一个中学生,让他能在考试中取得好成绩,但是他又不可能像大学教授那样花几十年去学习数学。 这时候,你让可以让老教授给中学生教授一些解题思路和经典的题型,中学生通过这样的学习,最终也能得出正确的答案,甚至在某些情况下可以比教授更快得出结论。 这里的老教授就相当于OpenAI 的GPT,而中学生就相当于DeepSeek。 在AI领域,这种方法比较常见,特别是在资源有限的情况下,研究团队通常会用开源的或现有的强大模型来训练一个新模型,而不是从零开始训练一个庞大的AI。 OpenAI说他们有“明确的证据”,可能会是什么呢? 首先OpenAI 可会能拿DeepSeek的模型输出和GPT-4的输出进行比对,看它们的相似程度。如果两个模型在大量任务上的回答模式、用词习惯、推理逻辑高度相似,那很可能DeepSeek是受到了GPT-4的影响。 其次,OpenAI这种大模型很多会在输出中植入某种“水印”技术,如果DeepSeek的模型输出有OpenAI的水印,那基本上就可以证明它是在用OpenAI的数据进行训练。 再有就是API 的访问记录,API是Application Programming Interface的缩写,中文是“应用程序接口”,这是一个系统让别人访问他们功能的“桥梁”。 API 的专业性比较强,咱们只说结果,如果一个程序员在工作中只是简单使用了OpenAI的API,那是没有问题的,但如果是批量使用,那就违反了OpenAI 的使用规定。 而OpenAI可能会通过日志分析发现这种情况。 在OpenAI发布声明后,DeepSeek还没有做出回应。 值得一提的是,在AI领域,模型蒸馏是否合法,也是有争议的。许多AI研究机构都会用现有的大模型来辅助训练自己的模型。但如果这个过程有未经授权的API访问、滥用商业模型的数据,那就有可能涉及法律和道德问题。 在传统的软件行业,代码的直接抄袭是违法的,如果一个公司未经授权复制了另一个公司的代码,那就是明显侵犯了知识产权。 但是,AI不是代码,它是数据+算法+计算资源,而模型蒸馏的核心技术本质上是“学习”而不是“复制”,所以AI训练数据本身的版权问题仍然存在争议。 如果DeepSeek直接使用了OpenAI API来生成大量数据,并用于训练自己的模型,那这可能违反了OpenAI API 的使用条款,但在法律上是否构成“盗窃”还不明确。 更复杂的是,AI本身就是在“模仿”人类语言和推理。如果AI能模仿人类的写作风格而不侵犯版权,那么AI研究机构模仿另一个AI公司的模型架构,是否也合理呢? 总之,关于AI知识产权的法律仍然比较模糊,但OpenAI的态度很明确,他们希望通过这次事件,让行业建立起更明确的规则。 另外,关于DeepSeek的风波,还和AI 研究的“开源、闭源”之争有关。目前AI的研究分为两大流派,其中以扎克伯格的脸书为代表的是开源派。闭源派就是以OpenAI为代表的,他们强调技术的保密性,提倡商业化。 而DeepSeek本质上是一个开源派的产品。那么,OpenAI 为什么要封闭呢? 最初,OpenAI的目标是推动“安全、透明、开放”的AI研究。然而,在GPT-4之后,他们发生了根本性的转变,开始完全闭源; OpenAI不再分享技术细节,甚至连模型参数都不公开;他们对API访问进行了更严格的限制,并且不断增加付费的门槛。 这是因为OpenAI现在已经不再是一个单纯的研究机构,而是一个商业公司,他们必须保护自己的核心资产。 OpenAI 还认为: 如果大规模开放AI可能会带来风险,比如被滥用于虚假信息生成和恶意操作等。 更重要的是AI竞争的实质是一场竞赛,如果竞争对手可以轻松“复制”你的技术,那OpenAI的护城河就没有了。 而开源派主张学术研究和技术共享;降低AI训练成本,使中小型企业也能进入AI赛道;避免AI技术被少数公司垄断。 但问题在于,如果所有AI都开源了,那类似OpenAI这样的企业就没有动力去投入数十、上百亿美元开发更强大的模型了,而这也是OpenAI成为龙头的原因。 更重要的是,OpenAI现在还没有实现盈利, 每年还要继续投入大量的资金进行研发,如果轻易就被别人给蒸馏了,那他的投资者情可以堪啊? OpenAI对DeepSeek的反应如此激烈,是因为技术追赶的速度远远快于技术垄断的建立。 DeepSeek这样的新兴机构,他们可以利用已有的开源技术进行优化,采用模型蒸馏等技术快速提升自己的大模型。这会危及OpenAI巨额投资建起来的技术护城河。 目前来看,OpenAI想要的并不仅仅是阻止DeepSeek,而是希望通过这场争议确立AI知识产权的新规则,以确保未来AI研究的“蒸馏”方式受到限制;让其他公司无法轻易复制OpenAI的技术。 如果OpenAI和DeepSeek真的展开法律战,可能会对整个AI产业带来深远影响:首先,AI研究可能变得越来越封闭,商业公司可能会进一步加密其模型,以防止被蒸馏。 其次开源社区可能受到打压,如果OpenAI胜诉,那许多小型研究机构可能会受到更多限制,开源AI可能受到冲击。 第三,关于AI知识产权的法律可能变得更加明确,关于AI蒸馏的合法性,这次的争端可能成为一个新的判例。 总的来说,OpenAI 和DeepSeek这场争议,不仅仅是两家公司之间的较量,更是AI研究开放性、商业模式、知识产权等多方面博弈的缩影。也是一场关于AI未来发展方向和全球科技竞争的大博弈。 |
联系电话:647-830-8888|多伦多六六网 www.66.ca
GMT-5, 2025-1-30 09:28 PM , Processed in 0.045335 second(s), 23 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.