韩国国内一位房地产专家向中国人工智能(AI)DeepSeek提问说:“O O(自己的笔名)是谁?”结果让他大为吃惊。他的主要活动和主张被一目了然地列举了出来,甚至说明了他为什么著名。信息的质量和深度超过了OpenAI的ChatGPT。DeepSeek怎么会知道这些信息?OpenAI质疑DeepSeek偷走了其数据,但可能不止这些。 ▶美国大科技公司在编写ChatGPT等AI模型时收集了世界上所有的信息,其核心是媒体积累了100多年的新闻报道。大科技公司对AI开发过程中收集数据最多的前10个网站进行了调查,其中5个是新闻社。在前100个网站中,媒体占据了51个。《纽约时报》知道AI免费盗取记者们用血汗制作的报道的事实后,以OpenAI为对象提起了侵犯著作权的诉讼,媒体开始限制免费使用数据。 ▶OpenAI与美联社、《华尔街日报》等部分媒体签订了单独的合同,缴纳数据使用费,但很难向全世界媒体缴纳使用费。主要网站也开始对收集数据的AI机器人下达“禁止出入令”。新的数据收集变得困难后,埃隆·马斯克说:“训练AI所需的数据池正在枯竭。”相反,中国的新生AI对数据收集没有任何障碍和制约。DeepSeek和ChatGPT对韩国房地产专家的AI信息能力的差异可能是出于这个原因。 ▶大科技公司们希望在AI人为制造的“合成数据”中找到突破口。以特斯拉为例,它已经用完了全球的交通事故信息,不再有新数据,而是将“深夜在国道行驶时,在交加雷电的暴雨中,野猪冲进道路的情况”制作成合成数据,将其放入算法中。但如果加入大量合成数据,此前的错误和幻觉现象就会积累起来,导致AI模型的质量下降。 ▶想打造更聪明的AI,优质的数据是不可或缺的。比起在社交媒体(SNS)上流传的假新闻、粗鲁的措辞,经过事实确认后使用精炼措辞的媒体新闻是“高品质的稀缺资源”。这也是为什么大科技企业不得不追求与新闻社共赢模式的原因。中国是一个根本没有言论自由的国家。在没有自由和高质量媒体的国家,很难出现世界顶级的AI模型。 |
联系电话:647-830-8888|多伦多六六网 www.66.ca
GMT-5, 2025-2-8 02:57 AM , Processed in 0.044719 second(s), 23 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.