where the ai data
where the ai data

AI大模型的训练需要海量的数据,互联网上的各种网站是最重要的来源之一,那么哪些网站贡献最多呢?根据网站统计分析服务商 Semrush 的一项数据调查发现,Reddit、Wikipedia 排在前两位(因为数据统计来源的问题,并没有包括中文完整,基本都是英文内容为主的)。

Semrush通过对 超过15万条的 LLM(主要是 ChatGPT、Perplexity)引用数据的来源进行了统计,并对引用最多的网站进行排名。这可以揭示出AI聊天机器人对用户生成内容的依赖程度。可以看下榜单:

与你的想法一样吗?比如 Reddit的贡献竟然大幅领先于维基百科,还比如Google这样的搜索引擎巨头其实贡献很大、可以二次利用很多数据,还比如问答网站 Quora的数据好像并没有那么多?

从数据可以看到,大模型正在快速学习人类过往的知识,只是好像有些过度依赖于用户生成内容的平台?比如Reddit、维基百科等这类网站。这也引发了人们对于AI知识的一些担忧,包括这些内容可能是错误、谣言,在一些专业方向,比如医疗健康、法律、金融等方面,AI如果依赖这些网站可能缺乏权威性。

相比这些担忧,其实还有个更大的挑战,那就是目前的AI训练数据,似乎已经耗尽了网站的公开信息和资料,面临短缺甚至枯竭,这时候AI应该从哪里学习呢?如果让AI自主生成内容、那可能会引发更大的知识混乱。

目前因为数据源的问题,在一定程度上已经制约了AI大模型的发展,小模型、细分数据、新的信息,有待更大的挖掘和建设了。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注