美国最大的数据公司scale AI,主营业务是通过人工标注提供高质量的数据,目前估值已经超过138亿美元,它跟OpenAI 、Meta、谷歌等美国科技公司都有合作,还与美国军方合作。scale AI 在网络上用阿根廷、委内瑞拉、埃塞俄比亚、印度尼西亚、菲律宾等国家的廉价劳动力来人工标注数据,但是,由于价格太便宜,公司又经常不及时给钱,还没有一个明确的标注标准,导致数据质量堪忧,以致有的头部企业只好自己想办法。
2024年7月,牛津、剑桥等多所大学在《自然》上联合发表论文,并登上封面。研究者发现,如果在训练中不加区别地使用 AI 产生的内容,模型就会出现不可逆转的缺陷——原始内容分布的尾部(低概率事件)会消失,被称为“模型崩溃”。也就是说,靠AI近亲繁殖产生的数据质量太差,基本上不可用。看来,美国的AI大模型即将迎来待米下锅的尬尴局面。