既然“模型崩溃”的问题症结已经找到。
下一步的工作就要开始。
“我们可以先启动备份语言模型,采用新的思路来培育语言模型。”苏茨克维说:
“这一次,我们必须要用人类创造的真实数据来喂养模型。”
“对数据质量进行检测、过滤,去除重复、错误、偏见的内容。”
“并注意增强数据的多样性,提高和丰富生成数据的内容。”
“此外,还需要增强鲁棒性技术,提高语言模型抗干扰能力,自动识别生成数据。”
“我认为,未来几年随着人工智能不断发展,寻找真实数据将是语言模型面临的主要挑战之一。”
“鲁棒性”,是指控制系统在一定参数摄动下,维持某些性能的特性。
比如:计算机软件在输入错误、磁盘故障、网络过载或者有意攻击情况下,不死机、不崩溃,就是该软件的鲁棒性。
“在这方面我们有优势,我们的合作伙伴鹅厂,其App本身就是一个规模庞大的人类自然语言数据库。”李飞说。
“但是,这还不够,我们还需要更多的人类经典书籍、图像数据和新闻数据等。”辛顿说:
“这些才是人类自然语言的精华。”
“另外,我们建议鹅厂适度限制各种应用程序接口扒数据的权限……”克里切夫斯基说:
“他们不仅下载数据,还会产生大量生成式数据,影响到我们的语言模型。”
“这些,我都会和鹅厂对接好,辛苦几位抓紧训练,把这段时间损失的进度补上来。”常乐说。
…………
当天晚上,常乐将“模型崩溃”的情况通报给了小马哥、任总等。
他们都很惊讶。
惊讶的是,模型即便产生问题,也与人类如此相似。
第二天上午。
小马哥就出现在半山别墅。
“我可不可以这样理解,随着语言模型的发展和大面积推广,今后人类创造生成的数据,会更加稀缺。”小马哥问。
“可以这样理解,人类天然的惰性,会助推语言模型生成数据的泛滥。”常乐点头:
“至少在目前这个阶段,模型生成的数据还是与人类数据有差距。”
“缺乏真实性和特征的多样性,存在重复、偏见、谬误等。”
常乐倒了一杯茶给小马哥:
“当这些数据用于语言模型训练,就会使模型忽略、遗忘原始数据的特征和信息,这就是模型崩溃的本质。”