这是一个专注于小规模实验和算法进步的阶段。然后第二阶段大致从 -3 开始到现在进入了初始扩展阶段。 -3 表现得相当不错接着 及其他公司开始大规模扩展这些模型像、h、 和 x 等许多公司也加入了这个竞赛将模型的能力提升到极限。 过去两三年间几乎完全是执行层面的工作涉及如何使大规模训练顺利进行如何避免代码中的怪异错误如何设置更大的集群等。 接下来我认为我们将进入一个研究和执行之间更多交替的阶段各实验室将朝着不同的研究方向发展并在不同时期取得各自的突破因此这是一个激动人心的转折期。
v : 他们已经达到了一个阶段虽然不能说计算资支撑模 柬埔寨数字数据 型的发展基本不再是一个限制。而在数据方面所有前沿实验室已经尽可能地挖掘了可用的数据资源。接下来就是在数据方面取得突破对吗? x W: 是的基本上是这样。如果你看这三大支柱计算方面我们显然会继续扩大训练集群的规模这个方向是比较明确的。算法方面我认为将会有很多创新。 事实上很多实验室现在都在这一领域进行深入的研究。而关于数据你提到的很对我们已经用尽了所有容易获取的公开数据。
v : 是的所有人都可以获得相同的数据。 x W: 没错很多人称之为“数据墙”我们已经利用了所有公开的数据资源。而下一阶段的标志之一将是数据生产。 每个实验室将如何生成所需的数据以实现更高的智能水平这将是一个关键问题我们如何朝着数据丰富迈进?这将需要多个领域的前沿研究。 我认为首先是推动数据复杂性的提升迈向前沿数据。我们希望在模型中构建的许多能力其最大的障碍其实是数据的缺乏。 比如说过去两年内 一直是一个热门话题但实际上几乎没有 能很好地运作。