玩币族移动版

玩币族首页 > 币圈百科 >

谷歌团队研究证明,AI 标注已达人类水平

据新智元 9 月 5 日报道,谷歌团队的最新研究提出,用大模型替代人类进行偏好标注,也就是 AI 反馈强化学习(RLAIF)。结果发现,RLAIF 可以在不依赖人类标注员的情况下,产生与 RLHF 相当的改进效果,胜率 50%。同时,谷歌研究再次证明了 RLAIF 和 RLHF,比起监督微调(SFT)胜率都超过了 70%。

原文链接

知识: AIGC