洞察 Insights
Roblox开源Sentinel:AI安全的新范式,引领数字世界信任基石的构建
Roblox开源其AI系统Sentinel,旨在利用对比学习高效识别儿童有害对话中稀有的潜在风险模式,优先召回率并结合人工审核。此举不仅为不平衡数据集处理和上下文内容审核提供了新范式,更通过开放协作深化了平台安全责任,预示着AI将作为关键基础设施,引领更智能、更安全的数字生态系统构建。
阅读全文
洞察 Insights
POLAR:奖励模型迈入可扩展时代,AI对齐不再是“奢侈品”
上海人工智能实验室和复旦大学推出的POLAR奖励模型,通过对比学习预训练范式首次在奖励模型领域展现了“缩放法则”,大幅降低了对人工标注数据的依赖。该模型以小参数量超越了大型竞争对手,不仅为大模型高效对齐人类偏好开辟了新路径,更预示着AI对齐技术将走向可规模化和普惠化的新时代。
阅读全文