洞察 Insights

Roblox开源Sentinel：AI安全的新范式，引领数字世界信任基石的构建

Roblox开源其AI系统Sentinel，旨在利用对比学习高效识别儿童有害对话中稀有的潜在风险模式，优先召回率并结合人工审核。此举不仅为不平衡数据集处理和上下文内容审核提供了新范式，更通过开放协作深化了平台安全责任，预示着AI将作为关键基础设施，引领更智能、更安全的数字生态系统构建。

洞察 Insights

POLAR：奖励模型迈入可扩展时代，AI对齐不再是“奢侈品”

上海人工智能实验室和复旦大学推出的POLAR奖励模型，通过对比学习预训练范式首次在奖励模型领域展现了“缩放法则”，大幅降低了对人工标注数据的依赖。该模型以小参数量超越了大型竞争对手，不仅为大模型高效对齐人类偏好开辟了新路径，更预示着AI对齐技术将走向可规模化和普惠化的新时代。