洞察 Insights
Hugging Face放大招:3万亿PDF数据“盲盒”开箱,大模型终于能“吃好饭”了!
Hugging Face这次放大招,推出了巨无霸级的FinePDFs数据集,一次性搞定3万亿个Token的PDF文档,让大模型能吃上高质量的“硬核”知识。这不仅解决了PDF数据难以提取的痛点,还成功验证了它能大幅提升模型的学习能力和长上下文处理能力,简直是开源社区的“福利大放送”!
阅读全文
洞察 Insights
当AI“记忆”成为侵权:科技巨头与知识产权的迷失边界
一项斯坦福研究发现Meta的Llama等大型语言模型能“复刻”《哈利波特》等受版权保护书籍的90%内容,暴露了训练数据中普遍存在的版权问题。尽管Meta在随后的诉讼中因版权方未能证明市场损害而获胜,但AI行业普遍依赖含有盗版内容的Books3数据集的现实,以及Anthropic为规避侵权而销毁实体书的极端做法,凸显了AI技术发展与知识产权保护之间日益激化的伦理与法律矛盾。
阅读全文