洞察 Insights

Hugging Face放大招：3万亿PDF数据“盲盒”开箱，大模型终于能“吃好饭”了！

Hugging Face这次放大招，推出了巨无霸级的FinePDFs数据集，一次性搞定3万亿个Token的PDF文档，让大模型能吃上高质量的“硬核”知识。这不仅解决了PDF数据难以提取的痛点，还成功验证了它能大幅提升模型的学习能力和长上下文处理能力，简直是开源社区的“福利大放送”！

阅读全文

洞察 Insights

当AI“记忆”成为侵权：科技巨头与知识产权的迷失边界

一项斯坦福研究发现Meta的Llama等大型语言模型能“复刻”《哈利波特》等受版权保护书籍的90%内容，暴露了训练数据中普遍存在的版权问题。尽管Meta在随后的诉讼中因版权方未能证明市场损害而获胜，但AI行业普遍依赖含有盗版内容的Books3数据集的现实，以及Anthropic为规避侵权而销毁实体书的极端做法，凸显了AI技术发展与知识产权保护之间日益激化的伦理与法律矛盾。

阅读全文