1. 来自哈佛的百万本优质图书数据集,训练你的AI必备开源数据
https://arxiv.org/abs/2506.08300,
@Survivor:Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability
2. Roman Storm:他们想要摧毁的开发者
https://www.techflowpost.com/article/detail_26486.html
@Harry L:随着 2025 年 7 月 14 日审判日期的临近,利害关系变得清晰。审判的关键在于陪审员是否理解创建软件与控制服务之间的区别。检察官能否说服他们斯托姆是在经营一家企业,而非发布开源代码?
3. Datafaker – Java fake data generator
https://github.com/datafaker-net/datafaker
@dan:一个用于跨多个类别(如姓名、地址和财务记录)生成逼真测试数据的现代 Java 库。需要 Java 17+。
Web3极客日报是为Web3时代的极客们准备的一份日报,它是由一群极客们推荐他们认为有价值的内容并附上一段推荐语,最后通过Rebase的成员整理编辑。
网站:https://rebase.network
公众号:rebase_network