MNBVC百度网盘下载链接问题和建议
【新窗打开】
【挖贝壳 0 2 0 】
1.
20230111.zip似乎缺了,从20230110.zip直接就跳到了20230112.zip,具体参见下面的github链接:
https://github.com/esbatmop/MNBVC/blob/main/dupan/README.md?plain=1#L41
2.
20230320.zip的链接似乎发了两遍,参见下面的链接:
https://github.com/esbatmop/MNBVC/blob/main/dupan/README.md?plain=1#L386
3.
不知道能不能建议每个文件百度网盘链接发布一个sha256sum校验码用于下载后校验,同时也可以给保存完整性提供保障。
我曾经下载过redpajama-data-1T,这种规模的下载有一个文件下载的时候出错的概率不小,用sha256sum一查一个准。
(发帖时间Beijing: 2023-09-11 08:05:42 |Local: 2023-09-11 08:05:42)
回复(1):1,20230111是故意缺的。
2,我回头看下
3,微力里有。
关于分发我们是这么考虑的,首先mnbvc定位是预训练语料集,建议整个数据集都下完一起使用。因为数据集不断更新,所以建议使用微力一劳永逸。
未来可以进行预训练的国内团队可能比较少,对于广大没有算力的微调用户,建议直接使用我们在huggingface的清洗后的数据。
考虑数据打包和数据存储、数据分发的分离,我们使用百度网盘在这多个职能团队之间传递打包好的数据。
回复(2):好吧 我给看错了 给做了文件的sha-1的hash 要吗
然后看了下时间给全部文件做hash 用了至少三小时
.
.