MNBVC百度网盘下载链接问题和建议 【新窗打开】 【挖贝壳 0 2 0 】
1.
20230111.zip似乎缺了,从20230110.zip直接就跳到了20230112.zip,具体参见下面的github链接:

https://github.com/esbatmop/MNBVC/blob/main/dupan/README.md?plain=1#L41

2.
20230320.zip的链接似乎发了两遍,参见下面的链接:

https://github.com/esbatmop/MNBVC/blob/main/dupan/README.md?plain=1#L386

3.
不知道能不能建议每个文件百度网盘链接发布一个sha256sum校验码用于下载后校验,同时也可以给保存完整性提供保障。

我曾经下载过redpajama-data-1T,这种规模的下载有一个文件下载的时候出错的概率不小,用sha256sum一查一个准。
(发帖时间Beijing: 2023-09-11 08:05:42 |Local: 2023-09-11 08:05:42)

回复(1):1,20230111是故意缺的。
2,我回头看下
3,微力里有。

关于分发我们是这么考虑的,首先mnbvc定位是预训练语料集,建议整个数据集都下完一起使用。因为数据集不断更新,所以建议使用微力一劳永逸。

未来可以进行预训练的国内团队可能比较少,对于广大没有算力的微调用户,建议直接使用我们在huggingface的清洗后的数据。

考虑数据打包和数据存储、数据分发的分离,我们使用百度网盘在这多个职能团队之间传递打包好的数据。
回复(2):好吧 我给看错了 给做了文件的sha-1的hash 要吗
然后看了下时间给全部文件做hash 用了至少三小时
---急云
回复(3):问题二已经修复了
【楼主】 回复(4):
引用2楼内容急云:好吧 我给看错了 给做了文件的sha-1的hash 要吗
然后看了下时间给全部文件做hash 用了至少三小时
如果方便共享给我的话非常感谢 :-)

提示:您尚未登录或已经掉线目前无法回复!请先登录.
新用户注册请点击这里.