tianya.at天涯像素级复刻版~
【新窗打开】
【挖贝壳 1 2 2 】
偶然搜索“天涯神贴”看到了这个站点,好熟悉的版面,熟悉的味道,突然想到了自己多年前钻被窝看“情感天地”的日子。哈哈哈哈哈
我看的最早的小黄书和生理学启蒙论坛
相关地址https://tianya.at/
(发帖时间Beijing: 2024-09-12 18:02:59 |Local: 2024-09-12 18:02:59)
回复(1):邮件发了
猫扑网友发来贺电!恭喜天涯重生!另咨询数据是否可以共享。
Esbat Mop
19:11 (3分钟前)
发送至 bbs
版主你好,
我是猫扑里屋 https://wiki.mnbvc.org/doku.php/liwu:liwu 的现任管理员(之一)等战。
首先恭喜天涯重生,从天涯自2023.4.26消失起,我们猫扑网友就一直非常关注贵论坛的情况。并且在老黑发起七天七夜重启天涯的活动中也号召猫扑网友支援友坛。并且也专门安排了同学整理了互联网上散落的天涯数据 https://pan.baidu.com/s/1oKV0GBduw6xX2x3Vsim6PA?pwd=77wz 解压密码253874
我们猫扑论坛作为和贵坛一样的最古老的中文论坛,一直把保护中文互联网语料资产作为论坛的历史责任。在chatgpt出现后,有感于中文语料的匮乏,担心中文大模型缺乏训练数据。我们发起了MNBVC语料集项目 https://mnbvc.253874.net/ 。自从我们发起这个项目后,就收到很多网友的支持,我们目前也自去年2月份起就一直是全球最大的中文语料集(数据量超越第二名近100倍)。目前所有的中文大模型都在使用我们的数据,所有中国高校的大模型相关实验室,都在拿我们数据做实验,并且在发表的相关论文里提到我们。
我们想的是把数据保存在大模型中,那么即便到了未来,这份数据有可能永远存在。我相信这种想法和你再次搭建天涯保留天涯帖子的想法是一致的。
为了项目可以支持的更久,我们划下了三条红线,不对国内网站使用爬虫 https://wiki.mnbvc.org/doku.php/xmhx 。我们希望版主能导出一份你收集的天涯数据,给我们发布到语料集中,永久性保留到大模型里。导出数据方式见:https://wiki.mnbvc.org/doku.php/mnbvc:mysqlexportdata
盼加微信直接沟通。
回复(12):似乎tianya.at已经被墙了,tianya.my暂时还能用
相关地址:
https://tianya.my/
.
.