月初,那边厢核聚变∞正热闹,这边厢我做了个颇体现我挖坟专业户特色的事儿:把机核这8年来的播客节目完全整理了一遍。

起因实际上是因为换了新手机以后,以前在iPhone下载来的机核的一些魔兽世界和辐射4的节目现在在机核官方播客的RSS里已经找不到了,作为有收集癖的WOW休闲玩家,这让我有点儿不能接受,于是就去archive.org Wayback Machine上按URL搜索,找到了那个RSS的之前的几个版本。本来只想收魔兽世界和辐射4的节目的,最后发现Wayback Machine里还有更早的包括了第一期节目的RSS,瞬间点燃了我的挖坟热情。

最后证明这是个巨坑,即使在机核已经成立了公司,具有了当年那个几人组远不可比的资源的时候,管理播客这么个事,被近900期节目这个数量变得不那么容易了。

先声明,以下的一些有关机核的“历史”仅仅是从我个人了解的角度阐述的,不保证正确。

机核最早是依靠糖蒜广播的力量开始的自己的播客。至今为止,各个播客网络——比如iTunes的播客目录——有关机核的页面上,RSS的地址都还是http://feed.tangsuanradio.com/gadio.xml,而且这个地址现在还有效,订阅后可以看到最新的机核播客节目——当然了,官方app中的时间线就不要想了,文字量也仅限简介而已。糖蒜广播我听的不是太多,只是知道他们做的比较大,有一些子栏目,要知道在中国播客现在这个状态,能有足够的受众支撑起几个子栏目已经是不亚于“正规”广播的成就了。所以我一开始觉得,依托糖蒜,起码最开始那些播客节目的音频文件都应该没问题的吧。

然后被打脸:早期节目的音频文件七零八落,甚至几个糖蒜广播的子域名都找不到了。

继续挖Wayback Machine里的其他几个版本,合并了一些节目的地址,也摸到了机核播客的音频文件辗转的简单轨迹:开始是糖蒜广播自己的域名下,后来转到一个183me.com的域名下,不太清楚所有者是谁,疑似是荔枝FM,然后又到了荔枝FM的CDN域名下,现在貌似是转移到了阿里云上。想想机核这8年的一些变化,也真不容易。

合并出来的RSS也不理想,还是有很多期节目找不到,本来我只想用些vim宏操作来在RSS文件这个层面上做这事儿的,不想搞太复杂,最后也只好无奈地去做了最不想做的事情:爬机核官网的播客页面。

好在机核官网的页面结构良好,没有常见的一些混淆手段,也没有反爬虫设置,所以我的爬虫顶着Python 3 urllib的默认UA就爬回来所有节目的音频地址。后来写了个简单的验证脚本,还发现了两期节目的音频文件放重复了,去官网的节目页面看了看评论也确实如此,还是挺有趣,顺手在评论里放了正确的音频地址以及一个在节目页面里替换播放器源文件地址的jQuery调用代码,也许哪天有同样挖坟爱好的人能发现。

接下来又做了个验证脚本逐个验证整理下来的RSS里的音频地址,发现有些节目的地址还是无效的,有些奇怪。对比了官网的播客节目目录,发现原因是这些节目只出现在Wayback Machine的早期RSS快照里,官网都没有了,甚至机核很绝地把荔枝FM上的对应节目都删了。

我知道,光看那几期节目的标题我都知道是很三俗的,但是这让一个挖坟爱好者情何以堪,不能活生生就少这几期啊。

天无绝人之路,没有办法时就找Google。按“机核”加上那几期节目的标题搜索,总算让我找到了机核在另外一个知名音频网站的节目合集,并且看样子是已经有一段时间不再维护更新了,估计要么是机核官方也都忘了还有这么个地方,要么就是这个知名音频网站在机核不知道的情况下镜像了这些节目,考虑到该网站之前的一系列版权官司——呃我这有些放下筷子骂娘了,不厚道,还是感谢这个网站让我还能找到这几期机核都不希望存在了的节目吧。

卖个关子,这几期常规节目确实够三俗够劲爆,怪不得官网和荔枝FM上都没有,确实有点儿略影响机核形象,夏总在节目里都一直嘀咕“这期还能放么” “别放了” “求你了”。这既视感,爆棚。

挺好玩的过程,结果也不赖,我成为了可能是有机核播客节目信息最多的RSS的人,不过因为版权问题和手段问题,就不放这个RSS的地址了。当然其实反过来看,这也不是什么难事,做个爬虫去爬那几个网站就可以了,包括第一期在内都有的。

简单的统计,截止到GadioPro vol. 402这期,这个RSS里有884期节目,RSS文件一共1.6M,17118行。

这件事也让我想了一些有的没的,比如内容作者的权力,是不是真的能让一些内容从互联网上消失,DMA,blockchain。咳,没什么了不起。