arXiv实用技巧,如何让你的论文关注度变高?
《LLM数据工程》停更了半个多月,很快就会恢复更新,这两天我在忙一篇相关论文的投稿。回想起接触科研圈一段时间后,发现这个领域有点过于封闭,像古代拜山头一样,技巧和经验只在同门内部流通,感觉有点奇怪,所以尝试科普一些东西。
一、arXiv ID的含义是什么?
一篇文章有一个唯一的ID,例如:2407.04694,代表的是24年7月的编号为04694的文章。
与文章ID相关的链接有:https://arxiv.org/pdf/2407.04694,中间为pdf则直接是pdf页面。
https://arxiv.org/abs/2407.04694,中间为abs则是详情页。
二、 arXiv每日论文在哪里查看?
可以在arXiv首页点击进入感兴趣的主题。
每一个小专题的原始路径均为https://arxiv.org/list/xxx/recent,例如https://arxiv.org/list/cs.CL/recent则是cs.CL板块最近的文章。
打开某个板块的首页,我们可以看到所有的文章都排列在这里,列出了基本信息:ID、标题、作者等信息。而其他例如arxiv_daily、各种知乎、推特等关于arXiv论文的KOL推荐都是从这每日自动爬取的论文。
所以,我们由此得出了一个衍生的小技巧:
三、如何投稿才能更好地获得关注?
基本的投稿方式可以自己搜索,这里不做赘述。
LLM时代,会议是否被录用已经没那么重要了,因为技术和认知迭代太快,期刊动辄三五个月的时间让很多科研前沿人士很大程度上放弃了投稿,期刊就更不用说了,一年的时间过去黄花菜都凉了。
与此同时,arXiv的优势就凸显出来了,最快一天就可以在互联网上发布,方便想快速展示成果的个人和团队。所以很多人都是“arXiv战神”——成果只挂在arXiv上,有时间再说投稿的事情(比如我)。
然而,arXiv热门专题每天会有几百甚至上千份投稿,如何才能让自己的稿件脱颖而出呢?
1. 自荐给KOL
选择各个平台流量高的KOL,将你刚发布的arXiv地址、GitHub地址,最好有演示地址、视频等方便外行人可以快速了解你做了什么的东西发给对方,看对方是否愿意帮你做宣传。不需要过度紧张,被拒绝是常事,被接受是幸运。但也要注意基本的社交礼仪,附上我早期和他们的交流话术:
有了一次成功经历之后,之后再有其他工作想麻烦他们宣传就很简单了,比如:
2. 自己慢慢经营账号
我们会发现很多KOL刚开始对前沿的东西也是一知半解,但是流量高,可以帮助他们积累粉丝,所以我们其实可以慢慢培育自己的账号,有几千粉丝之后自己就逐渐变为小KOL了。
而且亲测账号增长速度也没那么慢。
3. arXiv系统排序规则
这条是比较实用的小技巧。首先有一个小认知:和学术界、工业界都打过交道的人会发现一个事情:像arXiv这种学术系统一般不会有复杂的工程设计,意思就是它的各种规则和功能一定很简单,根本不会有什么高并发、分布式、雪花算法、容器等东西。
而列表页面最上面的文章总是更容易被各个KOL和爬虫获取到的,那么问题就变成了:如何让我们的文章尽量排到最上面?
我们观察页面,可以发现一个简单的规律:arXiv的文章展示结果是把arXiv ID最大的放在最上面。
所以问题就变成了:如何让我们的arXiv ID在每次更新的所有ID中,尽可能地大?
4. arXiv卡点提交
通过研究它的所有文档,我发现了这么一个页面:https://info.arxiv.org/help/availability.html
里面详细列出了arXiv每期的截稿时间和更新时间:
也就是周日、周一、周二、周三、周四的晚上八点(美东时间)会更新之前一次时间截止到当天下午两点(美东时间)的论文。
而简单建立多个提交请求之后,我们可以发现arXiv是自增ID的逻辑,也就是系统每有一个新提交请求,ID就+1,那么答案自然就来了:尽量在截稿时间前几秒提交,也就是比如周二下午两点截稿,可以卡在13:59:59提交,这样理论上当前周期的ID就会最大,文章自然排在最前列。(不过建议不要这么极限)
当然,以上时间是美东时间,我们需要把美东时间换算为北京时间或你当地的时间。同时要注意,美国从3月的第二个星期日开始,到11月的第一个星期日结束是夏令时,其他时间为冬令时。夏令时和北京时间相差12小时,而冬令时比北京时间晚13小时。
PS:arXiv提交之后显示的是UTC时间,可以自己做一下换算。
祝大家万事顺意~