How to Read Paper in New Area I

Posted Jan 18, 2023

By 8 min read

高质量的论文期刊

CVPR, ECCV, ICCV, AAAI, NIPS, ICLR, ICML

高引用量的论文

同行间认可，参考，借鉴的论文

知名团队

Yoshua Bengio, Yann LeCun, Geoffrey Hinton, Andrew Ng

重视有代码的论文

paper with code

在新领域的时候要阅读综述性的文章

如何寻找论文

知网：用于寻找优质的综述，快速入门
百度学术，Google Scholar
arXiv：https://arxiv.org/
顶会（AI）：CVPR, ECCV, ICCV, AAAI, NIPS, ICLR, ICML

关于是否优质，看IF

IF(impact factor，影响因子):
JCR(Journal Citation Reports 期刊引证报告)
SCI分区:1. JCR 方式，一、二、三、四各区各占25%，因为搜索引擎(国际公认方式) 2.中科院方式（中国认可），一区为前5%，二为5-20%，三为20%-50%，四为50-100%

绕过科研论文收费的网站

sci-hub,使用方式是搜索url，DOI（文献数字身份），PMID（唯一标识码）
https://sci-hub.tw
https://sci-hub.si
https://sci-hub.se

整理论文方式

时间-作者-题目或者时间-关键词-题目
在校学生以学习知识为主，要求读论文面面俱到
工程师则注重算法实现，借鉴为主

读论文方法

读三遍
1.泛读：快速浏览，把握要点。读标题、摘要、所有小标题、图表 ** 效果自测 1.论文要解决什么问题 2.论文使用了什么方法 3.达到了什么效果**
2.精读：找出关键内容
3.总结：找出创新点，启发点等重要信息

终极问题

是谁：论文提出什么方法
从哪来：要解决什么问题
到哪去：达到什么效果
可借鉴的地方

Short Paper:

短文是被正会录用的论文，长度为 4 页（录用后可以增加一页），整体给人感受就是一个比较 focus 的贡献，或者是对某个现象/问题的分析以促进未来进一步的工作，比较经典的像 ACL 的 Energy and Policy Considerations for Deep Learning in NLP，讨论了预训练模型带来的对环境的影响，也后续催化了一系列 Green AI / NLP 的研究，目前已经 1100 + 引用了。和长文相比，短文的长度会限制其系统性。
Findings Paper:
Findings 是在 EMNLP 2020 提出，接收略微 Miss 正会 bar 的 paper 的一项类别，经过 Peer Review 并且算正式出版物被 ACL anthology 收录，所以质量还是有保障的。唯一遗憾的一点是无法在正会上进行 Poster 或者 Oral 的展示，但这两年各大会议也为 Findings 提供了 Poster 的展示环节。官方 Blog 对 Findings 的解释如下：
Papers that extend the state of the art on a particular focused task, but have few novel insights or Findings of broader applicability to the wider EMNLP community;
Papers that have well-executed, novel experiments and present thorough analyses and Findings, but using methods that are not thought to be sufficiently “novel”;
简而言之，大多是审稿人认为 Novelty 不足但是 well-written and solid 的 paper，考虑到 novelty 很多时候取决于审稿人的 taste 和对 novelty 的理解，所以被 Findings 收录同样可以看做是对 paper 质量的一种肯定。就我个人而言， Findings Paper 可能是更为简洁有效的对某个问题的解决方案，经典的 Paper 像发表于 Findings of EMNLP 2020 的 TinyBERT，同样有着很高的影响力（500+ citations, GitHub 2.1k stars）。不过对于有毕业要求的同学来说，目前短文和 Findings Paper 不算 CCF 的分类要求（必须是主会长文），所以如果需要满足学位的要求的话，在 ARR 的情况下可以考虑 revise 后再投一轮 ARR 试试。
Workshop Paper:
Workshop 我个人会倾向于把它翻译成研讨会，一般会是收录一个特定 topic 的论文，因而也可以和很多小同行进行比较深入的交流，这是主会有些时候都不太遇得到的，比较经典的 Workshop 像 WMT、Rep4NLP 等。另外 ACL 和 NAACL 这几年都会办 Student Research Workshop（SRW），并且会设置相应的 mentoring program，来指导比较 junior 的同学投稿，这个 workshop 的 reviewer 多半会比较 constructive。第一次投稿且组里没有比较资深的老师或者同学的，可以尝试投稿类似的 workshop 获取审稿建议，并且可以选择不收录，再充分吸取建议修改之后再投稿到正式的会议，能够大幅提升中稿率。同时，被 workshop 接收也是一种正反馈，对 reward sparse 的研究生来说，是有很大促进作用滴！

baseline & pipeline

baseline，基线，表示数据预处理: 特征工程，模型训练，评估预测，已经拉通，完成了一个比较基础的实现。后面的过程都是在尝试提示性能和效果。后面可以以此baseline为基准，逐步调整预处理方法，特征，模型选择和参数调优，以及一些如正负样本不平衡，loss等的修改和尝试。一个机器学习的工程问题被实现。不少比赛中，选手们都会抛出一个baseline，后面大家各凭本事，，也有一些选手抛出一个更高分的baseline，好吧，那学习一波new baseline再上分。baseline的构建也表示着，业务方或者出题方的业务建模，好的业务建模是对工程问题的有效理解，baseline则表示对工程问题的有效解决方案，但不是最有效方案。
pipeline ,流水线，在深度学习中表示 -数据读取，-数据预处理 -创建模型 -评估模型结果 -模型调参

Artificial Intelligence

algorithm

This post is licensed under CC BY 4.0 by the author.

高质量的论文期刊

高引用量的论文

知名团队

重视有代码的论文

在新领域的时候要阅读综述性的文章

如何寻找论文

关于是否优质，看IF

绕过科研论文收费的网站

整理论文方式

读论文方法

终极问题

Short Paper:

Findings Paper:

Workshop Paper:

baseline & pipeline

Trending Tags