学术论文写作上手指南
从零到论文大师:系统性写作方法论
写给谁看: 第一次写论文、写过但没有系统方法论、希望真正理解”为什么这样写”而不只是模仿格式的研究者。
核心理念: 论文不是”记录你做了什么”,而是”说服读者你的工作值得存在”。掌握这一点,写作就从痛苦变成了有章可循的工程。
📖 阅读指南
知识依赖链:
1
2
3
4
5
第一章(本质认知)→ 第二章(整体结构)→ 第三章(逐章攻略)
↓ ↓
第四章(句式武器库) 第五章(Benchmark论文专项)
↓
第六章(写作流程与习惯)→ 第七章(常见误区)→ 附录(速查表)
建议阅读顺序:
- 第一次读:通读第一、二章,建立全局观
- 写作前:细读你要写的那章对应的第三章内容
- 写作中:随时查第四章句式 + 第七章误区
- 写完后:对照附录检查清单逐项核查
1. 论文的本质:一个说服框架
1.1 最重要的认知转变
大多数初学者把论文写成”实验报告”:
“我做了A,然后做了B,结果是C。”
但好论文是一个说服故事:
“世界上存在问题X(读者认同)→ 现有方法有缺陷Y(读者感到痛点)→ 我们提出解法Z(读者产生兴趣)→ 数据证明Z有效(读者信服)→ 这对领域的意义是M(读者认为值得发表)”
核心洞察: 论文的每一段、每一句话,都应该服务于这条说服链。如果某段内容与这条链无关,删掉它。
1.2 你的读者是谁
理解读者,才能知道写什么、怎么写:
| 读者类型 | 他们想知道什么 | 对应章节 |
|---|---|---|
| 审稿人 | 这个工作新在哪?实验设计是否严谨? | 全文,尤其 Introduction + Experiment |
| 同领域研究者 | 和我的工作有什么关系?能不能引用? | Related Work + Method |
| 领域外读者 | 这个问题是什么?为什么重要? | Abstract + Introduction 前半段 |
实用建议: 写作时,假设你的读者是”比你聪明但不了解你具体工作的同行”。他们不会猜你的意思,你必须说清楚。
1.3 Benchmark 论文 vs 方法论文的本质差异
你写的是 Benchmark 论文,它和普通方法论文有一个核心区别:
| 维度 | 方法论文 | Benchmark 论文 |
|---|---|---|
| 核心主张 | “我们的方法比现有方法更好” | “现有评测体系有缺陷,我们填补了它” |
| 主要贡献 | 新算法/新架构 | 新数据集/新评测框架/新发现 |
| 实验目的 | 证明方法有效 | 用benchmark揭示现有模型的不足 |
| 成功标准 | SOTA 性能提升 | 发现有价值的新结论,推动领域进步 |
关键洞察: Benchmark 论文的实验结果越”差”(即现有模型表现越不好),越能说明你的 benchmark 有价值——因为它揭示了一个真实存在的挑战。
2. 论文整体结构与论证链
2.1 六章结构的内在逻辑
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
┌─────────────────────────────────────────────────────────────────┐
│ 论文的论证逻辑流 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ Abstract ──→ "我们做了什么,结论是什么"(先给答案) │
│ ↓ │
│ Introduction ──→ "问题是什么,为什么重要,缺口在哪,我们怎么填" │
│ ↓ │
│ Related Work ──→ "别人做了什么,为什么还不够" │
│ ↓ │
│ Method/Bench ──→ "我们具体怎么设计的,每个决策为什么这样" │
│ ↓ │
│ Experiment ──→ "数据证明我们的设计是正确的" │
│ ↓ │
│ Conclusion ──→ "总结 + 局限 + 未来方向" │
│ │
└─────────────────────────────────────────────────────────────────┘
重要:这六章不是独立的模块,而是一条因果链。 每章都在为下一章铺垫,读者读完每章后应该自然地想看下一章。
2.2 每章的字数参考(NeurIPS/CVPR 8页限制)
| 章节 | 建议字数(words) | 占比 |
|---|---|---|
| Abstract | 150-250 | ~3% |
| Introduction | 500-800 | ~15% |
| Related Work | 400-600 | ~10% |
| Method/Benchmark | 800-1200 | ~25% |
| Experiments | 1000-1500 | ~35% |
| Conclusion | 150-250 | ~5% |
| 图表说明 | 200-400 | ~7% |
2.3 推荐写作顺序(反直觉但正确)
1
2
3
4
5
6
7
8
写作顺序(≠ 阅读顺序):
Step 1: Method/Benchmark ← 写你最熟悉的,建立信心
Step 2: Experiments ← 把实验结果组织成叙事
Step 3: Related Work ← 读文献,定位你的工作
Step 4: Introduction ← 现在你对全文有感觉了
Step 5: Conclusion ← 30分钟写完
Step 6: Abstract ← 最后提炼,精确概括
为什么不从 Introduction 开始? Introduction 需要你知道全文说了什么。如果你先写 Introduction,写完后发现实验结果不对,整个 Introduction 要重写。先写 Method + Experiment,再写 Introduction,事半功倍。
3. 逐章深度写作指南
3.1 Abstract
目的
让读者在 30 秒内决定”这篇论文值不值得精读”。
结构:四步法(每步 1-3 句)
1
2
3
4
5
6
┌─────────────────────────────────────────────────────────┐
│ Step 1 [背景] 领域现状 + 这个问题为什么重要 │
│ Step 2 [痛点] 现有方法/benchmark 的具体缺陷 │
│ Step 3 [方案] 我们提出了什么(必须有具体数字) │
│ Step 4 [发现] 主要实验结论(具体数字 or 定性结论) │
└─────────────────────────────────────────────────────────┘
模板示例(Benchmark 论文)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
[背景] [领域] has witnessed remarkable progress, with [模型类型]
demonstrating impressive capabilities in [任务].
[痛点] However, existing benchmarks primarily evaluate [现有评测做了什么],
largely overlooking [你关注的维度], leaving a critical question
unanswered: [你的核心问题].
[方案] To address this gap, we introduce [你的benchmark名],
a [定语] benchmark comprising [数量] [样本类型] across [N] categories,
featuring [你的核心设计].
[发现] Extensive evaluation of [N] [models/systems] reveals that
[核心发现,e.g., even state-of-the-art models struggle with X,
achieving only Y% accuracy on Z].
Abstract 写作的五个原则
- 数字优先:能给具体数字的地方绝不模糊。”大量样本” → “1,400 samples”
- 结论先行:Abstract 不是”我们做了什么”,是”我们发现了什么”
- 不引用文献:Abstract 中不出现 [cite]
- 不出现图表引用:不写 “as shown in Figure 1”
- 独立可读:Abstract 应该能独立成文,不依赖正文
常见错误
❌ “We propose a new benchmark for video editing evaluation.” (没有具体数字,没有说为什么需要新 benchmark)
✅ “We introduce CoVEBench, the first benchmark targeting complex, multi-operation video editing instructions, comprising X samples across Y edit categories.”
3.2 Introduction
目的
让读者理解:(1) 这个问题是什么,(2) 为什么重要,(3) 为什么现有方法不够,(4) 你做了什么,(5) 贡献是什么。
结构:漏斗型(从宽到窄)
1
2
3
4
5
6
7
8
9
10
段落 1: [背景铺垫] 领域大背景,吸引读者
↓
段落 2: [问题聚焦] 具体化到你要解决的子问题
↓
段落 3: [现有缺陷] 现有方法/benchmark 的具体不足
(重要:要有证据,不能只说"不够好")
↓
段落 4: [我们的方案] 介绍你的工作(不要说太细,那是 Method 的任务)
↓
段落 5: [贡献列表] 3条 bullet points,动词开头
每段详细指南
段落1:背景铺垫
任务: 让领域外的读者也能理解这个问题的重要性
写法:
- 开头用一个”大事实”吸引注意力
- 不要太长,2-3句即可
- 结尾引出你的具体问题
示例:
1
2
3
4
5
Video editing has emerged as a fundamental capability in content creation,
enabling users to modify visual content through natural language instructions.
Recent advances in diffusion-based models [cite, cite] have dramatically
improved the quality and controllability of video editing, bringing us closer
to practical deployment in real-world applications.
段落2:问题聚焦
任务: 把”大问题”具体化到你的研究子问题
关键: 这里要引出一个”tension”——表面上模型很强,但有一个具体问题没被解决
1
2
3
4
Despite these advances, a critical question remains: can these models
truly handle [你关注的具体能力]? While existing models excel at
[简单任务], they are rarely evaluated on [复杂场景],
which are essential for [实际应用].
段落3:现有缺陷(最重要的段落)
任务: 证明现有 benchmark 有具体、致命的缺陷
写法要点:
- 用”具体化”的语言描述缺陷,不要用”不够好”这种模糊表达
- 最好给例子或数字
- 结构:现有方法做了什么 → 但是忽略了什么 → 导致什么问题
1
2
3
4
5
6
Existing benchmarks for video editing [cite, cite, cite] primarily
focus on [单一操作/简单指令], assessing models on instructions
such as "change the color of the car" or "add fog to the scene."
However, real-world editing tasks often involve [复杂的多步骤操作],
such as [具体例子]. This gap between benchmark design and practical
requirements means that [模型的真实能力无法被评测].
段落4:我们的方案
任务: 简洁介绍你的工作,埋下”悬念”让读者想看 Method 章节
1
2
3
To address this gap, we introduce [名字], [一句话描述].
[名字] features [核心设计1], [核心设计2], and [核心设计3],
enabling comprehensive evaluation of [你关注的能力].
段落5:贡献列表
格式严格:
1
2
3
4
5
6
7
8
In summary, our main contributions are:
• We introduce [名字], the [first/most comprehensive] benchmark
for [具体任务], comprising [N] [样本] across [M] [类别].
[说明为什么这个设计是新的]
• We design [具体组件/评测框架], which [解决了什么问题].
[给一个技术亮点]
• Through extensive evaluation of [N] state-of-the-art models,
we reveal [具体发现], providing [对社区的价值].
贡献条目的三要素:
- What:你做了什么(动词开头:We propose / We design / We conduct)
- How big / specific:具体规模或特点(数字!)
- So what:为什么重要(providing / enabling / revealing)
Introduction 写作的核心原则
原则:每个声明都需要证据。
- “现有方法不够好” → 要列举具体的 benchmark 名字和它们的局限
- “我们的方法更好” → 要提前预告实验结论
- “这个问题很重要” → 要给应用场景或数据
3.3 Related Work
目的
不是:向读者介绍这个领域的所有工作 是:证明你的工作填补了现有工作的空白,且你了解这个领域
结构:分类综述 + 差异化
1
2
3
2.1 [第一类相关工作] (通常是你的任务相关的模型)
2.2 [第二类相关工作] (通常是现有的 benchmark/评测方法)
2.3 [第三类相关工作] (可选,e.g., 你用到的技术如 LLM-as-Judge)
每小节的写法模板
1
2
3
4
5
6
7
8
[主题句:概括这个方向]
Early work in [方向] explored [早期方法] [cite], which [做了什么].
More recently, [代表性工作] [cite, cite] proposed [新方法],
achieving [成就]. [后续工作] [cite] further extended this by [扩展点].
[差异化句(必须有!)]
However, [这些工作/benchmark] [具体缺陷,用动词短语],
failing to [你关注的维度]. In contrast, our work [你的不同之处].
Related Work 的三个层次
| 层次 | 做法 | 效果 |
|---|---|---|
| 初级 | 列举”谁做了什么” | 像综述,没有观点 |
| 中级 | 按主题分组 + 说明缺陷 | 有结构,有观点 |
| 高级 | 通过对比定位自己的贡献 | 读者看完就明白你的 novelty |
目标是中级到高级之间。 你需要做的关键事情:每个小节结尾,明确说明”这些工作与我们的差异”。
引用策略
- 引用多: 现有 benchmark 列举时(要证明你了解领域)
- 引用少: 自己的方法描述时(重点在你的工作)
- 引用顺序: 通常按时间顺序,或按重要性
常见错误
❌ “A proposed X. B proposed Y. C proposed Z.”(流水账,没有观点)
✅ “Early approaches [A, B] relied on X, which suffered from Y. Recent methods [C, D] addressed this by Z, yet they still overlook [你的贡献点].”(有逻辑,有观点)
3.4 Method / Benchmark 章节
目的
让读者理解你的方法/benchmark是什么、为什么这样设计,并相信这个设计是合理的。
核心写作原则:每个设计决策都要有动机
这是初学者最容易犯的错误:只写”我们做了X”,不写”为什么这样做”。
❌ “We collect videos from YouTube.” ✅ “We collect videos from YouTube, as it provides diverse real-world content covering a wide range of scenes and editing scenarios, which is essential for benchmark generalizability.”
Benchmark 论文的 Method 章节结构
1
2
3
4
5
6
3.1 Overview / Design Philosophy ← 整体设计理念(最重要)
3.2 Data Collection ← 数据从哪来,怎么筛选
3.3 Annotation / Construction ← 数据怎么标注/构建
3.4 Taxonomy / Categories ← 分类体系(核心贡献之一)
3.5 Evaluation Framework ← 怎么评测
3.6 Dataset Statistics ← 数据集统计(含对比表)
3.4.1 Overview 段落怎么写
Overview 要回答三个问题:
- 你的 benchmark 整体上是什么?
- 设计的核心原则是什么?(为什么这样设计)
- 和现有 benchmark 的核心区别是什么?
1
2
3
4
5
6
[名字] is designed around three core principles:
(1) [原则1], which ensures [好处];
(2) [原则2], addressing the limitation of [现有方法的问题];
(3) [原则3], enabling [新能力].
Figure 1 illustrates the overall pipeline of [名字].
3.4.2 数据收集段落
必须回答的四个问题:
1
2
3
4
5
6
7
8
9
10
11
[来源] We collect/curate [数据类型] from [来源],
which [为什么选这个来源].
[规模] An initial pool of [N] [samples] is gathered.
[过滤] To ensure [质量目标], we apply the following criteria:
(i) [标准1], (ii) [标准2], (iii) [标准3].
Videos/samples failing any criterion are discarded.
[结果] After filtering, [M] [samples] remain,
spanning [K] [categories/scenes/etc].
每个过滤标准都要给动机:
1
2
We exclude videos shorter than 3 seconds, as they provide
insufficient temporal context for meaningful editing evaluation.
3.4.3 标注流程段落
这里要展示”质量控制”,让读者相信你的数据质量高:
1
2
3
4
5
6
7
8
9
10
11
[谁标注] Annotations are collected from [N] trained annotators
with backgrounds in [领域].
[流程] Each [sample] is annotated by [M] annotators independently,
followed by [审核/聚合方式].
[质量] Inter-annotator agreement reaches [κ/percentage],
indicating [high/substantial] consistency.
[审核] All annotations are further reviewed by [专家/自动方法]
to ensure [质量标准].
3.4.4 图示的重要性
Method 章节一定要有至少一张流程图(Pipeline Figure)。
好的 Pipeline Figure 应该:
- 展示整个数据收集/标注流程
- 用箭头表示数据流动
- 包含每个阶段的输入输出
- 标注关键数字(如每个阶段的数据量)
3.5 Experiments
目的
用数据证明:(1) 你的 benchmark 有挑战性,(2) 你的评测方法可靠,(3) 揭示了有价值的新发现。
整体结构
1
2
3
4.1 Experimental Setup ← 测了哪些模型,评测环境
4.2 Main Results ← 核心结果表格 + 解读
4.3 Further Analysis ← 深入分析(多个小节)
4.1 Experimental Setup
必须包含的信息:
1
2
3
4
5
6
7
8
9
10
Models. We evaluate [N] representative models, including:
[开源模型列表] and [闭源模型列表].
These models are selected to cover [多样性说明:架构/规模/训练数据].
Implementation Details. All experiments are conducted on [硬件].
For each model, we use [推理设置:temperature, resolution, etc.].
[如果有特殊设置,单独说明]
Evaluation Metrics. We assess model performance using [指标列表].
[每个指标一句话说明它衡量什么]
4.2 Main Results
主表格的设计原则:
- 行 = 模型(按性能排序,或按类型分组)
- 列 = 你定义的评测维度 + Overall
- 最后一行或第一行:Human Performance(如果有)
主表格的文字解读必须包含:
- 整体观察:总体上哪类模型表现如何
- 具体亮点:哪个模型在哪个维度最好
- 关键发现:最重要的结论(e.g., 所有模型在某个维度都很差)
写法模板:
1
2
3
4
5
6
7
8
9
10
[整体观察] Table 1 presents the main results on [名字].
Overall, [整体趋势,e.g., proprietary models outperform
open-source counterparts, yet all models struggle with X].
[具体发现1] Notably, [最好的模型] achieves the highest overall
score of [N], while [最差的模型] lags significantly behind at [M].
[关键发现] Across all models, performance drops substantially on
[最难的类别], with an average accuracy of only [N%], suggesting
that [这意味着什么].
4.3 Further Analysis(各小节写法)
每个 Analysis 小节都遵循同一个逻辑结构:
1
2
3
4
5
6
7
8
9
[提出问题] We investigate [具体问题] to understand [为什么重要].
[实验设计] To this end, we [做了什么实验/对比].
[结果描述] As shown in [Figure/Table X], [具体结果].
[解读分析] This suggests/indicates that [原因/意义].
[结论] Based on these findings, we conclude that [结论].
Judge Rationality Analysis 写法
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
提问:我们的LLM judge可靠吗?
[动机] Reliable evaluation is critical for benchmark validity.
We thus examine whether our LLM-based judge produces ratings
consistent with human judgment.
[设计] We randomly sample [N] cases from [名字] and collect
human ratings from [M] trained annotators.
[结果] As shown in Table X, our judge achieves a Pearson correlation
of [r] and Spearman correlation of [ρ] with human ratings,
with an inter-annotator agreement of [κ].
[结论] The high correlation (r > 0.8) demonstrates that our
LLM judge reliably approximates human judgment, validating
its use as a scalable evaluation method.
Effect of Edit Aggregation 写法
1
2
3
4
5
6
7
8
9
10
11
12
提问:多操作分数怎么合并最合理?
[动机] When an instruction involves K edit operations, the final
score can be computed via different aggregation strategies.
We examine how this choice affects evaluation outcomes.
[设计] We compare three strategies: (1) Mean, (2) Min, (3) [其他].
[结果] As shown in Figure X, [策略A] yields [结果],
while [策略B] is more sensitive to [某个因素].
[结论] We adopt [推荐策略] as the default, as it [理由].
Case Analysis & Error Analysis 写法
1
2
3
4
5
6
7
8
9
Case Analysis 结构:
- 选2-3个典型案例(好的/坏的/edge case)
- 每个案例:展示输入指令 + 模型输出 + 分析原因
Error Analysis 结构:
1. 定义错误类型(建议3-5类)
2. 给每类举一个具体例子
3. 统计各类错误的占比(用饼图或表格)
4. 分析主要错误原因
错误类型分类的建议方式:
- 按原因分类:指令理解错误 / 执行错误 / 过度编辑 / 时序不一致
- 按严重程度分类:完全失败 / 部分完成 / 质量差
- 通常用原因分类,因为对未来研究更有指导意义
3.6 Conclusion
目的
给论文一个干净的结尾,让读者带走最重要的信息。
结构:三段法
1
2
3
4
5
6
7
8
9
段落1 [总结] We presented [名字], [一句话描述].
[核心设计的1-2句概括]
段落2 [发现] Through evaluation of [N] models, we found that
[最重要的1-2个结论]. [具体数字或例子]
段落3 [展望] Despite [局限性], [名字] provides [价值].
We hope this work [对领域的期望].
Future work includes [1-2个未来方向].
Conclusion 的写作要点
- 不要重复 Abstract 的原话,要更精炼、更有深度
- 局限性要诚实写:审稿人知道你的工作有局限,你主动说比被问到好
- 未来工作不要太多:2-3条就够,每条一句话
4. 句式武器库:可直接使用的模板
使用方法: 找到对应场景,把 [括号内容] 替换为你的内容。
4.1 Background / Motivation 句式
1
2
3
4
5
6
7
8
9
10
[领域] has witnessed remarkable progress, with [技术类型]
demonstrating impressive [能力] in [任务].
Despite these advances, a critical challenge remains: [具体问题].
The rapid development of [技术] has enabled [应用], yet the
question of [你关注的能力] remains largely unexplored.
While recent [模型] excel at [简单任务], they often struggle
with [复杂任务], which is essential for [实际应用].
4.2 Problem Statement / Gap 句式
1
2
3
4
5
6
7
8
9
[现有方法] primarily [做了什么], largely overlooking [你关注的].
Current [benchmark/methods] fail to capture [具体维度],
leaving [具体问题] unanswered.
This gap between [现有方法关注的] and [实际需要的] motivates
the need for [你的工作].
To the best of our knowledge, no existing work has [你的贡献].
4.3 Our Contribution 句式
1
2
3
4
5
6
To address this gap, we introduce [名字], [一句话描述].
We propose [名字], which [做了什么], enabling [好处].
In this paper, we take the first step toward [大目标]
by [你的具体贡献].
4.4 Related Work 句式
1
2
3
4
5
6
7
8
9
10
[作者] [cite] proposed [方法], which [做了什么].
While effective for [应用场景], this approach [局限].
A line of work [cite, cite, cite] focuses on [方向],
achieving [成就]. However, [这些工作共同的局限].
In contrast to [前人工作], our [名字] [你的不同之处].
Unlike [比较对象] that [他们的做法], we [你的做法],
which [优势].
4.5 Experiment Result 句式
1
2
3
4
5
6
7
8
9
10
11
12
13
14
As shown in Table [N], [观察].
[模型A] achieves the best performance on [指标],
outperforming [基线] by [N] points.
Notably, all evaluated models struggle with [难点],
with an average score of only [N%].
We observe a consistent trend across all models: [趋势描述].
This suggests that [结论].
These results indicate that [发现], highlighting the
importance of [你的贡献].
4.6 Analysis 句式
1
2
3
4
5
6
7
8
9
10
11
We further investigate [问题] to understand [动机].
To this end, we [实验设计].
Figure [N] shows [描述], revealing that [发现].
Interestingly, [反直觉的发现], which can be attributed to [原因].
This finding is consistent with [其他证据/直觉].
Based on these observations, we conclude that [结论].
4.7 Limitation 句式
1
2
3
4
5
6
7
Our work has several limitations. First, [局限1].
Second, [局限2]. We leave [未来工作] for future work.
While [名字] provides [好处], it is limited to [范围限制].
The current version of [名字] focuses on [你关注的],
leaving [其他维度] unexplored.
5. Benchmark 论文专项指南
5.1 Benchmark 论文的独特挑战
Benchmark 论文最常被审稿人质疑的三个问题:
| 质疑 | 你需要证明的 |
|---|---|
| “为什么需要新 benchmark?” | 现有 benchmark 有具体的、定量的缺陷 |
| “这个 benchmark 质量如何?” | 数据质量保证、标注一致性指标 |
| “这个 benchmark 有意义吗?” | 揭示了现有模型真实存在的不足,且这个不足对领域重要 |
5.2 Benchmark 论文的核心论证链
1
2
3
4
5
6
7
8
9
现有 benchmark 有缺陷(定量证明)
↓
我们的 benchmark 填补了这个缺陷(设计说明)
↓
我们的 benchmark 质量高(标注质量证明)
↓
用它评测发现了有价值的结论(实验)
↓
这些结论对社区有指导意义(分析)
5.3 Benchmark 对比表的设计
对比表是 Benchmark 论文中最重要的单个元素,必须精心设计。
列的选择原则: 选择你的 benchmark 在其中有优势的维度
典型对比维度:
| 维度 | 说明 |
|---|---|
| #Videos / #Samples | 规模 |
| #Instructions | 指令数量 |
| Instruction Type | Simple / Complex / Multi-op |
| #Categories | 类别数 |
| Auto Metrics | 是否有自动评测 |
| LLM Judge | 是否用LLM评测 |
| Human Annotation | 是否有人工标注 |
| Open Source | 是否开源 |
你在表中的行必须在关键维度上是绿色/✓,这是对比表的核心目的。
5.4 “数据质量” 的证明方式
| 质量维度 | 证明方式 |
|---|---|
| 标注一致性 | Inter-annotator agreement (Cohen’s κ > 0.6 = substantial) |
| 难度合理性 | 人类在 benchmark 上的分数(应该高于模型) |
| 多样性 | 统计图:类别分布、长度分布、难度分布 |
| 真实性 | 来源说明 + 过滤标准 |
5.5 实验设计:让结果”有故事性”
Benchmark 论文的实验不只是”测了N个模型,结果如下”,要从结果中提炼有价值的发现:
好的发现应该是:
- 反直觉的(”更大的模型不一定更好”)
- 有规律的(”随着指令复杂度增加,所有模型性能线性下降”)
- 有指导意义的(”模型在X类型任务上系统性失败,这是未来研究方向”)
从结果到发现的思路:
1
2
3
4
5
6
7
8
9
原始结果:Model A = 45%, Model B = 42%, Model C = 38%
浅层解读:Model A 最好。
(这不是发现,这是结果)
深层发现:尽管模型规模相差 3x,性能差距不超过 7%,
说明在复杂指令场景下,模型规模不是瓶颈,
而是[对指令的理解/时序建模/某个具体能力]。
(这才是发现)
6. 写作流程与工程化习惯
6.1 整体写作流程
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Phase 1: 准备(写作前)
├── 整理所有实验结果(表格化)
├── 确定核心发现(3-5条)
├── 收集参考文献(建议用 Zotero/Mendeley 管理)
└── 画出论文结构大纲(每章每节的主题句)
Phase 2: 骨架(第1天-第3天)
├── 写每章的节标题和主题句
├── 完成 Method 章节草稿
└── 完成 Experiment 章节草稿(包括所有表格)
Phase 3: 填充(第4天-第7天)
├── 完成 Related Work
├── 完成 Introduction
└── 写 Conclusion + Abstract
Phase 4: 打磨(第8天-第10天)
├── 通读全文,检查逻辑连贯性
├── 检查所有数字是否一致
├── 检查图表是否自洽
└── 语言润色(grammar + 流畅度)
6.2 段落写作的 PEEL 结构
每个段落都应该遵循 PEEL 结构:
1
2
3
4
P - Point: 这段的核心观点(主题句,通常是第一句)
E - Evidence: 支撑这个观点的证据(引用/数据/例子)
E - Explain: 解释这个证据为什么支撑你的观点
L - Link: 连接到下一段或总结这一段的意义
示例:
1
2
3
4
5
6
7
8
9
10
11
[P] Existing video editing benchmarks primarily focus on single-operation
instructions.
[E] For example, TGVE [cite] contains only style transfer and color editing
tasks, while BalanceCC [cite] evaluates models on object-level edits.
[E2] As shown in Table 1, none of the existing benchmarks include
multi-operation instructions.
[Explain] This limitation means that models can achieve high scores by
mastering simple edit types, without demonstrating the compositional
understanding required for real-world use cases.
[L] To address this, CoVEBench introduces complex, multi-operation
instructions as the primary evaluation target.
6.3 实用写作技巧
技巧1:先写”丑草稿”,不要边写边改
第一遍写作的目标是把内容写完,不是把每句话写漂亮。 先用中文或简单英文把意思写出来,再润色。
技巧2:用”占位符”保持写作流动
当你写到某个需要查数据或查文献的地方,用占位符继续写,不要停下来查:
1
2
"As shown by [TODO: cite TokenFlow], temporal consistency is a key challenge."
"Our benchmark contains [TODO: N] samples."
写完后统一填充。
技巧3:每天写完后,检查”逻辑连接词”
逻辑连接词是论文流畅度的关键:
| 关系 | 连接词 |
|---|---|
| 递进 | Furthermore, Moreover, In addition |
| 转折 | However, Nevertheless, Despite this |
| 因果 | Therefore, Thus, Consequently, As a result |
| 举例 | For example, For instance, Specifically |
| 总结 | In summary, Overall, Taken together |
| 对比 | In contrast, Unlike, While X, Y |
技巧4:数字一致性检查
论文中的数字(样本数、模型数、指标值)必须在全文保持一致。 写完后,搜索所有数字,逐一核对。
技巧5:给每张图表写”自洽的 caption”
Caption 的原则:读者只看图+caption,不看正文,也能理解这张图的含义。
好的 caption 结构:
1
Figure 1: [图的内容描述]. [关键观察]. [结论/意义].
示例:
1
2
3
4
5
Figure 1: Overview of the CoVEBench construction pipeline.
Videos are collected from [来源] and filtered by [标准].
Instructions are generated and annotated through a
three-stage process, yielding [N] high-quality samples
across [M] edit categories.
6.4 合作写作的最佳实践
当多人合写一篇论文时(就像你们团队):
- 统一术语表:在开始写之前,确定关键术语的写法(e.g., “multi-operation” 还是 “complex”?”LLM judge” 还是 “LLM-as-Judge”?)
- 维护一个共享的数字文档:所有关键数字(样本数、指标值、模型数)集中管理,避免各人写不同数字
- 写完一节就 review:不要等全部写完再互相看,节节 review 效率更高
- 不要担心文风不一致:最后由一个人通读统一文风
7. 常见误区与反模式
7.1 Abstract 误区
| 误区 | 正确做法 |
|---|---|
| 不给具体数字 | 每个关键声明都配数字 |
| 只说”我们做了X”,不说”我们发现了Y” | 结论先行,告诉读者最重要的发现 |
| 引用文献 | Abstract 不引用文献 |
| 超过 250 词 | 精炼,每句话都有信息量 |
7.2 Introduction 误区
| 误区 | 正确做法 |
|---|---|
| 背景铺垫太长(超过2段) | 快速聚焦到你的问题 |
| 痛点描述太模糊(”现有方法不够好”) | 具体说:在什么维度上、有什么缺陷、导致什么问题 |
| Contribution 没有动词 | 每条以动词开头(We propose / We introduce / We reveal) |
| Contribution 没有数字 | “我们构建了一个大规模 benchmark” → “我们构建了包含1400个样本的 benchmark” |
7.3 Related Work 误区
| 误区 | 正确做法 |
|---|---|
| 写成流水账(A做了X,B做了Y,C做了Z) | 按主题分组,每组结尾说明与你的差异 |
| 没有”However/In contrast”句 | 每小节结尾必须有一句说明你的工作与现有工作的不同 |
| 只引用无关紧要的工作 | 聚焦于直接相关的工作,其他可以略提 |
| Related Work 太短(<3小节) | 至少覆盖模型、benchmark、评测方法三个维度 |
7.4 Method 误区
| 误区 | 正确做法 |
|---|---|
| 只写”我们做了X”,不写”为什么” | 每个设计决策配动机说明 |
| 没有 Pipeline Figure | Method 章节必须有一张总览图 |
| 数据统计不完整 | 给出样本数、类别数、平均长度等完整统计 |
| 没有对比表 | Benchmark 论文必须有与现有 benchmark 的对比表 |
7.5 Experiment 误区
| 误区 | 正确做法 |
|---|---|
| 只给结果,不给解读 | 每个结果后都要有1-2句分析 |
| 主表格没有 Human Performance | 尽量加入人类表现作为上界 |
| Analysis 小节没有提出”问题” | 每个 Analysis 小节第一句就是要回答的问题 |
| 错误分析只分类,不分析原因 | 分析每类错误的成因,这是对社区最有价值的部分 |
7.6 语言层面的误区
| 误区 | 正确做法 |
|---|---|
| 段落太长(>10行) | 超过8行考虑分段 |
| 句子太长(>40词) | 拆成2-3句 |
| 被动语态过多 | 主动语态更有力(We propose vs. A method is proposed) |
| 形容词堆砌(very, highly, significantly) | 用数字代替形容词 |
| 口语化表达 | 学术论文用正式书面语 |
附录:速查表与检查清单
A. 写作前检查清单
在开始写任何章节前,先回答这些问题:
- 这章的核心目的是什么?(一句话概括)
- 这章要说服读者相信什么?
- 我有哪些证据/数据支撑这个观点?
- 读完这章,读者会想问什么问题?(下章要回答)
B. 写作后检查清单
写完每章后逐项检查:
内容完整性
- 每个设计决策都有动机说明
- 所有数字是否和实验结果一致
- 每个 claim 都有引用或数据支撑
- 图表 caption 独立可读
逻辑连贯性
- 各段之间有逻辑连接词
- 每章结尾和下章开头衔接自然
- Related Work 的每小节有”However”句
语言质量
- 没有超过 40 词的长句
- 主动语态为主
- 没有拼写错误(用工具检查)
- 术语使用一致(全文统一)
C. 关键数字速查
每篇论文需要确认的关键数字(写作前填好,全文统一使用):
| 项目 | 数字 |
|---|---|
| Benchmark 总样本数 | |
| 视频数 | |
| 指令/任务类别数 | |
| 评测模型总数 | |
| 标注者人数 | |
| Inter-annotator agreement | |
| 最佳模型性能 | |
| 人类性能(如有) |
D. Benchmark 论文必备要素
| 要素 | 位置 | 是否完成 |
|---|---|---|
| 现有 benchmark 对比表 | §3 | [ ] |
| Pipeline 总览图 | §3 | [ ] |
| 数据统计图(分布) | §3 | [ ] |
| 标注一致性指标 | §3 | [ ] |
| 主实验结果表 | §4 | [ ] |
| Judge 可靠性验证 | §4 | [ ] |
| 错误分析 | §4 | [ ] |
| Case Study 图 | §4 | [ ] |
E. 常用学术词汇替换
| 避免使用 | 替换为 |
|---|---|
| very good | strong / substantial / significant |
| bad | limited / insufficient / suboptimal |
| show | demonstrate / reveal / indicate |
| use | employ / leverage / adopt |
| make | construct / build / design |
| find | observe / identify / reveal |
| say | state / claim / argue / suggest |
| problem | challenge / limitation / gap |
| new | novel / proposed / introduced |
| a lot of | numerous / a substantial number of |
F. 本指南知识依赖图
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
论文写作完全指南
├── 认知层(必须先理解)
│ ├── 论文本质:说服框架
│ ├── Benchmark vs 方法论文的差异
│ └── 读者视角
│
├── 结构层(写作前规划)
│ ├── 六章论证链
│ ├── 字数分配
│ └── 写作顺序
│
├── 执行层(逐章写作)
│ ├── Abstract(最后写)
│ ├── Introduction(倒数第二写)
│ ├── Related Work(第三步写)
│ ├── Method(第一步写)
│ ├── Experiments(第二步写)
│ └── Conclusion(倒数第三写)
│
├── 工具层(写作过程中)
│ ├── 句式武器库(第4章)
│ ├── PEEL段落结构
│ └── 连接词列表
│
└── 质控层(写作后检查)
├── 误区对照表(第7章)
├── 检查清单(附录B)
└── 关键数字核对(附录C)