Post

学术论文写作上手指南

学术论文写作上手指南

从零到论文大师:系统性写作方法论

写给谁看: 第一次写论文、写过但没有系统方法论、希望真正理解”为什么这样写”而不只是模仿格式的研究者。

核心理念: 论文不是”记录你做了什么”,而是”说服读者你的工作值得存在”。掌握这一点,写作就从痛苦变成了有章可循的工程。


📖 阅读指南

知识依赖链:

1
2
3
4
5
第一章(本质认知)→ 第二章(整体结构)→ 第三章(逐章攻略)
       ↓                                         ↓
  第四章(句式武器库)              第五章(Benchmark论文专项)
       ↓
  第六章(写作流程与习惯)→ 第七章(常见误区)→ 附录(速查表)

建议阅读顺序:

  • 第一次读:通读第一、二章,建立全局观
  • 写作前:细读你要写的那章对应的第三章内容
  • 写作中:随时查第四章句式 + 第七章误区
  • 写完后:对照附录检查清单逐项核查

1. 论文的本质:一个说服框架

1.1 最重要的认知转变

大多数初学者把论文写成”实验报告”:

“我做了A,然后做了B,结果是C。”

但好论文是一个说服故事

“世界上存在问题X(读者认同)→ 现有方法有缺陷Y(读者感到痛点)→ 我们提出解法Z(读者产生兴趣)→ 数据证明Z有效(读者信服)→ 这对领域的意义是M(读者认为值得发表)”

核心洞察: 论文的每一段、每一句话,都应该服务于这条说服链。如果某段内容与这条链无关,删掉它。

1.2 你的读者是谁

理解读者,才能知道写什么、怎么写:

读者类型他们想知道什么对应章节
审稿人这个工作新在哪?实验设计是否严谨?全文,尤其 Introduction + Experiment
同领域研究者和我的工作有什么关系?能不能引用?Related Work + Method
领域外读者这个问题是什么?为什么重要?Abstract + Introduction 前半段

实用建议: 写作时,假设你的读者是”比你聪明但不了解你具体工作的同行”。他们不会猜你的意思,你必须说清楚。

1.3 Benchmark 论文 vs 方法论文的本质差异

你写的是 Benchmark 论文,它和普通方法论文有一个核心区别:

维度方法论文Benchmark 论文
核心主张“我们的方法比现有方法更好”“现有评测体系有缺陷,我们填补了它”
主要贡献新算法/新架构新数据集/新评测框架/新发现
实验目的证明方法有效用benchmark揭示现有模型的不足
成功标准SOTA 性能提升发现有价值的新结论,推动领域进步

关键洞察: Benchmark 论文的实验结果越”差”(即现有模型表现越不好),越能说明你的 benchmark 有价值——因为它揭示了一个真实存在的挑战。


2. 论文整体结构与论证链

2.1 六章结构的内在逻辑

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
┌─────────────────────────────────────────────────────────────────┐
│                     论文的论证逻辑流                              │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  Abstract    ──→  "我们做了什么,结论是什么"(先给答案)            │
│      ↓                                                           │
│  Introduction ──→  "问题是什么,为什么重要,缺口在哪,我们怎么填"   │
│      ↓                                                           │
│  Related Work ──→  "别人做了什么,为什么还不够"                    │
│      ↓                                                           │
│  Method/Bench ──→  "我们具体怎么设计的,每个决策为什么这样"         │
│      ↓                                                           │
│  Experiment   ──→  "数据证明我们的设计是正确的"                    │
│      ↓                                                           │
│  Conclusion   ──→  "总结 + 局限 + 未来方向"                       │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

重要:这六章不是独立的模块,而是一条因果链。 每章都在为下一章铺垫,读者读完每章后应该自然地想看下一章。

2.2 每章的字数参考(NeurIPS/CVPR 8页限制)

章节建议字数(words)占比
Abstract150-250~3%
Introduction500-800~15%
Related Work400-600~10%
Method/Benchmark800-1200~25%
Experiments1000-1500~35%
Conclusion150-250~5%
图表说明200-400~7%

2.3 推荐写作顺序(反直觉但正确)

1
2
3
4
5
6
7
8
写作顺序(≠ 阅读顺序):

Step 1: Method/Benchmark  ← 写你最熟悉的,建立信心
Step 2: Experiments        ← 把实验结果组织成叙事
Step 3: Related Work       ← 读文献,定位你的工作
Step 4: Introduction       ← 现在你对全文有感觉了
Step 5: Conclusion         ← 30分钟写完
Step 6: Abstract           ← 最后提炼,精确概括

为什么不从 Introduction 开始? Introduction 需要你知道全文说了什么。如果你先写 Introduction,写完后发现实验结果不对,整个 Introduction 要重写。先写 Method + Experiment,再写 Introduction,事半功倍。


3. 逐章深度写作指南

3.1 Abstract

目的

让读者在 30 秒内决定”这篇论文值不值得精读”。

结构:四步法(每步 1-3 句)

1
2
3
4
5
6
┌─────────────────────────────────────────────────────────┐
│  Step 1 [背景]    领域现状 + 这个问题为什么重要             │
│  Step 2 [痛点]    现有方法/benchmark 的具体缺陷            │
│  Step 3 [方案]    我们提出了什么(必须有具体数字)           │
│  Step 4 [发现]    主要实验结论(具体数字 or 定性结论)       │
└─────────────────────────────────────────────────────────┘

模板示例(Benchmark 论文)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
[背景] [领域] has witnessed remarkable progress, with [模型类型]
demonstrating impressive capabilities in [任务]. 

[痛点] However, existing benchmarks primarily evaluate [现有评测做了什么],
largely overlooking [你关注的维度], leaving a critical question 
unanswered: [你的核心问题].

[方案] To address this gap, we introduce [你的benchmark名], 
a [定语] benchmark comprising [数量] [样本类型] across [N] categories,
featuring [你的核心设计].

[发现] Extensive evaluation of [N] [models/systems] reveals that 
[核心发现,e.g., even state-of-the-art models struggle with X,
achieving only Y% accuracy on Z].

Abstract 写作的五个原则

  1. 数字优先:能给具体数字的地方绝不模糊。”大量样本” → “1,400 samples”
  2. 结论先行:Abstract 不是”我们做了什么”,是”我们发现了什么”
  3. 不引用文献:Abstract 中不出现 [cite]
  4. 不出现图表引用:不写 “as shown in Figure 1”
  5. 独立可读:Abstract 应该能独立成文,不依赖正文

常见错误

❌ “We propose a new benchmark for video editing evaluation.” (没有具体数字,没有说为什么需要新 benchmark)

✅ “We introduce CoVEBench, the first benchmark targeting complex, multi-operation video editing instructions, comprising X samples across Y edit categories.”


3.2 Introduction

目的

让读者理解:(1) 这个问题是什么,(2) 为什么重要,(3) 为什么现有方法不够,(4) 你做了什么,(5) 贡献是什么。

结构:漏斗型(从宽到窄)

1
2
3
4
5
6
7
8
9
10
段落 1: [背景铺垫] 领域大背景,吸引读者
         ↓
段落 2: [问题聚焦] 具体化到你要解决的子问题
         ↓
段落 3: [现有缺陷] 现有方法/benchmark 的具体不足
         (重要:要有证据,不能只说"不够好")
         ↓
段落 4: [我们的方案] 介绍你的工作(不要说太细,那是 Method 的任务)
         ↓
段落 5: [贡献列表] 3条 bullet points,动词开头

每段详细指南

段落1:背景铺垫

任务: 让领域外的读者也能理解这个问题的重要性

写法:

  • 开头用一个”大事实”吸引注意力
  • 不要太长,2-3句即可
  • 结尾引出你的具体问题

示例:

1
2
3
4
5
Video editing has emerged as a fundamental capability in content creation,
enabling users to modify visual content through natural language instructions.
Recent advances in diffusion-based models [cite, cite] have dramatically
improved the quality and controllability of video editing, bringing us closer
to practical deployment in real-world applications.

段落2:问题聚焦

任务: 把”大问题”具体化到你的研究子问题

关键: 这里要引出一个”tension”——表面上模型很强,但有一个具体问题没被解决

1
2
3
4
Despite these advances, a critical question remains: can these models
truly handle [你关注的具体能力]? While existing models excel at 
[简单任务], they are rarely evaluated on [复杂场景], 
which are essential for [实际应用].

段落3:现有缺陷(最重要的段落)

任务: 证明现有 benchmark 有具体、致命的缺陷

写法要点:

  • 用”具体化”的语言描述缺陷,不要用”不够好”这种模糊表达
  • 最好给例子或数字
  • 结构:现有方法做了什么 → 但是忽略了什么 → 导致什么问题
1
2
3
4
5
6
Existing benchmarks for video editing [cite, cite, cite] primarily 
focus on [单一操作/简单指令], assessing models on instructions 
such as "change the color of the car" or "add fog to the scene."
However, real-world editing tasks often involve [复杂的多步骤操作],
such as [具体例子]. This gap between benchmark design and practical
requirements means that [模型的真实能力无法被评测].

段落4:我们的方案

任务: 简洁介绍你的工作,埋下”悬念”让读者想看 Method 章节

1
2
3
To address this gap, we introduce [名字], [一句话描述]. 
[名字] features [核心设计1], [核心设计2], and [核心设计3],
enabling comprehensive evaluation of [你关注的能力].

段落5:贡献列表

格式严格:

1
2
3
4
5
6
7
8
In summary, our main contributions are:
• We introduce [名字], the [first/most comprehensive] benchmark 
  for [具体任务], comprising [N] [样本] across [M] [类别]. 
  [说明为什么这个设计是新的]
• We design [具体组件/评测框架], which [解决了什么问题]. 
  [给一个技术亮点]
• Through extensive evaluation of [N] state-of-the-art models, 
  we reveal [具体发现], providing [对社区的价值].

贡献条目的三要素:

  1. What:你做了什么(动词开头:We propose / We design / We conduct)
  2. How big / specific:具体规模或特点(数字!)
  3. So what:为什么重要(providing / enabling / revealing)

Introduction 写作的核心原则

原则:每个声明都需要证据。

  • “现有方法不够好” → 要列举具体的 benchmark 名字和它们的局限
  • “我们的方法更好” → 要提前预告实验结论
  • “这个问题很重要” → 要给应用场景或数据

目的

不是:向读者介绍这个领域的所有工作 :证明你的工作填补了现有工作的空白,且你了解这个领域

结构:分类综述 + 差异化

1
2
3
2.1 [第一类相关工作]  (通常是你的任务相关的模型)
2.2 [第二类相关工作]  (通常是现有的 benchmark/评测方法)
2.3 [第三类相关工作]  (可选,e.g., 你用到的技术如 LLM-as-Judge)

每小节的写法模板

1
2
3
4
5
6
7
8
[主题句:概括这个方向]
Early work in [方向] explored [早期方法] [cite], which [做了什么].
More recently, [代表性工作] [cite, cite] proposed [新方法], 
achieving [成就]. [后续工作] [cite] further extended this by [扩展点].

[差异化句(必须有!)]
However, [这些工作/benchmark] [具体缺陷,用动词短语], 
failing to [你关注的维度]. In contrast, our work [你的不同之处].
层次做法效果
初级列举”谁做了什么”像综述,没有观点
中级按主题分组 + 说明缺陷有结构,有观点
高级通过对比定位自己的贡献读者看完就明白你的 novelty

目标是中级到高级之间。 你需要做的关键事情:每个小节结尾,明确说明”这些工作与我们的差异”。

引用策略

  • 引用多: 现有 benchmark 列举时(要证明你了解领域)
  • 引用少: 自己的方法描述时(重点在你的工作)
  • 引用顺序: 通常按时间顺序,或按重要性

常见错误

“A proposed X. B proposed Y. C proposed Z.”(流水账,没有观点)

“Early approaches [A, B] relied on X, which suffered from Y. Recent methods [C, D] addressed this by Z, yet they still overlook [你的贡献点].”(有逻辑,有观点)


3.4 Method / Benchmark 章节

目的

让读者理解你的方法/benchmark是什么、为什么这样设计,并相信这个设计是合理的。

核心写作原则:每个设计决策都要有动机

这是初学者最容易犯的错误:只写”我们做了X”,不写”为什么这样做”。

❌ “We collect videos from YouTube.” ✅ “We collect videos from YouTube, as it provides diverse real-world content covering a wide range of scenes and editing scenarios, which is essential for benchmark generalizability.”

Benchmark 论文的 Method 章节结构

1
2
3
4
5
6
3.1 Overview / Design Philosophy   ← 整体设计理念(最重要)
3.2 Data Collection                ← 数据从哪来,怎么筛选
3.3 Annotation / Construction      ← 数据怎么标注/构建
3.4 Taxonomy / Categories          ← 分类体系(核心贡献之一)
3.5 Evaluation Framework           ← 怎么评测
3.6 Dataset Statistics             ← 数据集统计(含对比表)

3.4.1 Overview 段落怎么写

Overview 要回答三个问题:

  1. 你的 benchmark 整体上是什么?
  2. 设计的核心原则是什么?(为什么这样设计)
  3. 和现有 benchmark 的核心区别是什么?
1
2
3
4
5
6
[名字] is designed around three core principles:
(1) [原则1], which ensures [好处];
(2) [原则2], addressing the limitation of [现有方法的问题];
(3) [原则3], enabling [新能力].

Figure 1 illustrates the overall pipeline of [名字].

3.4.2 数据收集段落

必须回答的四个问题:

1
2
3
4
5
6
7
8
9
10
11
[来源]  We collect/curate [数据类型] from [来源], 
        which [为什么选这个来源].
        
[规模]  An initial pool of [N] [samples] is gathered.

[过滤]  To ensure [质量目标], we apply the following criteria:
        (i) [标准1], (ii) [标准2], (iii) [标准3].
        Videos/samples failing any criterion are discarded.
        
[结果]  After filtering, [M] [samples] remain, 
        spanning [K] [categories/scenes/etc].

每个过滤标准都要给动机:

1
2
We exclude videos shorter than 3 seconds, as they provide
insufficient temporal context for meaningful editing evaluation.

3.4.3 标注流程段落

这里要展示”质量控制”,让读者相信你的数据质量高:

1
2
3
4
5
6
7
8
9
10
11
[谁标注] Annotations are collected from [N] trained annotators
         with backgrounds in [领域].
         
[流程]   Each [sample] is annotated by [M] annotators independently,
         followed by [审核/聚合方式].
         
[质量]   Inter-annotator agreement reaches [κ/percentage], 
         indicating [high/substantial] consistency.
         
[审核]   All annotations are further reviewed by [专家/自动方法]
         to ensure [质量标准].

3.4.4 图示的重要性

Method 章节一定要有至少一张流程图(Pipeline Figure)。

好的 Pipeline Figure 应该:

  • 展示整个数据收集/标注流程
  • 用箭头表示数据流动
  • 包含每个阶段的输入输出
  • 标注关键数字(如每个阶段的数据量)

3.5 Experiments

目的

用数据证明:(1) 你的 benchmark 有挑战性,(2) 你的评测方法可靠,(3) 揭示了有价值的新发现。

整体结构

1
2
3
4.1 Experimental Setup    ← 测了哪些模型,评测环境
4.2 Main Results          ← 核心结果表格 + 解读
4.3 Further Analysis      ← 深入分析(多个小节)

4.1 Experimental Setup

必须包含的信息:

1
2
3
4
5
6
7
8
9
10
Models. We evaluate [N] representative models, including:
[开源模型列表] and [闭源模型列表].
These models are selected to cover [多样性说明:架构/规模/训练数据].

Implementation Details. All experiments are conducted on [硬件].
For each model, we use [推理设置:temperature, resolution, etc.].
[如果有特殊设置,单独说明]

Evaluation Metrics. We assess model performance using [指标列表].
[每个指标一句话说明它衡量什么]

4.2 Main Results

主表格的设计原则:

  • 行 = 模型(按性能排序,或按类型分组)
  • 列 = 你定义的评测维度 + Overall
  • 最后一行或第一行:Human Performance(如果有)

主表格的文字解读必须包含:

  1. 整体观察:总体上哪类模型表现如何
  2. 具体亮点:哪个模型在哪个维度最好
  3. 关键发现:最重要的结论(e.g., 所有模型在某个维度都很差)

写法模板:

1
2
3
4
5
6
7
8
9
10
[整体观察] Table 1 presents the main results on [名字].
Overall, [整体趋势,e.g., proprietary models outperform
open-source counterparts, yet all models struggle with X].

[具体发现1] Notably, [最好的模型] achieves the highest overall 
score of [N], while [最差的模型] lags significantly behind at [M].

[关键发现] Across all models, performance drops substantially on
[最难的类别], with an average accuracy of only [N%], suggesting
that [这意味着什么].

4.3 Further Analysis(各小节写法)

每个 Analysis 小节都遵循同一个逻辑结构:

1
2
3
4
5
6
7
8
9
[提出问题]   We investigate [具体问题] to understand [为什么重要].

[实验设计]   To this end, we [做了什么实验/对比].

[结果描述]   As shown in [Figure/Table X], [具体结果].

[解读分析]   This suggests/indicates that [原因/意义].

[结论]       Based on these findings, we conclude that [结论].

Judge Rationality Analysis 写法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
提问:我们的LLM judge可靠吗?

[动机] Reliable evaluation is critical for benchmark validity.
We thus examine whether our LLM-based judge produces ratings
consistent with human judgment.

[设计] We randomly sample [N] cases from [名字] and collect
human ratings from [M] trained annotators. 

[结果] As shown in Table X, our judge achieves a Pearson correlation
of [r] and Spearman correlation of [ρ] with human ratings,
with an inter-annotator agreement of [κ].

[结论] The high correlation (r > 0.8) demonstrates that our
LLM judge reliably approximates human judgment, validating
its use as a scalable evaluation method.

Effect of Edit Aggregation 写法

1
2
3
4
5
6
7
8
9
10
11
12
提问:多操作分数怎么合并最合理?

[动机] When an instruction involves K edit operations, the final
score can be computed via different aggregation strategies.
We examine how this choice affects evaluation outcomes.

[设计] We compare three strategies: (1) Mean, (2) Min, (3) [其他].

[结果] As shown in Figure X, [策略A] yields [结果],
while [策略B] is more sensitive to [某个因素].

[结论] We adopt [推荐策略] as the default, as it [理由].

Case Analysis & Error Analysis 写法

1
2
3
4
5
6
7
8
9
Case Analysis 结构:
- 选2-3个典型案例(好的/坏的/edge case)
- 每个案例:展示输入指令 + 模型输出 + 分析原因

Error Analysis 结构:
1. 定义错误类型(建议3-5类)
2. 给每类举一个具体例子
3. 统计各类错误的占比(用饼图或表格)
4. 分析主要错误原因

错误类型分类的建议方式:

  • 原因分类:指令理解错误 / 执行错误 / 过度编辑 / 时序不一致
  • 严重程度分类:完全失败 / 部分完成 / 质量差
  • 通常用原因分类,因为对未来研究更有指导意义

3.6 Conclusion

目的

给论文一个干净的结尾,让读者带走最重要的信息。

结构:三段法

1
2
3
4
5
6
7
8
9
段落1 [总结]    We presented [名字], [一句话描述].
               [核心设计的1-2句概括]
               
段落2 [发现]    Through evaluation of [N] models, we found that
               [最重要的1-2个结论]. [具体数字或例子]
               
段落3 [展望]    Despite [局限性], [名字] provides [价值].
               We hope this work [对领域的期望].
               Future work includes [1-2个未来方向].

Conclusion 的写作要点

  • 不要重复 Abstract 的原话,要更精炼、更有深度
  • 局限性要诚实写:审稿人知道你的工作有局限,你主动说比被问到好
  • 未来工作不要太多:2-3条就够,每条一句话

4. 句式武器库:可直接使用的模板

使用方法: 找到对应场景,把 [括号内容] 替换为你的内容。

4.1 Background / Motivation 句式

1
2
3
4
5
6
7
8
9
10
[领域] has witnessed remarkable progress, with [技术类型] 
demonstrating impressive [能力] in [任务].

Despite these advances, a critical challenge remains: [具体问题].

The rapid development of [技术] has enabled [应用], yet the 
question of [你关注的能力] remains largely unexplored.

While recent [模型] excel at [简单任务], they often struggle 
with [复杂任务], which is essential for [实际应用].

4.2 Problem Statement / Gap 句式

1
2
3
4
5
6
7
8
9
[现有方法] primarily [做了什么], largely overlooking [你关注的].

Current [benchmark/methods] fail to capture [具体维度], 
leaving [具体问题] unanswered.

This gap between [现有方法关注的] and [实际需要的] motivates 
the need for [你的工作].

To the best of our knowledge, no existing work has [你的贡献].

4.3 Our Contribution 句式

1
2
3
4
5
6
To address this gap, we introduce [名字], [一句话描述].

We propose [名字], which [做了什么], enabling [好处].

In this paper, we take the first step toward [大目标] 
by [你的具体贡献].
1
2
3
4
5
6
7
8
9
10
[作者] [cite] proposed [方法], which [做了什么].
While effective for [应用场景], this approach [局限].

A line of work [cite, cite, cite] focuses on [方向],
achieving [成就]. However, [这些工作共同的局限].

In contrast to [前人工作], our [名字] [你的不同之处].

Unlike [比较对象] that [他们的做法], we [你的做法],
which [优势].

4.5 Experiment Result 句式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
As shown in Table [N], [观察].

[模型A] achieves the best performance on [指标], 
outperforming [基线] by [N] points.

Notably, all evaluated models struggle with [难点],
with an average score of only [N%].

We observe a consistent trend across all models: [趋势描述].

This suggests that [结论].

These results indicate that [发现], highlighting the 
importance of [你的贡献].

4.6 Analysis 句式

1
2
3
4
5
6
7
8
9
10
11
We further investigate [问题] to understand [动机].

To this end, we [实验设计].

Figure [N] shows [描述], revealing that [发现].

Interestingly, [反直觉的发现], which can be attributed to [原因].

This finding is consistent with [其他证据/直觉].

Based on these observations, we conclude that [结论].

4.7 Limitation 句式

1
2
3
4
5
6
7
Our work has several limitations. First, [局限1].
Second, [局限2]. We leave [未来工作] for future work.

While [名字] provides [好处], it is limited to [范围限制].

The current version of [名字] focuses on [你关注的],
leaving [其他维度] unexplored.

5. Benchmark 论文专项指南

5.1 Benchmark 论文的独特挑战

Benchmark 论文最常被审稿人质疑的三个问题:

质疑你需要证明的
“为什么需要新 benchmark?”现有 benchmark 有具体的、定量的缺陷
“这个 benchmark 质量如何?”数据质量保证、标注一致性指标
“这个 benchmark 有意义吗?”揭示了现有模型真实存在的不足,且这个不足对领域重要

5.2 Benchmark 论文的核心论证链

1
2
3
4
5
6
7
8
9
现有 benchmark 有缺陷(定量证明)
           ↓
我们的 benchmark 填补了这个缺陷(设计说明)
           ↓
我们的 benchmark 质量高(标注质量证明)
           ↓
用它评测发现了有价值的结论(实验)
           ↓
这些结论对社区有指导意义(分析)

5.3 Benchmark 对比表的设计

对比表是 Benchmark 论文中最重要的单个元素,必须精心设计。

列的选择原则: 选择你的 benchmark 在其中有优势的维度

典型对比维度:

维度说明
#Videos / #Samples规模
#Instructions指令数量
Instruction TypeSimple / Complex / Multi-op
#Categories类别数
Auto Metrics是否有自动评测
LLM Judge是否用LLM评测
Human Annotation是否有人工标注
Open Source是否开源

你在表中的行必须在关键维度上是绿色/✓,这是对比表的核心目的。

5.4 “数据质量” 的证明方式

质量维度证明方式
标注一致性Inter-annotator agreement (Cohen’s κ > 0.6 = substantial)
难度合理性人类在 benchmark 上的分数(应该高于模型)
多样性统计图:类别分布、长度分布、难度分布
真实性来源说明 + 过滤标准

5.5 实验设计:让结果”有故事性”

Benchmark 论文的实验不只是”测了N个模型,结果如下”,要从结果中提炼有价值的发现

好的发现应该是:

  • 反直觉的(”更大的模型不一定更好”)
  • 有规律的(”随着指令复杂度增加,所有模型性能线性下降”)
  • 有指导意义的(”模型在X类型任务上系统性失败,这是未来研究方向”)

从结果到发现的思路:

1
2
3
4
5
6
7
8
9
原始结果:Model A = 45%, Model B = 42%, Model C = 38%

浅层解读:Model A 最好。
(这不是发现,这是结果)

深层发现:尽管模型规模相差 3x,性能差距不超过 7%,
          说明在复杂指令场景下,模型规模不是瓶颈,
          而是[对指令的理解/时序建模/某个具体能力]。
(这才是发现)

6. 写作流程与工程化习惯

6.1 整体写作流程

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Phase 1: 准备(写作前)
├── 整理所有实验结果(表格化)
├── 确定核心发现(3-5条)
├── 收集参考文献(建议用 Zotero/Mendeley 管理)
└── 画出论文结构大纲(每章每节的主题句)

Phase 2: 骨架(第1天-第3天)
├── 写每章的节标题和主题句
├── 完成 Method 章节草稿
└── 完成 Experiment 章节草稿(包括所有表格)

Phase 3: 填充(第4天-第7天)
├── 完成 Related Work
├── 完成 Introduction
└── 写 Conclusion + Abstract

Phase 4: 打磨(第8天-第10天)
├── 通读全文,检查逻辑连贯性
├── 检查所有数字是否一致
├── 检查图表是否自洽
└── 语言润色(grammar + 流畅度)

6.2 段落写作的 PEEL 结构

每个段落都应该遵循 PEEL 结构:

1
2
3
4
P - Point:    这段的核心观点(主题句,通常是第一句)
E - Evidence: 支撑这个观点的证据(引用/数据/例子)
E - Explain:  解释这个证据为什么支撑你的观点
L - Link:     连接到下一段或总结这一段的意义

示例:

1
2
3
4
5
6
7
8
9
10
11
[P] Existing video editing benchmarks primarily focus on single-operation 
    instructions. 
[E] For example, TGVE [cite] contains only style transfer and color editing 
    tasks, while BalanceCC [cite] evaluates models on object-level edits.
[E2] As shown in Table 1, none of the existing benchmarks include 
    multi-operation instructions.
[Explain] This limitation means that models can achieve high scores by 
    mastering simple edit types, without demonstrating the compositional 
    understanding required for real-world use cases.
[L] To address this, CoVEBench introduces complex, multi-operation 
    instructions as the primary evaluation target.

6.3 实用写作技巧

技巧1:先写”丑草稿”,不要边写边改

第一遍写作的目标是把内容写完,不是把每句话写漂亮。 先用中文或简单英文把意思写出来,再润色。

技巧2:用”占位符”保持写作流动

当你写到某个需要查数据或查文献的地方,用占位符继续写,不要停下来查:

1
2
"As shown by [TODO: cite TokenFlow], temporal consistency is a key challenge."
"Our benchmark contains [TODO: N] samples."

写完后统一填充。

技巧3:每天写完后,检查”逻辑连接词”

逻辑连接词是论文流畅度的关键:

关系连接词
递进Furthermore, Moreover, In addition
转折However, Nevertheless, Despite this
因果Therefore, Thus, Consequently, As a result
举例For example, For instance, Specifically
总结In summary, Overall, Taken together
对比In contrast, Unlike, While X, Y

技巧4:数字一致性检查

论文中的数字(样本数、模型数、指标值)必须在全文保持一致。 写完后,搜索所有数字,逐一核对。

技巧5:给每张图表写”自洽的 caption”

Caption 的原则:读者只看图+caption,不看正文,也能理解这张图的含义。

好的 caption 结构:

1
Figure 1: [图的内容描述]. [关键观察]. [结论/意义].

示例:

1
2
3
4
5
Figure 1: Overview of the CoVEBench construction pipeline. 
Videos are collected from [来源] and filtered by [标准]. 
Instructions are generated and annotated through a 
three-stage process, yielding [N] high-quality samples 
across [M] edit categories.

6.4 合作写作的最佳实践

当多人合写一篇论文时(就像你们团队):

  1. 统一术语表:在开始写之前,确定关键术语的写法(e.g., “multi-operation” 还是 “complex”?”LLM judge” 还是 “LLM-as-Judge”?)
  2. 维护一个共享的数字文档:所有关键数字(样本数、指标值、模型数)集中管理,避免各人写不同数字
  3. 写完一节就 review:不要等全部写完再互相看,节节 review 效率更高
  4. 不要担心文风不一致:最后由一个人通读统一文风

7. 常见误区与反模式

7.1 Abstract 误区

误区正确做法
不给具体数字每个关键声明都配数字
只说”我们做了X”,不说”我们发现了Y”结论先行,告诉读者最重要的发现
引用文献Abstract 不引用文献
超过 250 词精炼,每句话都有信息量

7.2 Introduction 误区

误区正确做法
背景铺垫太长(超过2段)快速聚焦到你的问题
痛点描述太模糊(”现有方法不够好”)具体说:在什么维度上、有什么缺陷、导致什么问题
Contribution 没有动词每条以动词开头(We propose / We introduce / We reveal)
Contribution 没有数字“我们构建了一个大规模 benchmark” → “我们构建了包含1400个样本的 benchmark”
误区正确做法
写成流水账(A做了X,B做了Y,C做了Z)按主题分组,每组结尾说明与你的差异
没有”However/In contrast”句每小节结尾必须有一句说明你的工作与现有工作的不同
只引用无关紧要的工作聚焦于直接相关的工作,其他可以略提
Related Work 太短(<3小节)至少覆盖模型、benchmark、评测方法三个维度

7.4 Method 误区

误区正确做法
只写”我们做了X”,不写”为什么”每个设计决策配动机说明
没有 Pipeline FigureMethod 章节必须有一张总览图
数据统计不完整给出样本数、类别数、平均长度等完整统计
没有对比表Benchmark 论文必须有与现有 benchmark 的对比表

7.5 Experiment 误区

误区正确做法
只给结果,不给解读每个结果后都要有1-2句分析
主表格没有 Human Performance尽量加入人类表现作为上界
Analysis 小节没有提出”问题”每个 Analysis 小节第一句就是要回答的问题
错误分析只分类,不分析原因分析每类错误的成因,这是对社区最有价值的部分

7.6 语言层面的误区

误区正确做法
段落太长(>10行)超过8行考虑分段
句子太长(>40词)拆成2-3句
被动语态过多主动语态更有力(We propose vs. A method is proposed)
形容词堆砌(very, highly, significantly)用数字代替形容词
口语化表达学术论文用正式书面语

附录:速查表与检查清单

A. 写作前检查清单

在开始写任何章节前,先回答这些问题:

  • 这章的核心目的是什么?(一句话概括)
  • 这章要说服读者相信什么?
  • 我有哪些证据/数据支撑这个观点?
  • 读完这章,读者会想问什么问题?(下章要回答)

B. 写作后检查清单

写完每章后逐项检查:

内容完整性

  • 每个设计决策都有动机说明
  • 所有数字是否和实验结果一致
  • 每个 claim 都有引用或数据支撑
  • 图表 caption 独立可读

逻辑连贯性

  • 各段之间有逻辑连接词
  • 每章结尾和下章开头衔接自然
  • Related Work 的每小节有”However”句

语言质量

  • 没有超过 40 词的长句
  • 主动语态为主
  • 没有拼写错误(用工具检查)
  • 术语使用一致(全文统一)

C. 关键数字速查

每篇论文需要确认的关键数字(写作前填好,全文统一使用):

项目数字
Benchmark 总样本数 
视频数 
指令/任务类别数 
评测模型总数 
标注者人数 
Inter-annotator agreement 
最佳模型性能 
人类性能(如有) 

D. Benchmark 论文必备要素

要素位置是否完成
现有 benchmark 对比表§3[ ]
Pipeline 总览图§3[ ]
数据统计图(分布)§3[ ]
标注一致性指标§3[ ]
主实验结果表§4[ ]
Judge 可靠性验证§4[ ]
错误分析§4[ ]
Case Study 图§4[ ]

E. 常用学术词汇替换

避免使用替换为
very goodstrong / substantial / significant
badlimited / insufficient / suboptimal
showdemonstrate / reveal / indicate
useemploy / leverage / adopt
makeconstruct / build / design
findobserve / identify / reveal
saystate / claim / argue / suggest
problemchallenge / limitation / gap
newnovel / proposed / introduced
a lot ofnumerous / a substantial number of

F. 本指南知识依赖图

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
论文写作完全指南
├── 认知层(必须先理解)
│   ├── 论文本质:说服框架
│   ├── Benchmark vs 方法论文的差异
│   └── 读者视角
│
├── 结构层(写作前规划)
│   ├── 六章论证链
│   ├── 字数分配
│   └── 写作顺序
│
├── 执行层(逐章写作)
│   ├── Abstract(最后写)
│   ├── Introduction(倒数第二写)
│   ├── Related Work(第三步写)
│   ├── Method(第一步写)
│   ├── Experiments(第二步写)
│   └── Conclusion(倒数第三写)
│
├── 工具层(写作过程中)
│   ├── 句式武器库(第4章)
│   ├── PEEL段落结构
│   └── 连接词列表
│
└── 质控层(写作后检查)
    ├── 误区对照表(第7章)
    ├── 检查清单(附录B)
    └── 关键数字核对(附录C)
This post is licensed under CC BY 4.0 by the author.