学术论文写作上手指南

Posted May 1, 2026

By 何翌闻

50 min read

学术论文写作上手指南

从零到论文大师：系统性写作方法论

写给谁看： 第一次写论文、写过但没有系统方法论、希望真正理解”为什么这样写”而不只是模仿格式的研究者。
核心理念： 论文不是”记录你做了什么”，而是”说服读者你的工作值得存在”。掌握这一点，写作就从痛苦变成了有章可循的工程。

📖 阅读指南

知识依赖链：

第一章（本质认知）→ 第二章（整体结构）→ 第三章（逐章攻略）
       ↓                                         ↓
  第四章（句式武器库）              第五章（Benchmark论文专项）
       ↓
  第六章（写作流程与习惯）→ 第七章（常见误区）→ 附录（速查表）

建议阅读顺序：

第一次读：通读第一、二章，建立全局观
写作前：细读你要写的那章对应的第三章内容
写作中：随时查第四章句式 + 第七章误区
写完后：对照附录检查清单逐项核查

1. 论文的本质：一个说服框架

1.1 最重要的认知转变

大多数初学者把论文写成”实验报告”：

“我做了A，然后做了B，结果是C。”

但好论文是一个说服故事：

“世界上存在问题X（读者认同）→ 现有方法有缺陷Y（读者感到痛点）→ 我们提出解法Z（读者产生兴趣）→ 数据证明Z有效（读者信服）→ 这对领域的意义是M（读者认为值得发表）”

核心洞察： 论文的每一段、每一句话，都应该服务于这条说服链。如果某段内容与这条链无关，删掉它。

1.2 你的读者是谁

理解读者，才能知道写什么、怎么写：

读者类型	他们想知道什么	对应章节
审稿人	这个工作新在哪？实验设计是否严谨？	全文，尤其 Introduction + Experiment
同领域研究者	和我的工作有什么关系？能不能引用？	Related Work + Method
领域外读者	这个问题是什么？为什么重要？	Abstract + Introduction 前半段

实用建议： 写作时，假设你的读者是”比你聪明但不了解你具体工作的同行”。他们不会猜你的意思，你必须说清楚。

1.3 Benchmark 论文 vs 方法论文的本质差异

你写的是 Benchmark 论文，它和普通方法论文有一个核心区别：

维度	方法论文	Benchmark 论文
核心主张	“我们的方法比现有方法更好”	“现有评测体系有缺陷，我们填补了它”
主要贡献	新算法/新架构	新数据集/新评测框架/新发现
实验目的	证明方法有效	用benchmark揭示现有模型的不足
成功标准	SOTA 性能提升	发现有价值的新结论，推动领域进步

关键洞察： Benchmark 论文的实验结果越”差”（即现有模型表现越不好），越能说明你的 benchmark 有价值——因为它揭示了一个真实存在的挑战。

2. 论文整体结构与论证链

2.1 六章结构的内在逻辑

┌─────────────────────────────────────────────────────────────────┐
│                     论文的论证逻辑流                              │
├─────────────────────────────────────────────────────────────────┤
│                                                                   │
│  Abstract    ──→  "我们做了什么，结论是什么"（先给答案）            │
│      ↓                                                           │
│  Introduction ──→  "问题是什么，为什么重要，缺口在哪，我们怎么填"   │
│      ↓                                                           │
│  Related Work ──→  "别人做了什么，为什么还不够"                    │
│      ↓                                                           │
│  Method/Bench ──→  "我们具体怎么设计的，每个决策为什么这样"         │
│      ↓                                                           │
│  Experiment   ──→  "数据证明我们的设计是正确的"                    │
│      ↓                                                           │
│  Conclusion   ──→  "总结 + 局限 + 未来方向"                       │
│                                                                   │
└─────────────────────────────────────────────────────────────────┘

重要：这六章不是独立的模块，而是一条因果链。 每章都在为下一章铺垫，读者读完每章后应该自然地想看下一章。

2.2 每章的字数参考（NeurIPS/CVPR 8页限制）

章节	建议字数（words）	占比
Abstract	150-250	~3%
Introduction	500-800	~15%
Related Work	400-600	~10%
Method/Benchmark	800-1200	~25%
Experiments	1000-1500	~35%
Conclusion	150-250	~5%
图表说明	200-400	~7%

2.3 推荐写作顺序（反直觉但正确）

写作顺序（≠ 阅读顺序）：

Step 1: Method/Benchmark  ← 写你最熟悉的，建立信心
Step 2: Experiments        ← 把实验结果组织成叙事
Step 3: Related Work       ← 读文献，定位你的工作
Step 4: Introduction       ← 现在你对全文有感觉了
Step 5: Conclusion         ← 30分钟写完
Step 6: Abstract           ← 最后提炼，精确概括

为什么不从 Introduction 开始？ Introduction 需要你知道全文说了什么。如果你先写 Introduction，写完后发现实验结果不对，整个 Introduction 要重写。先写 Method + Experiment，再写 Introduction，事半功倍。

3. 逐章深度写作指南

3.1 Abstract

目的

让读者在 30 秒内决定”这篇论文值不值得精读”。

结构：四步法（每步 1-3 句）

┌─────────────────────────────────────────────────────────┐
│  Step 1 [背景]    领域现状 + 这个问题为什么重要             │
│  Step 2 [痛点]    现有方法/benchmark 的具体缺陷            │
│  Step 3 [方案]    我们提出了什么（必须有具体数字）           │
│  Step 4 [发现]    主要实验结论（具体数字 or 定性结论）       │
└─────────────────────────────────────────────────────────┘

模板示例（Benchmark 论文）

[背景] [领域] has witnessed remarkable progress, with [模型类型]
demonstrating impressive capabilities in [任务]. 

[痛点] However, existing benchmarks primarily evaluate [现有评测做了什么],
largely overlooking [你关注的维度], leaving a critical question 
unanswered: [你的核心问题].

[方案] To address this gap, we introduce [你的benchmark名], 
a [定语] benchmark comprising [数量] [样本类型] across [N] categories,
featuring [你的核心设计].

[发现] Extensive evaluation of [N] [models/systems] reveals that 
[核心发现，e.g., even state-of-the-art models struggle with X,
achieving only Y% accuracy on Z].

Abstract 写作的五个原则

数字优先：能给具体数字的地方绝不模糊。”大量样本” → “1,400 samples”
结论先行：Abstract 不是”我们做了什么”，是”我们发现了什么”
不引用文献：Abstract 中不出现 [cite]
不出现图表引用：不写 “as shown in Figure 1”
独立可读：Abstract 应该能独立成文，不依赖正文

常见错误

❌ “We propose a new benchmark for video editing evaluation.” （没有具体数字，没有说为什么需要新 benchmark）

✅ “We introduce CoVEBench, the first benchmark targeting complex, multi-operation video editing instructions, comprising X samples across Y edit categories.”

3.2 Introduction

目的

让读者理解：(1) 这个问题是什么，(2) 为什么重要，(3) 为什么现有方法不够，(4) 你做了什么，(5) 贡献是什么。

结构：漏斗型（从宽到窄）

段落 1: [背景铺垫] 领域大背景，吸引读者
         ↓
段落 2: [问题聚焦] 具体化到你要解决的子问题
         ↓
段落 3: [现有缺陷] 现有方法/benchmark 的具体不足
         （重要：要有证据，不能只说"不够好"）
         ↓
段落 4: [我们的方案] 介绍你的工作（不要说太细，那是 Method 的任务）
         ↓
段落 5: [贡献列表] 3条 bullet points，动词开头

每段详细指南

段落1：背景铺垫

任务： 让领域外的读者也能理解这个问题的重要性

写法：

开头用一个”大事实”吸引注意力
不要太长，2-3句即可
结尾引出你的具体问题

示例：

Video editing has emerged as a fundamental capability in content creation,
enabling users to modify visual content through natural language instructions.
Recent advances in diffusion-based models [cite, cite] have dramatically
improved the quality and controllability of video editing, bringing us closer
to practical deployment in real-world applications.

段落2：问题聚焦

任务： 把”大问题”具体化到你的研究子问题

关键： 这里要引出一个”tension”——表面上模型很强，但有一个具体问题没被解决

Despite these advances, a critical question remains: can these models
truly handle [你关注的具体能力]? While existing models excel at 
[简单任务], they are rarely evaluated on [复杂场景], 
which are essential for [实际应用].

段落3：现有缺陷（最重要的段落）

任务： 证明现有 benchmark 有具体、致命的缺陷

写法要点：

用”具体化”的语言描述缺陷，不要用”不够好”这种模糊表达
最好给例子或数字
结构：现有方法做了什么 → 但是忽略了什么 → 导致什么问题

Existing benchmarks for video editing [cite, cite, cite] primarily 
focus on [单一操作/简单指令], assessing models on instructions 
such as "change the color of the car" or "add fog to the scene."
However, real-world editing tasks often involve [复杂的多步骤操作],
such as [具体例子]. This gap between benchmark design and practical
requirements means that [模型的真实能力无法被评测].

段落4：我们的方案

任务： 简洁介绍你的工作，埋下”悬念”让读者想看 Method 章节

To address this gap, we introduce [名字], [一句话描述]. 
[名字] features [核心设计1], [核心设计2], and [核心设计3],
enabling comprehensive evaluation of [你关注的能力].

段落5：贡献列表

格式严格：

In summary, our main contributions are:
• We introduce [名字], the [first/most comprehensive] benchmark 
  for [具体任务], comprising [N] [样本] across [M] [类别]. 
  [说明为什么这个设计是新的]
• We design [具体组件/评测框架], which [解决了什么问题]. 
  [给一个技术亮点]
• Through extensive evaluation of [N] state-of-the-art models, 
  we reveal [具体发现], providing [对社区的价值].

贡献条目的三要素：

What：你做了什么（动词开头：We propose / We design / We conduct）
How big / specific：具体规模或特点（数字！）
So what：为什么重要（providing / enabling / revealing）

Introduction 写作的核心原则

原则：每个声明都需要证据。

“现有方法不够好” → 要列举具体的 benchmark 名字和它们的局限
“我们的方法更好” → 要提前预告实验结论
“这个问题很重要” → 要给应用场景或数据

目的

不是：向读者介绍这个领域的所有工作是：证明你的工作填补了现有工作的空白，且你了解这个领域

结构：分类综述 + 差异化

1 [第一类相关工作]  （通常是你的任务相关的模型）
2 [第二类相关工作]  （通常是现有的 benchmark/评测方法）
3 [第三类相关工作]  （可选，e.g., 你用到的技术如 LLM-as-Judge）

每小节的写法模板

[主题句：概括这个方向]
Early work in [方向] explored [早期方法] [cite], which [做了什么].
More recently, [代表性工作] [cite, cite] proposed [新方法], 
achieving [成就]. [后续工作] [cite] further extended this by [扩展点].

[差异化句（必须有！）]
However, [这些工作/benchmark] [具体缺陷，用动词短语], 
failing to [你关注的维度]. In contrast, our work [你的不同之处].

层次	做法	效果
初级	列举”谁做了什么”	像综述，没有观点
中级	按主题分组 + 说明缺陷	有结构，有观点
高级	通过对比定位自己的贡献	读者看完就明白你的 novelty

目标是中级到高级之间。 你需要做的关键事情：每个小节结尾，明确说明”这些工作与我们的差异”。

引用策略

引用多： 现有 benchmark 列举时（要证明你了解领域）
引用少： 自己的方法描述时（重点在你的工作）
引用顺序： 通常按时间顺序，或按重要性

常见错误

❌ “A proposed X. B proposed Y. C proposed Z.”（流水账，没有观点）

✅ “Early approaches [A, B] relied on X, which suffered from Y. Recent methods [C, D] addressed this by Z, yet they still overlook [你的贡献点].”（有逻辑，有观点）

3.4 Method / Benchmark 章节

目的

让读者理解你的方法/benchmark是什么、为什么这样设计，并相信这个设计是合理的。

核心写作原则：每个设计决策都要有动机

这是初学者最容易犯的错误：只写”我们做了X”，不写”为什么这样做”。

❌ “We collect videos from YouTube.” ✅ “We collect videos from YouTube, as it provides diverse real-world content covering a wide range of scenes and editing scenarios, which is essential for benchmark generalizability.”

Benchmark 论文的 Method 章节结构

1 Overview / Design Philosophy   ← 整体设计理念（最重要）
2 Data Collection                ← 数据从哪来，怎么筛选
3 Annotation / Construction      ← 数据怎么标注/构建
4 Taxonomy / Categories          ← 分类体系（核心贡献之一）
5 Evaluation Framework           ← 怎么评测
6 Dataset Statistics             ← 数据集统计（含对比表）

3.4.1 Overview 段落怎么写

Overview 要回答三个问题：

你的 benchmark 整体上是什么？
设计的核心原则是什么？（为什么这样设计）
和现有 benchmark 的核心区别是什么？

[名字] is designed around three core principles:
(1) [原则1], which ensures [好处];
(2) [原则2], addressing the limitation of [现有方法的问题];
(3) [原则3], enabling [新能力].

Figure 1 illustrates the overall pipeline of [名字].

3.4.2 数据收集段落

必须回答的四个问题：

[来源]  We collect/curate [数据类型] from [来源], 
        which [为什么选这个来源].
        
[规模]  An initial pool of [N] [samples] is gathered.

[过滤]  To ensure [质量目标], we apply the following criteria:
        (i) [标准1], (ii) [标准2], (iii) [标准3].
        Videos/samples failing any criterion are discarded.
        
[结果]  After filtering, [M] [samples] remain, 
        spanning [K] [categories/scenes/etc].

每个过滤标准都要给动机：

We exclude videos shorter than 3 seconds, as they provide
insufficient temporal context for meaningful editing evaluation.

3.4.3 标注流程段落

这里要展示”质量控制”，让读者相信你的数据质量高：

[谁标注] Annotations are collected from [N] trained annotators
         with backgrounds in [领域].
         
[流程]   Each [sample] is annotated by [M] annotators independently,
         followed by [审核/聚合方式].
         
[质量]   Inter-annotator agreement reaches [κ/percentage], 
         indicating [high/substantial] consistency.
         
[审核]   All annotations are further reviewed by [专家/自动方法]
         to ensure [质量标准].

3.4.4 图示的重要性

Method 章节一定要有至少一张流程图（Pipeline Figure）。

好的 Pipeline Figure 应该：

展示整个数据收集/标注流程
用箭头表示数据流动
包含每个阶段的输入输出
标注关键数字（如每个阶段的数据量）

3.5 Experiments

目的

用数据证明：(1) 你的 benchmark 有挑战性，(2) 你的评测方法可靠，(3) 揭示了有价值的新发现。

整体结构

1 Experimental Setup    ← 测了哪些模型，评测环境
2 Main Results          ← 核心结果表格 + 解读
3 Further Analysis      ← 深入分析（多个小节）

4.1 Experimental Setup

必须包含的信息：

Models. We evaluate [N] representative models, including:
[开源模型列表] and [闭源模型列表].
These models are selected to cover [多样性说明：架构/规模/训练数据].

Implementation Details. All experiments are conducted on [硬件].
For each model, we use [推理设置：temperature, resolution, etc.].
[如果有特殊设置，单独说明]

Evaluation Metrics. We assess model performance using [指标列表].
[每个指标一句话说明它衡量什么]

4.2 Main Results

主表格的设计原则：

行 = 模型（按性能排序，或按类型分组）
列 = 你定义的评测维度 + Overall
最后一行或第一行：Human Performance（如果有）

主表格的文字解读必须包含：

整体观察：总体上哪类模型表现如何
具体亮点：哪个模型在哪个维度最好
关键发现：最重要的结论（e.g., 所有模型在某个维度都很差）

写法模板：

[整体观察] Table 1 presents the main results on [名字].
Overall, [整体趋势，e.g., proprietary models outperform
open-source counterparts, yet all models struggle with X].

[具体发现1] Notably, [最好的模型] achieves the highest overall 
score of [N], while [最差的模型] lags significantly behind at [M].

[关键发现] Across all models, performance drops substantially on
[最难的类别], with an average accuracy of only [N%], suggesting
that [这意味着什么].

4.3 Further Analysis（各小节写法）

每个 Analysis 小节都遵循同一个逻辑结构：

[提出问题]   We investigate [具体问题] to understand [为什么重要].

[实验设计]   To this end, we [做了什么实验/对比].

[结果描述]   As shown in [Figure/Table X], [具体结果].

[解读分析]   This suggests/indicates that [原因/意义].

[结论]       Based on these findings, we conclude that [结论].

Judge Rationality Analysis 写法

提问：我们的LLM judge可靠吗？

[动机] Reliable evaluation is critical for benchmark validity.
We thus examine whether our LLM-based judge produces ratings
consistent with human judgment.

[设计] We randomly sample [N] cases from [名字] and collect
human ratings from [M] trained annotators. 

[结果] As shown in Table X, our judge achieves a Pearson correlation
of [r] and Spearman correlation of [ρ] with human ratings,
with an inter-annotator agreement of [κ].

[结论] The high correlation (r > 0.8) demonstrates that our
LLM judge reliably approximates human judgment, validating
its use as a scalable evaluation method.

Effect of Edit Aggregation 写法

提问：多操作分数怎么合并最合理？

[动机] When an instruction involves K edit operations, the final
score can be computed via different aggregation strategies.
We examine how this choice affects evaluation outcomes.

[设计] We compare three strategies: (1) Mean, (2) Min, (3) [其他].

[结果] As shown in Figure X, [策略A] yields [结果],
while [策略B] is more sensitive to [某个因素].

[结论] We adopt [推荐策略] as the default, as it [理由].

Case Analysis & Error Analysis 写法

Case Analysis 结构：
- 选2-3个典型案例（好的/坏的/edge case）
- 每个案例：展示输入指令 + 模型输出 + 分析原因

Error Analysis 结构：
1. 定义错误类型（建议3-5类）
2. 给每类举一个具体例子
3. 统计各类错误的占比（用饼图或表格）
4. 分析主要错误原因

错误类型分类的建议方式：

按原因分类：指令理解错误 / 执行错误 / 过度编辑 / 时序不一致
按严重程度分类：完全失败 / 部分完成 / 质量差
通常用原因分类，因为对未来研究更有指导意义

3.6 Conclusion

目的

给论文一个干净的结尾，让读者带走最重要的信息。

结构：三段法

段落1 [总结]    We presented [名字], [一句话描述].
               [核心设计的1-2句概括]
               
段落2 [发现]    Through evaluation of [N] models, we found that
               [最重要的1-2个结论]. [具体数字或例子]
               
段落3 [展望]    Despite [局限性], [名字] provides [价值].
               We hope this work [对领域的期望].
               Future work includes [1-2个未来方向].

Conclusion 的写作要点

不要重复 Abstract 的原话，要更精炼、更有深度
局限性要诚实写：审稿人知道你的工作有局限，你主动说比被问到好
未来工作不要太多：2-3条就够，每条一句话

4. 句式武器库：可直接使用的模板

使用方法： 找到对应场景，把 [括号内容] 替换为你的内容。

4.1 Background / Motivation 句式

[领域] has witnessed remarkable progress, with [技术类型] 
demonstrating impressive [能力] in [任务].

Despite these advances, a critical challenge remains: [具体问题].

The rapid development of [技术] has enabled [应用], yet the 
question of [你关注的能力] remains largely unexplored.

While recent [模型] excel at [简单任务], they often struggle 
with [复杂任务], which is essential for [实际应用].

4.2 Problem Statement / Gap 句式

[现有方法] primarily [做了什么], largely overlooking [你关注的].

Current [benchmark/methods] fail to capture [具体维度], 
leaving [具体问题] unanswered.

This gap between [现有方法关注的] and [实际需要的] motivates 
the need for [你的工作].

To the best of our knowledge, no existing work has [你的贡献].

4.3 Our Contribution 句式

To address this gap, we introduce [名字], [一句话描述].

We propose [名字], which [做了什么], enabling [好处].

In this paper, we take the first step toward [大目标] 
by [你的具体贡献].

[作者] [cite] proposed [方法], which [做了什么].
While effective for [应用场景], this approach [局限].

A line of work [cite, cite, cite] focuses on [方向],
achieving [成就]. However, [这些工作共同的局限].

In contrast to [前人工作], our [名字] [你的不同之处].

Unlike [比较对象] that [他们的做法], we [你的做法],
which [优势].

4.5 Experiment Result 句式

As shown in Table [N], [观察].

[模型A] achieves the best performance on [指标], 
outperforming [基线] by [N] points.

Notably, all evaluated models struggle with [难点],
with an average score of only [N%].

We observe a consistent trend across all models: [趋势描述].

This suggests that [结论].

These results indicate that [发现], highlighting the 
importance of [你的贡献].

4.6 Analysis 句式

We further investigate [问题] to understand [动机].

To this end, we [实验设计].

Figure [N] shows [描述], revealing that [发现].

Interestingly, [反直觉的发现], which can be attributed to [原因].

This finding is consistent with [其他证据/直觉].

Based on these observations, we conclude that [结论].

4.7 Limitation 句式

Our work has several limitations. First, [局限1].
Second, [局限2]. We leave [未来工作] for future work.

While [名字] provides [好处], it is limited to [范围限制].

The current version of [名字] focuses on [你关注的],
leaving [其他维度] unexplored.

5. Benchmark 论文专项指南

5.1 Benchmark 论文的独特挑战

Benchmark 论文最常被审稿人质疑的三个问题：

质疑	你需要证明的
“为什么需要新 benchmark？”	现有 benchmark 有具体的、定量的缺陷
“这个 benchmark 质量如何？”	数据质量保证、标注一致性指标
“这个 benchmark 有意义吗？”	揭示了现有模型真实存在的不足，且这个不足对领域重要

5.2 Benchmark 论文的核心论证链

现有 benchmark 有缺陷（定量证明）
           ↓
我们的 benchmark 填补了这个缺陷（设计说明）
           ↓
我们的 benchmark 质量高（标注质量证明）
           ↓
用它评测发现了有价值的结论（实验）
           ↓
这些结论对社区有指导意义（分析）

5.3 Benchmark 对比表的设计

对比表是 Benchmark 论文中最重要的单个元素，必须精心设计。

列的选择原则： 选择你的 benchmark 在其中有优势的维度

典型对比维度：

维度	说明
#Videos / #Samples	规模
#Instructions	指令数量
Instruction Type	Simple / Complex / Multi-op
#Categories	类别数
Auto Metrics	是否有自动评测
LLM Judge	是否用LLM评测
Human Annotation	是否有人工标注
Open Source	是否开源

你在表中的行必须在关键维度上是绿色/✓，这是对比表的核心目的。

5.4 “数据质量” 的证明方式

质量维度	证明方式
标注一致性	Inter-annotator agreement (Cohen’s κ > 0.6 = substantial)
难度合理性	人类在 benchmark 上的分数（应该高于模型）
多样性	统计图：类别分布、长度分布、难度分布
真实性	来源说明 + 过滤标准

5.5 实验设计：让结果”有故事性”

Benchmark 论文的实验不只是”测了N个模型，结果如下”，要从结果中提炼有价值的发现：

好的发现应该是：

反直觉的（”更大的模型不一定更好”）
有规律的（”随着指令复杂度增加，所有模型性能线性下降”）
有指导意义的（”模型在X类型任务上系统性失败，这是未来研究方向”）

从结果到发现的思路：

原始结果：Model A = 45%, Model B = 42%, Model C = 38%

浅层解读：Model A 最好。
（这不是发现，这是结果）

深层发现：尽管模型规模相差 3x，性能差距不超过 7%，
          说明在复杂指令场景下，模型规模不是瓶颈，
          而是[对指令的理解/时序建模/某个具体能力]。
（这才是发现）

6. 写作流程与工程化习惯

6.1 整体写作流程

Phase 1: 准备（写作前）
├── 整理所有实验结果（表格化）
├── 确定核心发现（3-5条）
├── 收集参考文献（建议用 Zotero/Mendeley 管理）
└── 画出论文结构大纲（每章每节的主题句）

Phase 2: 骨架（第1天-第3天）
├── 写每章的节标题和主题句
├── 完成 Method 章节草稿
└── 完成 Experiment 章节草稿（包括所有表格）

Phase 3: 填充（第4天-第7天）
├── 完成 Related Work
├── 完成 Introduction
└── 写 Conclusion + Abstract

Phase 4: 打磨（第8天-第10天）
├── 通读全文，检查逻辑连贯性
├── 检查所有数字是否一致
├── 检查图表是否自洽
└── 语言润色（grammar + 流畅度）

6.2 段落写作的 PEEL 结构

每个段落都应该遵循 PEEL 结构：

P - Point:    这段的核心观点（主题句，通常是第一句）
E - Evidence: 支撑这个观点的证据（引用/数据/例子）
E - Explain:  解释这个证据为什么支撑你的观点
L - Link:     连接到下一段或总结这一段的意义

示例：

[P] Existing video editing benchmarks primarily focus on single-operation 
    instructions. 
[E] For example, TGVE [cite] contains only style transfer and color editing 
    tasks, while BalanceCC [cite] evaluates models on object-level edits.
[E2] As shown in Table 1, none of the existing benchmarks include 
    multi-operation instructions.
[Explain] This limitation means that models can achieve high scores by 
    mastering simple edit types, without demonstrating the compositional 
    understanding required for real-world use cases.
[L] To address this, CoVEBench introduces complex, multi-operation 
    instructions as the primary evaluation target.

6.3 实用写作技巧

技巧1：先写”丑草稿”，不要边写边改

第一遍写作的目标是把内容写完，不是把每句话写漂亮。先用中文或简单英文把意思写出来，再润色。

技巧2：用”占位符”保持写作流动

当你写到某个需要查数据或查文献的地方，用占位符继续写，不要停下来查：

"As shown by [TODO: cite TokenFlow], temporal consistency is a key challenge."
"Our benchmark contains [TODO: N] samples."

写完后统一填充。

技巧3：每天写完后，检查”逻辑连接词”

逻辑连接词是论文流畅度的关键：

关系	连接词
递进	Furthermore, Moreover, In addition
转折	However, Nevertheless, Despite this
因果	Therefore, Thus, Consequently, As a result
举例	For example, For instance, Specifically
总结	In summary, Overall, Taken together
对比	In contrast, Unlike, While X, Y

技巧4：数字一致性检查

论文中的数字（样本数、模型数、指标值）必须在全文保持一致。写完后，搜索所有数字，逐一核对。

技巧5：给每张图表写”自洽的 caption”

Caption 的原则：读者只看图+caption，不看正文，也能理解这张图的含义。

好的 caption 结构：

Figure 1: [图的内容描述]. [关键观察]. [结论/意义].

示例：

Figure 1: Overview of the CoVEBench construction pipeline. 
Videos are collected from [来源] and filtered by [标准]. 
Instructions are generated and annotated through a 
three-stage process, yielding [N] high-quality samples 
across [M] edit categories.

6.4 合作写作的最佳实践

当多人合写一篇论文时（就像你们团队）：

统一术语表：在开始写之前，确定关键术语的写法（e.g., “multi-operation” 还是 “complex”？”LLM judge” 还是 “LLM-as-Judge”？）
维护一个共享的数字文档：所有关键数字（样本数、指标值、模型数）集中管理，避免各人写不同数字
写完一节就 review：不要等全部写完再互相看，节节 review 效率更高
不要担心文风不一致：最后由一个人通读统一文风

7. 常见误区与反模式

7.1 Abstract 误区

误区	正确做法
不给具体数字	每个关键声明都配数字
只说”我们做了X”，不说”我们发现了Y”	结论先行，告诉读者最重要的发现
引用文献	Abstract 不引用文献
超过 250 词	精炼，每句话都有信息量

7.2 Introduction 误区

误区	正确做法
背景铺垫太长（超过2段）	快速聚焦到你的问题
痛点描述太模糊（”现有方法不够好”）	具体说：在什么维度上、有什么缺陷、导致什么问题
Contribution 没有动词	每条以动词开头（We propose / We introduce / We reveal）
Contribution 没有数字	“我们构建了一个大规模 benchmark” → “我们构建了包含1400个样本的 benchmark”

误区	正确做法
写成流水账（A做了X，B做了Y，C做了Z）	按主题分组，每组结尾说明与你的差异
没有”However/In contrast”句	每小节结尾必须有一句说明你的工作与现有工作的不同
只引用无关紧要的工作	聚焦于直接相关的工作，其他可以略提
Related Work 太短（<3小节）	至少覆盖模型、benchmark、评测方法三个维度

7.4 Method 误区

误区	正确做法
只写”我们做了X”，不写”为什么”	每个设计决策配动机说明
没有 Pipeline Figure	Method 章节必须有一张总览图
数据统计不完整	给出样本数、类别数、平均长度等完整统计
没有对比表	Benchmark 论文必须有与现有 benchmark 的对比表

7.5 Experiment 误区

误区	正确做法
只给结果，不给解读	每个结果后都要有1-2句分析
主表格没有 Human Performance	尽量加入人类表现作为上界
Analysis 小节没有提出”问题”	每个 Analysis 小节第一句就是要回答的问题
错误分析只分类，不分析原因	分析每类错误的成因，这是对社区最有价值的部分

7.6 语言层面的误区

误区	正确做法
段落太长（>10行）	超过8行考虑分段
句子太长（>40词）	拆成2-3句
被动语态过多	主动语态更有力（We propose vs. A method is proposed）
形容词堆砌（very, highly, significantly）	用数字代替形容词
口语化表达	学术论文用正式书面语

附录：速查表与检查清单

A. 写作前检查清单

在开始写任何章节前，先回答这些问题：

这章的核心目的是什么？（一句话概括）
这章要说服读者相信什么？
我有哪些证据/数据支撑这个观点？
读完这章，读者会想问什么问题？（下章要回答）

B. 写作后检查清单

写完每章后逐项检查：

内容完整性

每个设计决策都有动机说明
所有数字是否和实验结果一致
每个 claim 都有引用或数据支撑
图表 caption 独立可读

逻辑连贯性

各段之间有逻辑连接词
每章结尾和下章开头衔接自然
Related Work 的每小节有”However”句

语言质量

没有超过 40 词的长句
主动语态为主
没有拼写错误（用工具检查）
术语使用一致（全文统一）

C. 关键数字速查

每篇论文需要确认的关键数字（写作前填好，全文统一使用）：

项目	数字
Benchmark 总样本数
视频数
指令/任务类别数
评测模型总数
标注者人数
Inter-annotator agreement
最佳模型性能
人类性能（如有）

D. Benchmark 论文必备要素

要素	位置	是否完成
现有 benchmark 对比表	§3	[ ]
Pipeline 总览图	§3	[ ]
数据统计图（分布）	§3	[ ]
标注一致性指标	§3	[ ]
主实验结果表	§4	[ ]
Judge 可靠性验证	§4	[ ]
错误分析	§4	[ ]
Case Study 图	§4	[ ]

E. 常用学术词汇替换

避免使用	替换为
very good	strong / substantial / significant
bad	limited / insufficient / suboptimal
show	demonstrate / reveal / indicate
use	employ / leverage / adopt
make	construct / build / design
find	observe / identify / reveal
say	state / claim / argue / suggest
problem	challenge / limitation / gap
new	novel / proposed / introduced
a lot of	numerous / a substantial number of

F. 本指南知识依赖图

论文写作完全指南
├── 认知层（必须先理解）
│   ├── 论文本质：说服框架
│   ├── Benchmark vs 方法论文的差异
│   └── 读者视角
│
├── 结构层（写作前规划）
│   ├── 六章论证链
│   ├── 字数分配
│   └── 写作顺序
│
├── 执行层（逐章写作）
│   ├── Abstract（最后写）
│   ├── Introduction（倒数第二写）
│   ├── Related Work（第三步写）
│   ├── Method（第一步写）
│   ├── Experiments（第二步写）
│   └── Conclusion（倒数第三写）
│
├── 工具层（写作过程中）
│   ├── 句式武器库（第4章）
│   ├── PEEL段落结构
│   └── 连接词列表
│
└── 质控层（写作后检查）
    ├── 误区对照表（第7章）
    ├── 检查清单（附录B）
    └── 关键数字核对（附录C）

科研

笔记

This post is licensed under CC BY 4.0 by the author.

从零到论文大师：系统性写作方法论

📖 阅读指南

1. 论文的本质：一个说服框架

1.1 最重要的认知转变

1.2 你的读者是谁

1.3 Benchmark 论文 vs 方法论文的本质差异

2. 论文整体结构与论证链

2.1 六章结构的内在逻辑

2.2 每章的字数参考（NeurIPS/CVPR 8页限制）

2.3 推荐写作顺序（反直觉但正确）

3. 逐章深度写作指南

3.1 Abstract

目的

结构：四步法（每步 1-3 句）

模板示例（Benchmark 论文）

Abstract 写作的五个原则

常见错误

3.2 Introduction

目的

结构：漏斗型（从宽到窄）

每段详细指南

段落1：背景铺垫

段落2：问题聚焦

段落3：现有缺陷（最重要的段落）

段落4：我们的方案

段落5：贡献列表

Introduction 写作的核心原则

3.3 Related Work

目的

结构：分类综述 + 差异化

每小节的写法模板

Related Work 的三个层次

引用策略

常见错误

3.4 Method / Benchmark 章节

目的

核心写作原则：每个设计决策都要有动机

Benchmark 论文的 Method 章节结构

3.4.1 Overview 段落怎么写

3.4.2 数据收集段落

3.4.3 标注流程段落

3.4.4 图示的重要性

3.5 Experiments

目的

整体结构

4.1 Experimental Setup

4.2 Main Results

4.3 Further Analysis（各小节写法）

Judge Rationality Analysis 写法

Effect of Edit Aggregation 写法

Case Analysis & Error Analysis 写法

3.6 Conclusion

目的

结构：三段法

Conclusion 的写作要点

4. 句式武器库：可直接使用的模板

4.1 Background / Motivation 句式

4.2 Problem Statement / Gap 句式

4.3 Our Contribution 句式

4.4 Related Work 句式

4.5 Experiment Result 句式

4.6 Analysis 句式

4.7 Limitation 句式

5. Benchmark 论文专项指南

5.1 Benchmark 论文的独特挑战

5.2 Benchmark 论文的核心论证链

5.3 Benchmark 对比表的设计

5.4 “数据质量” 的证明方式

5.5 实验设计：让结果”有故事性”

6. 写作流程与工程化习惯

6.1 整体写作流程

6.2 段落写作的 PEEL 结构

6.3 实用写作技巧

技巧1：先写”丑草稿”，不要边写边改

技巧2：用”占位符”保持写作流动

技巧3：每天写完后，检查”逻辑连接词”

技巧4：数字一致性检查

技巧5：给每张图表写”自洽的 caption”

6.4 合作写作的最佳实践

7. 常见误区与反模式