Skip to content
第五部分 学会组织信息

文件、文本与数据

本章内容提要:为什么文件格式很重要 / 纯文本的力量 / 常见格式对比 / 什么是AI友好的信息组织 / Markdown:最适合与AI协作的文本格式

图解导读:信息载体会影响AI理解质量

同样一段内容,放在截图里、表格里、PDF里、Markdown里,AI读到的结构并不一样。文件、文本和数据不是包装问题,而是信息如何被理解、引用、拆解和复用的问题。

文件、文本与数据进入AI工作流
信息载体越清楚,AI越容易做摘要、分析和转换。

把材料交给AI之前,先做一点整理:命名清楚,去掉重复,标明来源,说明用途。这个动作看似琐碎,却能显著减少AI误读、遗漏和凭空补全的概率。

把混乱材料整理为可用材料包
整理材料不是文书工作,而是降低协作噪声。

为什么文件格式很重要

你给AI的不只是内容,还有格式。同样的信息,用不同的文件格式承载,AI理解的效果可能天差地别。

这不是一个理论问题,而是你每天都在面对的实际问题。你在微信里收到一份手写笔记的照片,和收到一份Markdown文件,AI处理这两者的效率和准确度完全不同。

层面好的格式差的格式
文本提取纯文本可直接读取扫描版PDF需要OCR
结构保留标题、列表、表格完整格式信息丢失
语义清晰数据关系一目了然需要AI猜关系

纯文本与Markdown

纯文本(.txt)是最简单也最持久的格式。三十年前写的纯文本文件,今天依然可以打开阅读。

Markdown在纯文本的基础上添加极简标记,用井号表示标题、短横线表示列表、双星号表示加粗。

Markdown是与AI协作的最佳文本格式

Markdown是一种用于编写结构化文档的纯文本格式,CommonMark中文规范也把它定义为基于电子邮件和Usenet格式约定的结构化文档写作方式[1]。你用Markdown写的内容可以直接被AI解析、修改和增强。它保留了纯文本的全部优势,同时提供基本的结构表达能力。国内主流知识管理工具如语雀、飞书文档、Notion中文版都支持Markdown语法。

常见文件格式对比

格式优势局限AI友好度
.txt / .md通用、轻量、持久无法嵌入图片极高
.docx排版丰富格式转换可能丢失中等
.pdf显示一致难提取表格和公式较低
.xlsx / .csv结构化数据不支持富文本
.json嵌套结构清晰人类阅读不直观极高

实用建议

如果你需要给AI提供参考材料,优先选择.md或.txt格式。如果你只有PDF,先用工具转换为Markdown,再提供给AI。扫描版PDF(图片PDF)效果最差,因为AI需要先做OCR,这个过程中经常丢失信息。

Markdown快速上手

前面说"学会Markdown只需要5分钟",以下就是你需要的全部语法:

markdown
# 一级标题
## 二级标题
### 三级标题

**加粗文字***斜体文字*

- 无序列表第一项
- 无序列表第二项

1. 有序列表第一项
2. 有序列表第二项

| 列A | 列B | 列C |
|------|------|------|
| 数据1 | 数据2 | 数据3 |

> 引用文字

`行内代码`

[链接文字](https://example.com)

以上就是日常使用中90%的Markdown语法。国内主流工具如语雀、飞书文档、Notion中文版都支持这些语法,你可以直接在这些工具中练习。

AI友好的信息组织

让AI更好地理解你的信息,关键在于让结构显性化

  1. 用标题建立层次 -- 把内容分成明确的区块
  2. 用列表替代长段落 -- AI更准确识别独立要点
  3. 用表格组织对比信息 -- 比文字描述高效得多
  4. 给数据加上标签 -- 标注清楚数据的含义和来源

这些原则不仅对AI有用,对人类读者也同样有用。好的信息组织是人机通用的。Markdown中文指南也强调,Markdown的优势在于易读易写、跨平台兼容和版本控制友好[2]

文件命名原则

  • 使用描述性名称:market_analysis_2024Q3.md
  • 需要时间排序时加日期前缀:2024-03-15_notes.md
  • 避免中文和空格,用下划线代替
  • 保持一致的命名风格
本章核心回顾
  • 文件格式影响AI理解质量,纯文本和Markdown对AI最友好
  • 让结构显性化:用标题、列表、表格替代大段纯文字
  • 给AI准备材料前,检查格式、结构、完整性和标签
  • Markdown是AI协作的最佳文本格式,学会它只需要5分钟

给AI准备材料的方式

这是我收集的一些资料,你帮我分析一下:(然后粘贴了一大段截图、微信聊天记录、网页复制的混杂内容)

?章节自测

给AI准备材料时,以下哪种做法最有效?

?章节自测

为什么扫描版PDF对AI最不友好?

思考练习

找一份你最近提交给AI的材料(论文草稿、课程笔记等),用本章的标准审视一遍:格式是否AI友好?结构是否清晰?有没有冗余信息?尝试用Markdown重新组织一下,看看AI回答质量是否有变化。


参考文献


  1. CommonMark 中文. CommonMark 规范:什么是 Markdown? https://commonmark.cn/ ↩︎

  2. MARKDOWN 中文. Markdown 中文指南. https://markdown.cn/ ↩︎

从提问、学习、判断到智能协作