PDF 中的元数据机制详解：Info 字典与 XMP 的区别及应用

一、为何 PDF 元数据至关重要？

在信息爆炸的时代，文档的机器可读性变得尤为关键。相比仅依赖文件名和正文内容，元数据（Metadata）为文档归档、搜索引擎索引、自动化整理提供了结构化信息支持。PDF 标准支持多种嵌入元数据的方式，不同应用场景应合理选用。

二、Info 字典：最基础但局限性明显

最早期的 PDF 元数据存储在 Info 字典中，常见字段包括：

/Title：文档标题
/Author：作者名
/Subject：主题
/Keywords：关键词，用于文档索引

Info 字典结构简单，但仅支持 ASCII 文本，不支持 Unicode，不利于多语言文档处理，也无法表达层级结构。

三、XMP 元数据：面向未来的 XML 标准

从 PDF 1.4 开始，Adobe 推出了基于 XML 的 XMP（eXtensible Metadata Platform） 元数据机制。它通常嵌入在 PDF 文档的元数据流对象中，结构类似：

<x:xmpmeta xmlns:x="adobe:ns:meta/">
  <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
    <rdf:Description rdf:about=""
      xmlns:dc="http://purl.org/dc/elements/1.1/"
      dc:title="文档标题"
      dc:creator="作者姓名"
      dc:subject="分类标签" />
  </rdf:RDF>
</x:xmpmeta>

XMP 支持 UTF-8 编码、国际化语言、嵌套结构，且可由多种系统（如 Adobe Bridge、图书馆管理平台、AI 检索系统）解析和索引。

四、Catalog 字段也可用于嵌入高级属性

PDF 根对象 Catalog 也可附带自定义元字段（如 /ViewerPreferences、/Lang、/PageLabels），某些归档系统用于注入版本标识、访问级别等非可见信息。

五、嵌入方式的实际对比

方式	优点	缺点
Info 字典	简单，通用性强	不支持 Unicode，不适合复杂描述
XMP XML	支持结构化数据，标准化，适合归档	体积略大，编写略复杂
Catalog 附属字段	灵活性高，可定制结构	兼容性依赖于解析器

六、实用建议

若需兼容性优先，使用 Info 字典；若为归档或 SEO 优化，使用 XMP。
使用 exiftool、mutool info 或 PyPDF2 可查看与编辑 PDF 元数据。
如需搜索引擎收录，建议同步 HTML 元数据与 PDF XMP 内容。

在电子出版、文档归档、信息抽取等场景中，合理嵌入 PDF 元数据是提升系统智能化与内容管理能力的关键。

PDF 中的元数据机制详解：Info 字典与 XMP 的区别及应用

文章摘要

一、为何 PDF 元数据至关重要？

二、Info 字典：最基础但局限性明显

三、XMP 元数据：面向未来的 XML 标准

四、Catalog 字段也可用于嵌入高级属性

五、嵌入方式的实际对比

六、实用建议

作者

相关标签

推荐工具

相关推荐

PDF 元数据体系与 XMP 扩展机制：文档“隐形信息”的工程化设计