解密PDF：那些藏在文件里的小秘密

意外的发现

上个月在做数据恢复项目时，遇到了一个有趣的案例：客户说一份重要的合同PDF被"意外删除"了部分内容，问能不能找回来。我心想这不是为难我吗？删都删了还能找回？

结果用十六进制编辑器打开PDF一看，好家伙，"删除"的内容居然还躺在文件里睡大觉！这激发了我的好奇心，开始深入研究PDF的内部结构。今天就来分享一些有趣的发现。

PDF不是你想象中的样子

大部分人以为PDF就是个"打印稿"，内容固定不变。实际上，PDF更像一个小型数据库，里面藏着各种各样的信息。

隐藏信息1：创建历史

每个PDF都会记录详细的创建信息：

// 用Java读取PDF元数据
PDDocument doc = PDDocument.load(file);
PDDocumentInformation info = doc.getDocumentInformation();

System.out.println("创建软件: " + info.getCreator());
System.out.println("创建时间: " + info.getCreationDate());
System.out.println("修改时间: " + info.getModificationDate());
System.out.println("作者: " + info.getAuthor());
System.out.println("标题: " + info.getTitle());

你知道吗？很多PDF还会暴露创建者的用户名、电脑名，甚至文件路径。曾经见过一个PDF，元数据里写着 C:\\Users\\张三\\Desktop\\机密文件\\合同.docx，瞬间暴露了原始文件信息。

隐藏信息2："删除"的内容

这是最有趣的部分。PDF的"删除"操作很多时候只是把内容标记为不可见，实际数据还在文件里：

真实案例：某公司发给竞争对手的投标文件PDF，表面看起来价格信息被涂黑了。但用文本提取工具一扫，涂黑部分的文字清晰可见。结果可想而知...

// 提取所有文本内容，包括"隐藏"的
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(1);
stripper.setEndPage(1);

// 关键：设置提取所有内容，不管可见性
stripper.setSuppressDuplicateOverlappingText(false);
String allText = stripper.getText(document);

// 你会惊讶地发现很多"删除"的内容

隐藏信息3：修订历史

PDF支持增量更新，每次修改都会在文件末尾添加新内容，旧内容依然保留。这意味着你可以看到文档的"修改历史"：

// 分析PDF版本信息
COSDocument cosDoc = document.getDocument();
long version = cosDoc.getVersion();
System.out.println("PDF版本: " + version);

// 检查是否有多个xref表（表示多次修改）
List<COSObject> objects = cosDoc.getObjects();
System.out.println("对象总数: " + objects.size());

实用工具推荐

1. qpdf - PDF手术刀

这是我最爱用的命令行工具，可以做各种PDF"手术"：

# 查看PDF内部结构
qpdf --show-all-data input.pdf

# 清理PDF，移除隐藏内容
qpdf --sanitize input.pdf output.pdf

# 解密PDF（如果知道密码）
qpdf --password=123456 --decrypt input.pdf output.pdf

2. 自制PDF分析工具

基于PDFBox写了个小工具，专门用来挖掘PDF的隐藏信息：

public class PDFSecretHunter {
    
    public void analyzeSecrets(String pdfPath) throws IOException {
        PDDocument doc = PDDocument.load(new File(pdfPath));
        
        // 1. 提取元数据
        extractMetadata(doc);
        
        // 2. 查找隐藏文本
        findHiddenText(doc);
        
        // 3. 分析嵌入文件
        analyzeEmbeddedFiles(doc);
        
        // 4. 检查JavaScript代码
        findJavaScript(doc);
        
        doc.close();
    }
    
    private void findHiddenText(PDDocument doc) throws IOException {
        // 遍历所有页面的内容流
        for (int i = 0; i < doc.getNumberOfPages(); i++) {
            PDPage page = doc.getPage(i);
            // 这里可以分析页面的内容流，查找被覆盖或隐藏的文本
        }
    }
}

安全提醒

重要提醒

如果你需要彻底删除PDF中的敏感信息，记住：

不要只是用黑框覆盖文字
不要简单地删除页面内容
要使用专业的PDF编辑软件的"永久删除"功能
要重新生成PDF文件，而不是修改原文件

有趣的发现

在研究过程中还发现了一些有意思的事情：

PDF病毒：是的，PDF可以包含JavaScript，理论上可以执行恶意代码
隐写术：可以在PDF中藏入其他文件，比如在合同里偷偷藏个视频
水印追踪：很多PDF会嵌入不可见的ID，用于追踪文件来源
字体指纹：通过分析字体使用情况，可以推断出创建者的系统环境

实战案例分享

最后分享个真实案例：某次帮朋友恢复一份"损坏"的学术论文PDF。表面看起来文件打不开，但用十六进制编辑器发现只是PDF头部信息损坏了。

手动修复了几个字节后，文件完美恢复。朋友激动得要请我吃饭，我心想这也就是改了个 %PDF-1.4 而已...

写在最后

PDF比我们想象的复杂得多，也有趣得多。掌握这些知识不仅能帮你解决实际问题，还能让你在技术圈装个小B（开玩笑）。

下次收到PDF文件时，不妨用工具扫一扫，说不定会有意外收获。当然，记住要在合法合规的前提下进行，不要做坏事哦。

对PDF逆向工程感兴趣的朋友，可以关注我的GitHub项目，会持续更新相关工具和技术分享。

解密PDF：那些藏在文件里的小秘密

文章摘要

意外的发现

PDF不是你想象中的样子

隐藏信息1：创建历史

隐藏信息2："删除"的内容

隐藏信息3：修订历史

实用工具推荐

1. qpdf - PDF手术刀

2. 自制PDF分析工具

安全提醒

重要提醒

有趣的发现

实战案例分享

写在最后

admin

相关标签

推荐工具

相关推荐

PDF图层的黑魔法：一个文件如何同时满足10种不同的输出需求？

移动端PDF阅读体验优化：从卡顿到丝滑

PDF实时协作标注：我们如何实现多人在线批注

每天10万份PDF的批处理优化实战

我用低代码思维重新设计了PDF模板引擎