item3 - 5 文件上传解析模块1

约 911 字大约 3 分钟

实现大文件的分片上传、断点续传、文件合并以及文档解析功能

目的

前端：

将需要上传的文件进行分片，利用 Fine Uploader 工具将大文件按照 5MB±10% 进行分割传输

后端：

文件状态存储：利用 Redis 的 BitSet 存储各分片的上传状态

对象存储：利用 MinIO 作为分片文件的存储系统

断点续传：Redis 记录分片状态，可以支持客户端中断后继续上传未完成的分片

在成功上传完文件后，就会结束与前端的交互，利用 kafka 来作为消息队列，实现生产者 - 消费者模型，将文件合并和向量化任务异步分发

多消费者并行处理，来提升系统吞吐量

利用 Apache PDFBox, Apache POI, Apache Tika 来分别处理解析

按固定大小将提取的文本内容分段

通过调用阿里向量化 API 实现，生成的向量数据目前存储在 Elasticsearch 中

因为需要存的是 2048 维的向量表示，而豆包不支持

使用 BitSet 记录已上传分片的位图（SETBIT命令）

存储上传任务的临时状态和进度

缓存热点文件的元数据，减轻数据库压力

临时分片：存储上传的文件分片，路径结构为 /temp/{fileMd5}/{chunkIndex}

完整文件：合并后的文件存储在 /documents/{userId}/{fileName}

存储策略：实现热冷数据分离

存储文本向量数据和原始文本内容，索引基于文件 MD5 和分块 ID 组织