# run-llama/llama_index中的MD5哈希碰撞漏洞
## 漏洞概述
在 `run-llama/llama_index` 仓库中,`DocugamiReader` 类使用的 MD5 哈希算法生成文本块的 ID 时存在漏洞。这导致结构上不同的文本块在包含相同文本时产生哈希冲突,从而使一个文本块覆盖另一个文本块。
## 影响版本
- 版本 0.12.28 及之前的版本
- 该漏洞在版本 0.3.1 中被修复
## 细节
`DocugamiReader` 类使用 MD5 算法为文档片段生成唯一 ID。当结构不同的片段包含完全相同的文本时,会产生哈希冲突。这是由于 MD5 算法的特性导致的,使得生成的哈希值不唯一。
## 影响
- **数据丢失**:导致语义或法律上重要的文档内容丢失。
- **层级关系破坏**:破坏父级-子级片段的层级关系。
- **AI 输出错误**:导致 AI 输出出现不准确或虚构的结果。
# | POC 描述 | 源链接 | 神龙链接 |
---|
标题: Avoid hash collision in XML parsing (#18986) · run-llama/llama_index@29b2e07 · GitHub -- 🔗来源链接
标签:
神龙速读