文本相似度计算工具 - 编辑距离算法对比

专业的在线文本相似度计算工具,基于编辑距离(Levenshtein距离)算法计算两段文本的相似度。支持内容去重、查重检测、版本对比等场景。

相似度结果

90.91%
相似度
1
编辑距离
11
最大长度
1
需要操作
相似度90.91%
不同相似几乎相同

计算说明

编辑距离 (Levenshtein距离): 将一段文本转换为另一段文本所需的最少单字符编辑(插入、删除或替换)操作次数。

相似度计算: 相似度 = (1 - 编辑距离 / 最大长度) × 100%

应用场景: 内容去重、查重检测、版本对比、模糊匹配、数据清洗等。

# 什么是文本相似度?

文本相似度是指两段文本在内容上的相似程度。本工具使用Levenshtein编辑距离算法来计算相似度, 这是一种衡量两个字符串差异程度的经典算法。编辑距离越小,相似度越高,表示两段文本越相似。

# 如何使用本工具

  1. 在左侧输入框中输入或粘贴第一段文本
  2. 在右侧输入框中输入或粘贴第二段文本
  3. 系统会自动计算并显示相似度结果
  4. 查看编辑距离、相似度百分比等详细指标

# 算法原理

  • Levenshtein距离: 通过动态规划计算,将一个字符串转换为另一个字符串的最少编辑次数
  • 编辑操作: 包括插入一个字符、删除一个字符、替换一个字符三种基本操作
  • 相似度公式: 相似度 = (1 - 编辑距离/最大长度) × 100%
  • 时间复杂度: O(m×n),其中m和n分别是两段文本的长度

# 常见问题 (FAQ)

相似度和编辑距离有什么区别?

编辑距离是绝对值,表示需要多少次操作才能将一段文本转换为另一段;而相似度是相对值, 以百分比形式表示两段文本的相似程度,更直观易懂。

这个工具支持中文吗?

支持。本工具基于字符级别进行计算,无论是中文、英文还是其他语言,都能准确计算相似度。 对于中文文本,每个汉字被视为一个字符。

相似度多少算是相似?

这取决于具体应用场景。一般来说,相似度≥80%可视为高度相似,50%-80%为中等相似, <50%为低相似度。在内容查重场景中,阈值可能需要设置得更高。

为什么空文本和任意文本的相似度是100%?

因为两段空文本的最大长度为0,根据相似度公式,0/0被视为100%。实际应用中, 建议先检查文本是否为空,再进行相似度计算。

您可能还需要...

© 2026 星贝工具