文本去重

概述

文本去重工具将输入文本按指定分隔符拆分为若干片段,识别并移除完全相同的重复项,输出去重后的结果并列出所有重复内容及其出现次数。适用于清理邮件列表、合并关键词库、去重日志条目等场景。

去重逻辑是精确匹配还是模糊匹配

工具使用严格精确匹配:每个片段按字节内容完全相同才视为重复。以下情况默认不会被合并:

  • 大小写不同:Appleapple 视为不同项(默认区分大小写)
  • 前后空格不同:hello hello 视为不同项(默认不裁剪空白)
  • 编码差异或全半角字符:也视为不同

这种设计适合数据列表去重,不会误合并意义不同但形式相近的条目。

分隔符怎么填

分隔符输入框支持转义序列写法,常用示例:

  • \n — 按行去重(默认值,适合大多数文本列表)
  • , — 按逗号分隔的 CSV 项目去重
  • \t — 按制表符分隔(TSV 数据)
  • ; — 按分号分隔
  • 任意字符串 — 支持多字符分隔符,如 |||

若文本中存在与分隔符相同的内容,会被误分割,建议选用文本内容中不会出现的分隔符。

结果中的重复项统计

工具在去重结果下方列出所有被识别为重复的片段及其出现次数,格式为"内容(N 次)"。这个列表可以用来快速了解数据中的重复分布,例如找出出现频率最高的关键词或识别有问题的数据重复模式。