这篇文章主要介绍“python怎么实现MD5进行文件去重”,在日常操作中,相信很多人在python怎么实现MD5进行文件去重问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python怎么实现MD5进行文件去重”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
工作原理
脚本会检查你给出的文件路径下的所有文件,然后计算每个文件的MD5值,并将其加入到一个列表中。
如果某文件的MD5值不在列表中,就认定其是我们需要的文件,脚本会在桌面新建一个名为“去重结果”的文件夹,并将其复制到里面去。
如果某文件的MD5值在列表中,就认定其不是我们需要的文件,不对其做任何处理。
代码可以直接运行,无需做任何修改(除了安装可能缺少的库文件)
代码
import os
import shutil
import hashlib
# 对文件去重
# 计算每个文件的md5值,据此进行去重
def only_one(test_path):
md5_list = []
count = 0
for current_folder, list_folders, files in os.walk(test_path):
for file in files:
file_path = current_folder + '\' + file # 获取每个文件的路径
f = open(file_path, 'rb') # 开始计算每个文件的md5值
md5obj = hashlib.md5()
md5obj.update(f.read())
get_hash = md5obj.hexdigest()
f.close()
md5_value = str(get_hash).upper()
# 开始去重
if md5_value in md5_list: # 如果这个文件的md5值曾经出现过,就不对它做任何处理
count += 1
print('
版权声明:除特别声明外,本站所有文章皆是本站原创,转载请以超链接形式注明出处!