支持散列验证的分块上传到S3 [英] Multipart upload to S3 with hash verification

查看:0
本文介绍了支持散列验证的分块上传到S3的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在寻找命令行工具或允许将大文件上载到S3并进行哈希验证的Python库。

AWS article说明如何通过提供content-md5标头自动完成此操作。

目前还不清楚哪些命令行工具可以或不可以执行此操作:

  • rclone的文档说明

    使用分块上载上载的文件没有MD5SUM。

  • s3cmd对此只字不提,但它支持同步功能的MD5

  • s4cmd手册中有一整段,但仍不清楚上传是否经过实际验证

  • boto3/s3Transfer的upload_file()方法实际上没有说明任何问题

您有关于这些工具中的任何一个的信息吗,或者其他一些工具、Python库或boto3代码段,它们使用rsync的可靠性来处理到S3的大文件上载?

推荐答案

在询问了官方aws cli(Boto3)工具的作者后,我可以得出结论:aws clialways verifies every upload,包括多部分。

它使用官方的MD5 ETag验证对单个部分的上传逐个块进行验证。此外,您还可以启用SHA256验证,仍然是逐块验证。

但是,aws cli不会验证整个汇编的文件。为此,您需要使用一些小型的Python函数,例如:

def calculate_s3_etag(file_path, chunk_size=8 * 1024 * 1024):
    md5s = []

    with open(file_path, 'rb') as fp:
        while True:
            data = fp.read(chunk_size)
            if not data:
                break
            md5s.append(hashlib.md5(data))

    if len(md5s) == 1:
        return '"{}"'.format(md5s[0].hexdigest())

    digests = b''.join(m.digest() for m in md5s)
    digests_md5 = hashlib.md5(digests)
    return '"{}-{}"'.format(digests_md5.hexdigest(), len(md5s))

这篇关于支持散列验证的分块上传到S3的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆