Comunion 区块链深度学习系列|什么是哈希

文章正文
发布时间:2024-07-15 08:57

Comunion 是一个去中心化的(DAO) 组织协作网络,提供面向数字时代的全新商业基础设施和价值转化机制,致力于让劳动价值 像 资本一样自由流通、交易和积累。

本系列内容包含:基本概念及原理、密码学、共识算法、钱包及节点原理、挖矿原理及实现

发展史

哈希算法是为了检测数据在传输的过程当中是否被篡改而诞生的。

比如特工A和特工B在进行信息交换,为了防止数据在传输的过程中没有被丢失或者被篡改,这个时候可以使用哈希算法。

特工A将其所发的信息进行哈希,然后将信息和哈希码一起传给特工B,特工B收到之后,也可以对文本进行哈希,然后和这个哈希码进行匹配,如果匹配上的话,说明信息在传播的过程当中没有丢失或者被篡改。

最开始诞生的是 MD4 和 MD5 。1990年,工作于麻省理工学院的教授 Ronald Rivest 设计了一种信息摘要算法,这就是 MD4,次年 MD5 诞生。

说到 MD4,大家可能听说过,我们国家的王小云院士曾经将其攻破过,这是一个很重要的研究成果。普通破解MD4法,需要计算2的55次方,而王院士把时间复杂度给降低了,他只需要2的10次方~20方,就把MD4破解了,这就把破解所需的量级降低了很多。

沿着时间顺序后面诞生了SHA-0、SHA-1、SHA-2、SHA-3。

目前来说 SHA 是一个安全的哈希算法,按版本来说才到了SHA-3,其中每个版本相当于一个家族,里面会包含很多不同的哈希算法。

MD4 出现之后,美国国家标准技术研究院,开始进行一个公开的算法募集。

1997年左右,SHA-0 家族开始全球性征集算法,任何人有好的算法都可以提交。这其实是一个全球的算法竞争,其目的是收录全球公认能最好的算法,以此扩充家族。

随着时间的推移,产生了 SHA-2,我们之前所说比特币里面使用的算法 SHA-256,就是隶属于 SHA-2 家族里面的算法。SHA-2 家族里面包含众多算法,比如:SHA-168、SHA-512等,都有不同的尾缀。拿 SHA-256 来说,256 是指算法输出的字符长度。

提到 SHA-256,大家可能会想一下我们前文提到的问题:中本聪为什么选择用SHA-266,而不是其他的哈希算法呢?

刚才我们也说过 SHA 家族的成长是按照时间顺序来的,当中本聪使用这个算法是在2008年,那个时候 SHA-2 家族里面的算法在当时是比较盛行的,虽然当时 SHA-3 也出来了,但是还不太成熟。

所以中本聪采用了 SHA-2 里面的 SHA-256 算法,应用到比特币系统里面去。

沿着时间顺序往下走,我们会看到以太坊里面使用的哈希算法,就不是 SHA-2 家族里面的了,而是 SHA-3 家族里面的。这是因为到2014年的时候,SHA-3 里的算法已经稳定下来了,并且其性能远优于 SHA-2 里的算法。

开发者采用的算法也是根据哈希算法的成熟度,来不断的去采用更成熟、更好的算法。

所以如果读者想设计一个区块链系统,如果里面涉及到使用哈希算法的话,那么一定要选择更好哈希算法,而不是一味模仿之前的系统,这些 SHA 算法仅仅是一个加密算法而已,没有我们想的那么神秘。

哈希函数

哈希函数最开始被称之为摘要函数,意思是消息摘要,下图是对它的定义:哈希函数是为了对于任意长的字符串产生一个消息摘要。

这段话其实有一些含义没有表达出来,对任意长的一个字符串进行哈希,可以产生一个哈希摘要,也就是产生一个由0和1组成的字符串。这个字符串如果给到 SHA-256 的话,那其产生的消息摘要会是一个 256比特由0和1组成的数据串(比特是计算机专业术语,是信息量单位)。

摘要函数是由一对 ppt算法(Gen,H)组成的,这两个算法需要满足两个性质。

ppt算法的意思是概率多项式时间算法,那么什么是概率多项式时间算法呢?

什么叫概率算法?

概率算法也叫随机算法,也就是算法在执行过程中随机地选择下一个计算步骤。其意义是,很大程度上降低算法的复杂度。

比如抛硬币,需要猜硬币是正面还是反面,那么解决这个问题的成功概率是50%,算法只需要重复正或者反就可以了。

什么是多项式?

假设我有一个问题,这个问题是有规模的,规模用参数λ来表示,再引入常数a和c,将其做成一个多项式:a乘以λ的C次方。其中λ是一个安全参数,如问题的规模,密码系统的安全级别,私钥长度等。

概率多项式时间算法组合起来通俗地说就是:当这个算法应用于某一项方案或者攻击一个密码系统,算法最多能运行a乘以λ的C次方的时间,在这个时间内能以多大的概率去解决这个问题或者攻破这个密码系统。

这样的设计使哈希算法非常高效。

需要满足的两个条件

上图第一句话,1λ是一个安全参数,即将安全参数输入到Gen算法中产生一个s。

我们上文讲了有很多哈希家族,每个哈希家族中又包含很多哈希算法,那么到底用哪个算法呢?这里的s就是表示选择的算法,比如选用了SHA-256,那么s就可以确定。

第二句话, 最前面是一个自然数,后面的 ∀x 中x,指任意的字符串,这句话的意思是任意字符串可以任意长,并且用0和1来表示。

继续往下看,H上标s和x,由于第一句话的时候s确定了,那么此时H也就可以确定。

再往下走,对于任意两个消息m1和m2,如果这两个消息经过哈希函数产生的结果是一样的,那么此时就产生了一个碰撞(下文详细解读什么是碰撞)。

我们通过简单分析哈希的定义,其实能发现一个特点:哈希算法能将任意长的输入数据压缩成固定长且短的数据。

例如SHA-256算法能够将任意长的一个字符串,哈希成一个256比特长的由0和1组成的数据串。

利用这个特点我们也就能返回去解释为什么在区块链当中会使用哈希算法。

下期预告:哈希碰撞原理