加密货币-区块链行情,虚拟货币行情,区块链数字货币行情

深挖 ASIC 芯片设计本钱,大家问了 ProgPow 核心开发团队九个问题

更新时间:2021-07-14 07:41点击:

2、内存带宽

这就是为何 Ethash 和 ProgPow 之间存在差异,如下图 1 和图 2 所示:

图 1 :英伟达芯片商品挖矿哈希率比较

图 2 :AMD 芯片商品挖矿哈希率比较

现阶段,以太币ash 挖矿更有利可图,针对该算法的内存需要明显增加,对于高带宽存储器的需要不断增长也促进下一代高速存储器技术被开发了出来,譬如 GDDR6(带宽速度达到 768 GB/s) 和 HMB2(带宽速度达到 256 GB/s)。

对于高带宽内存的需要并不是全部来自“Ethash”,整个高带宽内存市场规模高达 150 亿USD,其中只有极少一部分来自采矿行业。高带宽内存的核心市场需要主要包括:GPU、现场可编程门阵列(FPGA)、AI(人工智能)、高性能计算(HPC)、与游戏。相比于 1.2 万亿USD的AI市场、300 亿USD的 PC 游戏市场、350 亿USD的手持游戏机市场、与 290 亿USD的高性能计算市场,挖矿行业的高带宽内存需要真的是“微不足道”。

问题2、因为 ProgPow 现有构造和算法与 以太币ash 存在相似之处,Innosilicon 的下一款 ASIC 芯片将会为 ProgPow 量身打造吗?

事实上,ProgPow 和 以太币ash 之间唯一的相似之处就是在全局内存(global memory)中用了无环图(DAG)。从计算的角度来看,以太币ash 仅需一个固定的“keccak_f1600”内核和一个模数函数(modulo function)。另一方面,ProgPow 需要的则是可以实行 16 通道宽的随机数学序列,同时还要可以访问高带宽一级缓存(L1 cache)。设计一个可以实行 ProgPow 数学序列的计算内核,比设计一个可以达成类似“keccak”如此的固定函数哈希要难得多。

另外应该注意的是,以太币ash 的哈希值只取决于内存带宽,而 ProgPow 算法则同时取决于内存带宽和随机数学序列的核心机算——理解这一点尤为重要。

工作量证明(PoW)的本质其实是通过耗费硬件和能源本钱进行数学计算证明,作为一种算法,以太币ash 在数学证明中并不会耗费大多数硬件成本(计算引擎)。相反,以太币ash 只捕获内存接口,这就是为何你可以用一个用于数字货币挖矿的 ASIC 芯片来把数学计算中没被捕获到的部分给消减掉。

问题3、因为 GPU 是通用加速芯片,因此设计、制造和测试 GPU 的周期一般需要大约十二个月,而且还需要进行很多硬件模拟和软件开发工作,使其可以覆盖不一样的计算策略和场景。

ProgPoW 期望可以捕获全部硬件本钱(尽量地做到),因为该算法更新的部分可以捕获运行不同计算场景的计算硬件——直到构造褶皱(architectural wrinkles)——因此对于 ASIC 芯片设计来讲,可能需要耗费不止 3-4 个月的时间。

因为时间跨度较长,随之会引发出另一个问题:为何浮点运算(floating point operation)被省略掉了?这个问题的答案其实也很简单:浮点运算不可以跨芯片移植,不同芯片总是会以不同方法来处置与特殊值(譬如下确界、非数字数值、与有关变体等)有关的边界案例(corner case)。边角案例也被成为病态案例(pathological case),是指其操作参数在正常范围以外的问题或是情形,而且多半是几个环境变数或是条件都在极端值的情形,即便这部分极端值都还在参数规格范围内(或是边界)。其中最大的分歧在于非数字数值(NaN)的处置,这会在用随机输入时自然发生,引用维基百科页面的讲解:

假如有多个非数字数值(NaN)输入,其有效负载结果应该来自其中一个非数字数值输入,但标准却没具体说明。

这意味着,假如要用浮点运算的话,基本上每一个浮点都需要进行“if(is_special(val))val = 0.0”检查配对,这种检查一般可以在硬件中完成,因此也会让用于数字货币挖矿的 ASIC 芯片从中受益。

下面,哈希率(Hashrate)和“hash-per-watt”又是什么呢?

哈希率是衡量能源本钱的指标,只须每一个人都以同样的方法进行衡量,每单位的能源消耗就不那样要紧——矿工也会继续投入尽量多的能源挖矿。不过即使你把测量单位从 1 以太币ash (较小单位,譬如焦耳)切换成 1 ProgPow-hash(较大单位,譬如卡路里),运营本钱的经济性其实也不会发生变化。全局哈希率(Global Hashrate)会评估每一个人对保护互联网共享的总经济网站权重,只须每一个人的贡献都被公平地衡量且用相同的单位,对于一般矿工来讲,切换到 ProgPow 算法不会带来什么变化。

当然,有人会说假如ETH推行了 ProgPow 算法可能会能够帮助把矿工集中在拥有高档 GPU 的大矿场里,同时也会刺激矿场把 GPU 升级到最新型号。但ProgPow 算法开发团队 IfDefElse 需要第三重申的是:规模经济永远都会存在,而且也是现实世界里不可回避的事实。

问题4、相比于 GPU,ASIC 芯片生产厂家可以用较小的 GDDR6 内存来获得本钱优势。在维持内存本钱水平的同时,16 个 GDDR6 4GB 的内存条可以达成两倍的带宽优势,是如此吗?

第一,拥有两倍的带宽优势就需要两倍的计算,这其实是一种线性扩容(linear scaling),并不可以看做是一种优势。

第二,大家现在应该还没为 GDDR6 筹备好生产 4GB 内存芯片的筹备。全球第三大内存芯片厂家 Micron(美国美光)只生产 8GB 芯片,三星则生产 8 GB和 16 GB芯片。对于内存芯片而言,GDDR6 IO 接口地区是很昂贵的,而且与存储器单元相比,每一代接口都占用了更多的实质存储器管芯,因为端口物理层(PHY)不可以像存储器单元那样通过工艺方法缩小。

不能否认,真的推进内存市场的是一些“长周期用户”,譬如游戏机、GPU 等,他们也倾向于支持容量更大的内存。事实上,现在的内存提供商没动力去大量量生产一个 4GB 的内存,毕竟市场对这种内存容量的需要并不大。

问题5、RTX2090 芯片中有很多模块占用了很多芯片模片区面积,而且对 ProgPow 毫无用处,包括 PCIE、NVLINK、L2Cache、3072 分片单元、64 个 ROP、192 个时间测量单元(TMU)等,怎么样看待这个问题?

RTX2080 不是讨论这个问题的好参照物,因为一些新功能,英伟达(Nvidia)的 RTX 系列芯片中有的模块占据了大多数芯片模片区面积,譬如光线追踪核心等。ProgPow 设计则是与英伟达和 AMD 生态系统中的存量芯片商品搭配用的,因此没办法用英伟达和 AMD 新款芯片商品中的新功能。

假如想有一个更好类比的话,可能 AMD RX 5xx 系列或是英伟达 GTX 1xxx 系列是个很好的参照。正如大家之前所述,GPU 中也有部分功能没被 ProgPow 借助,譬如:浮点逻辑、二级(L2)缓存、与纹理缓存和 ROP 等。分片单元是向量数学被实行的地方,这肯定是 ProgPow 所需要的。用于数字货币挖掘的 ASIC 芯片还期望添加可以达成“keccak”功能的地区。作为ProgPow 算法的开发团队,大家估计 ProgPow ASIC 芯片的模片区面积会比同等 GPU 小 30%——但,即使是在最好的状况下,其功耗最多也只能减少 20%。相比之下,虽然 GPU 上有的逻辑模块没被充分应用而导致部分芯片模片区面积浪费,但功耗却是最小的。

问题6、与大芯片相比,小芯片的收益会更高吗?

如何说好呢,这听上去像是在普及芯片制造常识,可能大家需要写一篇《芯片制造 101》的培训文档。除此之外,对于收益计算公式可以参考一篇 2006 年发表的文章《Compare Logic-Array To ASIC-Chip cosplayt per Good Die》,其中你会发现,早在 13 年之前芯片收益和步骤控制就已经有非常大革新了。

对于具备单个功能单元的芯片,模片区面积较小的芯片收益会比模片区面积较大的芯片更高。但对于现代 GPU 来讲,状况并不是这样。现在的 GPU 几乎可以任意恢复、组合,小型复制单元的缺点基本上可以忽视。只须每一个可压缩功能单元足够小,那样 GPU 芯片收益几乎可以和功能模块更大的芯片一样高(甚至更高)。

为了更好地讲解这个定义,大家可以举一个容易的脑洞实验:

1、假设你有一个大芯片“Giant ChipA”,它占据了整个晶片。这个“Giant ChipA”是由 10 万个可拆卸子组件组成,但其中需要确保 80% 的子组件是无缺点的,才能保证“Giant ChipA”正常工作,而在嵌入过程中,坏的子组件会被绕过。

2、另外,假设你还有一个小芯片“Tiny ChipB”,它只有一个功能模块(不可嵌入)组成,但这个小芯片却小到足以在同一个晶片上装配 10 万个子组件。在这样的情况下,只须一个子组件坏了,意味着整个“Tiny ChipB”芯片就是坏的。

3、假如每一个晶片上平均分布了 2 万个有缺点的子组件,那样“Giant ChipA”的收益可以为 100%,由于他们可以将 20% 有缺点的子组件拆掉,而“Tiny ChipB”的收益可能仅为 80%,由于他们没办法拆掉有缺点的子组件。

假如你看看 AMD 的 Polaris 20 系列商品和英伟达的 GP 104 商品,会在模拟镜头下发现这部分 GPU 中部署了很多微小的“可拆卸”子模块组成。

问题7、ASIC 矿机电压可以非常轻松地减少到 0.4V,只有 GPU 的二分之一……如此低电压的 ASIC 设计已经被BTC挖矿设施 ASIC 矿机制造商所使用,所以目前大家没理由不相信他们不会把这种方案应用在 ProgPow ASIC 矿机上,能谈谈这个问题吗?

当芯片仅由计算构成,那样低电压设计才能奏效,譬如一个专门针对 SHA256d 挖矿算法计算的 ASIC 矿机。集成其他原件——譬如 SRAM,这也是 ProgPow 数据缓存所必需的——的困难程度很大,也不可能在低电压下工作。

问题8、同样的节能成效也能在 LPDDR4x DRAM 上达成,其功耗比 GDDR6 还低,谈谈这个问题吧。

不可以仅考虑能耗问题,LPDDR4x 的带宽比 GDDR6 低不少,前者每一个引脚带宽是 4.2Gb / s,后者则是 16Gb / s。LPDDR4x 计算芯片上需要四倍的内存芯片和四倍的内存接口才能达到 GDDR6 相同的性能,如此一算,其本钱其实是显著增加的。

值得注意的是,高带宽计算芯片的接口一般是有限的,这意味着芯片模块面积需要要足够大,周围几乎不允许任何信号从芯片掉落到印制电路板(PCB)上,LPDDR4x 设计需要大约四倍的芯片周长焊盘数才能达到相同的带宽,也就是说,其本钱不只在存储芯片上,计算芯片地区的本钱同样也要计算在里面,所以综合算下来其实总本钱并不低。更糟糕的是,因为任何芯片都是以速度为导向的,当芯片模块面积更大的时候,意味着浪费的功率也会更多。

所以,可以让大家再想想为何现在的 GPU 不可以再 LPDDR4x 上运行。第一,LPDDR4x 在带宽本钱上的表现并不尽如人意,对于给定的带宽量级(芯片数目的四倍),LPDDR4x的本钱要高出四倍以上,继而致使本钱显著增加——LPDDR4x 在 9W 功率时 256 GB/s 带宽的本钱约为 150 USD,相比之下 GDDR6 在 11W 功率时同样带宽本钱还不到 40 USD,因此 LPDDR4x 并没让矿工省到什么钱(注意,这里说的是带宽本钱,而不是内存容量本钱)。

问题9、像英伟达如此的 GPU 生产厂家雇佣了大约 8000 人来开发 GPU,这部分 GPU 也很复杂;而像 LinZhi 如此的 ASIC 生产厂家只雇佣了十几个人,而且只开发用于 以太币ash 挖矿算法的 ASIC 矿机。这部分企业的劳动力本钱相差 100 被,因此能不能说 ASIC 芯片在本钱和上市时间方面比 GPU 芯片更具优势。

在此要说的是,规模经济是一个要紧原因。GPU 行业也是在全球各种销售途径中摊销,现在总市场规模大约为 4200 亿USD,其中 AMD 市值约为 116 亿USD,英伟达约为 1545 亿USD,最大的英特尔约为 2548 亿USD。仅就内存市场而言,还需要在这个总规模达到 5000 亿USD的行业里分摊物理端口(PHY)和晶片的本钱,其中拥有 320,671 名职员的三星电子市值约为 3259 亿USD,他们也是在美国最活跃的专利申请者;2、是拥有 34,100 名职员的Micron Technology,其市值约为 601 亿USD,但第一个开发出 20Gbps 高速 GDDR6 内存的芯片制造商;海力士拥有 187,903 名职员,市值约为 568 亿USD,他们开发了全球首款1Ynm 16Gb DDR5 DRAM。相比之下,用于数字货币挖矿的 ASIC 芯片行业总市值不过 1460 亿USD,其中 730 亿是BTC。

另外大家还要看看上市时间和技术同意模型(TAM),在此可以以著名的 S9 矿机继任者开发时间作为参考。假如经过充分研发、并且计算困难程度不是非常高的 SHA256d 算法计算芯片都需要耗费三年时间才能进行迭代,那样又有哪些可以保证像 GPU 一样的、支持 ProgPow 算法的 ASIC 矿机迅速投产上市呢?大家还可以剖析一下近期挖掘ETH数字货币的 ASIC 矿机状况,GDDR6 芯片样品试用期已经有一年时间了,到现在仍然没发布可以被广泛应用的新版本商品。

ProgPow 核心开发团队 IfDefElse 的最后一点想法

ProgPow 其实针对是一种挖矿硬件,这种硬件遭到了规模经济的支持,具备高可见性并获得了较大角逐优势。

ProgPow 核心开发团队 IfDefElse 规模并不大,而且团队成员也都有全职工作,所以他们没办法准时回复所有问题和文章,更没时间在各种数字货币和区块链线上平台里喋喋不休。虽然 IfDefElse 对硬件设计和开发很有兴趣,但他们仍然建议涉足这一范围的人需要维持小心,由于硬件和软件一样,是一个多元化的范围,即使你是一个对数字货币挖矿 ASIC 芯片很熟知的大咖,但在 GPU-ASIC 范围里可能没办法成为一个专家。

只须与 ProgPow 和 Ethash 算法有关,市场上就会出现各种对矿机硬件设计和开发本钱的推断,一般后面还会跟上一个权威声明:请相信发表预测的作者,由于他/她在有关行业范围里拥有丰富经验。这部分推断有时会与数字货币 ASIC 芯片生产有关,还有的时候则是关于集成电路设计。

对于那些更熟知代码、却不太知道扇出(fan-out)和上升时间(rise-times)的读者来讲,本文可能会对他们深入知道 ProgPow 算法有所帮。

(星球君 o-daily 注:Ethash 是现在ETH基于工作量证明的挖矿共识算法,ProgPow 是一个试图削弱 ASIC 矿机优势的挖矿算法。扇出是一个概念单个逻辑门可以驱动的数字信号输入最很多的专业术语。大部分的 TTL 逻辑门可以为 10 个其他数字门或驱动器提供信号,因此一个典型的 TTL 逻辑门有 10 个扇出信号;上升时间是脉冲技术里的一个专业名词,电压上升两个时刻的时间间隔就是互联网变压器的上升时间。)

技术员一直会给人一种无所不可以的感觉,从撰写脚本到开发 iPhone APP,从嵌入式系统到 Windows 操作系统。但,会写代码开发应用程序不代表你能成为 APP Store 应用商店后端(或改变系统效率)的权威人士,可以开发实时多任务操作系统(RTOS)也不代表你能成为扩展 Windows 操作系统本钱权衡范围里的达人。

当然,作为 ProgPow 算法核心开发团队,IfDefElse 在此并非说 Windows 设计师不是“出色的技术员”,但需要要说明的是,因为不同人的技术背景不同,比较容易导致对不同范围的理解和假设偏差,尤其是在讨论规模经济话题的时候。

同样地,一名硬件设计师可能也会涉猎不一样的范围,譬如为一款电动牙刷设计芯片,或是为互联网设施构建一个芯片构造(silicon architect)。生产 10 万个电动家牙刷芯片的工程师可能不会理解生产 100 万个芯片的互联网工程师所考虑的可用规模经济,同样一个数字货币 ASIC 芯片设计师可能对 GPU-ASIC 芯片设计知之甚少——这部分行业彼此之间的联系并非不少,有些甚至是国与国之间的差距。

在概述中大家还要提的最后一点,就是编程和工程其实都是一种方法,除非你天天都在编程写代码,不然非常快就会落后、没办法成为权威,由于这方面的常识更新迭代非常快。可能这也是为何新的数字货币 ASIC 制造商非常难进入基于 SHA-256 算法的挖矿市场,毕竟一个小白技术员想要赶超已经研究 SHA-256 算法六年的工程师是不太可能的。

另一方面,数字货币生态系统里其实并没太多文章介绍硬件常识。当然,数字货币本身就是一个以软件为主导的行业,而且绝大部分硬件工程都是在一些私人公司内部“闭门”研究的。

有的“硬件砖家”正在竭尽全力向软件工程师保证他们可以战胜数字货币生态系统——大家已经在XMR币(Monero)、BTC(比特币)、与 ZCash 等数字货币上看到了这样的情况已经出现。但现实是,这种挑战到今天仍没发生,想想看,假如比特国内或 Innosilicon 试图制造 CPU,你觉得他们可以战胜英特尔和 AMD 吗?

规模经济一直常见存在的——无论是从本钱角度,还是经验角度。对于 ASIC 芯片设计本钱, 芯片设计师们好像一直存在非常大争论,下面就让星球君(微信:o-daily)带大伙一块看看分析一下遭到业内关注的九个问题:

问题1、不管挖矿算法是 ProgPow,还是 以太币ash,哈希值都是由外部动态随机存取存储器(DRAM)的存储带宽决定的,是如此吗?

事实并不是这样。ProgPow 的哈希值是由两个原因决定的:

1、计算核心

此文出于传递更多信息之目的,并不意味着同意其看法或证实其描述。本网站所提供的信息,只供参考之用。

上一篇:展望矿池的“下半场” 下一篇:没有了

相关阅读

官方微信公众号