主页 > 苹果如何下载imtoken钱包 > 对标谷歌TPU,比特大陆第一代深度学习专用处理器全球首发

对标谷歌TPU,比特大陆第一代深度学习专用处理器全球首发

苹果如何下载imtoken钱包 2023-11-07 05:11:47

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

新智元报道

访问下面的链接以查看事件:

新华网图文点评:

爱奇艺(上)

爱奇艺(下)

阿里巴巴云栖社区:

【新智导】人工智能时代,无论是技术还是市场,中国芯都越来越精彩。 继谷歌TPU之后,中国数字货币独角兽比特大陆今天在AI WORLD 2017世界人工智能大会上正式宣布。 发布了他们第一款用于张量加速计算的专用芯片,采用改进的脉动阵列技术,适用于CNN/RNN/DNN的训练和推理。

比特币矿机挖矿_比特币矿机原理_比特币矿机在哪挖矿合适啊

在芯片领域,有正品和没有正品是有很大差距的。

这就是为什么比特大陆独角兽比特大陆发布的最新芯片Sophon如此引人注目。

凭借在比特币矿机领域的全球领先地位,比特大陆从2015年开始进入人工智能领域。在今天的AI World 2017世界人工智能大会上,公司联合创始人兼CEO詹克团发表了题为“AI驱动的另一个行星计算”的演讲。 ,并亲自发布了公司首款面向AI应用的张量处理器——Sophon BM1680,这是继谷歌TPU之后,全球又一款专用于张量计算加速的专用芯片(ASIC),适用于CNN/RNN/DNN的训练和推理.

事实上,比特大陆在2015年底决定进军人工智能时,就启动了BM1680项目的研发。 2017年4月,BM1680流片。 6月底,我们拿到了BM1680样品。 现在,BM1680支持主流Caffe模型和Darknet模型的编译优化,支持AlexNet、GoogLenet、VGG、ResNet、Yolo、Yolov2等网络。

比特币矿机挖矿_比特币矿机在哪挖矿合适啊_比特币矿机原理

比特币矿机原理_比特币矿机在哪挖矿合适啊_比特币矿机挖矿

BM1680单芯片可提供2TFlops单精度加速计算能力。 该芯片由64个NPU组成。 特别设计的NPU调度引擎(Scheduling Engine)可以为神经元核心(Neuron Processor Cores)提供强大的数据吞吐量和输入数据。 BM1680采用了改进的脉动阵列结构。 值得一提的是,谷歌TPU也采用了脉动阵列结构。

Sophon BM1680内部的加速器核心采用了类似于谷歌TPU的架构,并采用了改进的脉动架构技术。 据介绍,Sophon在运行软件方面的性能在基准测试和成本方面优于传统GPU。

会上,比特大陆还发布了两款新品:深度学习加速卡Sophon SC1和智能视频分析服务器Sophon SS1,并同步发布了SOPHON.AI官网。 目前系列产品已在官网全球销售。

阅读寒武纪兄弟二人的论文,进入芯片领域,与地平线、寒武纪、深鉴处于同一起跑线上

比特大陆成立于2013年,是全球最大的比特币矿机芯片公司。 已成功研发并量产多款ASIC定制芯片和整机系统。 拥有先进工艺的28nm、16nm、12nm集成电路。 具有定制设计的批量生产经验。 其中最具代表性的是用于加密数字货币矿机的BM芯片系列。 官方资料显示,比特大陆自主研发的第五代芯片BM1387是全球功耗最低、性能最高的计算加速芯片。 单芯片每秒可完成800亿次算法计算,量产规模达数十亿。

从数字货币芯片、矿机的研发到矿池的建立,比特大陆自主研发并完成了产业链,而AI是他们最新的应用领域。 但ASIC的设计周期极长,成本高,应用范围窄,研发风险较高。 比特大陆做深度学习ASIC的勇气从何而来? 詹克团表示,其实ASIC的设计比GPU和CPU的设计相对简单,没有难度,而且深度学习算法非常适合ASIC实现。 因此,比特大陆决定开始做深度学习芯片,继续利用比特大陆做高性能计算芯片的优势。

至于如何与英伟达构建的强大软件生态系统竞争,詹克团认为,生态不是计划出来的,而是在市场中发展起来的。 “首先,我们要有一个优秀的团队,在架构设计和产品设计上留出足够的空间,让自己和老产品兼容——如果不和自己兼容,就不能成为一个生态。”

“另一个是产业间的合作,当今时代,商业合作大于竞争,尤其是在人工智能领域,还有无数处女地等待我们去开发,大家要共同努力,把这块蛋糕做大。”更多合作伙伴开展深度合作,包括开源,逐步构建生态。”

对于地平线、寒武纪、深鉴等几家国内芯片公司,詹克团表示,自己最初进入芯片领域是看了寒武纪老师陈天石的论文。 “大家基本上应该站在同一起跑线上,我很尊重他们,他们做得很好。”

詹克团表示:“比特大陆虽然是新手,但我们从2013年就开始做,如果非要说我们有什么优势比特币矿机在哪挖矿合适啊,那就是我们可能跑得更快。毕竟我们公司的市场管理、研发管理、金融,还有很多其他的东西我们在虚拟货币市场都经历了战争般的洗礼,虚拟货币市场是一个发展非常快的市场,所以相对来说,比特大陆可能动作会快一些。”

人工智能驱动的另一个行星计算

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

以下是比特大陆联合创始人兼CEO詹克团在AI World 2017的演讲:《Another Planetary Computing Driven by AI》。

比特币矿机原理_比特币矿机挖矿_比特币矿机在哪挖矿合适啊

詹克团:谢谢新智元的发布会,很用心。 前几位老师的分享很精彩,让我学到了很多。 下一个要给大家汇报的话题是“人工智能驱动的另一种行星计算”。

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

首先介绍一下比特大陆的情况。 成立于2013年,这几年主要做虚拟货币的芯片。 目前在全球拥有1000多名员工,分布在全球十多个办事处。 中国的几个主要城市,包括香港,国外的美国硅谷,以色列的特拉维夫,荷兰的阿姆斯特丹,新加坡都有我们的办公室和研发工程师。

我们采用全定制芯片设计方法设计高速低功耗芯片。 今年16nm节点,我们的芯片出货量已经超过10亿颗。 我们的商业模式非常简单。 核心是出售比特币等虚拟货币矿机。 在比特币、莱特币等主要虚拟货币市场中,一般来说,我们的份额应该在80%以上,甚至可能超过90%。 除了开发和销售矿机,我们还会建设和部署大型数据中心,我们已经建设了数百兆瓦的数据中心。

做完比特币拿锤子找钉子,发现深度学习计算芯片是个好钉子

在比特币上取得一些成绩后,我们感觉手里拿着锤子,到处都是钉子。 在找钉子的过程中,我们发现深度学习是一个非常适合对付锤子的钉子,所以我们开始做这个深度学习计算芯片。

比特币矿机在哪挖矿合适啊_比特币矿机挖矿_比特币矿机原理

首先说一个市场容量比较小的机会,就是互联网小视频。 今天,全世界有 34 亿互联网用户。 假设每个人每天生成20分钟的视频,假设每秒取两帧视频进行分析,保守地说,一帧需要0.1T进行计算,也就是10 Exa Flops。

接下来,让我们看看更大规模的应用程序。 仍然假设每天每个人的语音时间为30分钟,每一秒的语音需要用1T的算力进行处理,计算为70 Exa Flops。 这已经是比特币全网算力的一个数量级提升。

比特币矿机在哪挖矿合适啊_比特币矿机挖矿_比特币矿机原理

在这两个网络小视频中,我们做了比较乐观的假设比特币矿机在哪挖矿合适啊,没有考虑语音和视频的时空不均匀性。 所谓时间上的不均匀性,就是说我们没有办法假设全世界的人都是24小时内均匀分布的去通话然后录视频,但是我们还是做了这个区分。

事实上,在大多数情况下,大量的人会聚集在某个晚上,或者聚集在某个集群,然后过一段时间再切换到另一个集群。 我们不会考虑这种空间不均匀性。

比特币矿机原理_比特币矿机挖矿_比特币矿机在哪挖矿合适啊

比特币矿机挖矿_比特币矿机在哪挖矿合适啊_比特币矿机原理

我们再看一个更大的需求,左图,刚才Chris Rowen教授分享的,他给了我。 橙色线代表全球摄像头数量,蓝色线代表全球人口。 2015年,摄像头的数量超过了人的数量,呈指数级增长。 也就是说,2017年全球摄像头数量达到140亿台,之后年复合增长率为200%。

这里我们拿一小部分进行分析,就是红色的监控摄像头。 2017年,监控摄像头仅占所有摄像头的3%,约为400-5亿个。 以沿途摄像头0.5T计算,2017年需要210台Exa来处理全球监控摄像头。 按照现在的趋势,监控已经成为一个非常合理和硬性的需求,所以我们做这样的假设也是合理的。 这是按7×24小时计算的,这200多个Exa是比特币网络两个数量级的提升。

比特币矿机挖矿_比特币矿机在哪挖矿合适啊_比特币矿机原理

比特币矿机原理_比特币矿机挖矿_比特币矿机在哪挖矿合适啊

上面给出了三个例子,总计算量约为300 Exa。 这300 Exa是什么概念? 这里我列出了世界上人类已知的四种主要计算类型。 我们先来看看PC和笔记本。 PC芯片全球年出货量为2.5亿片。 假设每个CPU有两个核心,主频为2.5GHz,PC和笔记本的寿命为2-3年。 应该有3.8筹码。 例如。 手机出货量每年15亿部。 假设使用寿命是两年,那么全球手机相当于9个Exa。 我们刚刚谈到了比特币的 10 Exa。 我们刚刚谈到了 300 Exa。 和这个相比,提升了两个数量级,很有意思。

比特币矿机在哪挖矿合适啊_比特币矿机挖矿_比特币矿机原理

这么大的算力,它的功耗会是什么样子呢? 让我们来看看功耗。 首先我们来看PC笔记本,假设PC和手机30%的时间,70%的未使用时间,80%的服务器,还有比特币,就是用我们最好的机器假设使用时,约为 100 兆瓦。 这样算下来,应该在1000-3000兆瓦之间。 这时候我们加上Deep Learning的功耗。 假设10瓦1T应该很容易做到,加3000兆瓦是什么概念? 这是我们卢雨桐老师他们造的天河二号规模的100倍。

上面我举了三个例子。 显然,这里没有列出很多东西。 这里最缺的就是智能驾驶。 根据IHS数据,到2035年自动驾驶汽车将超过1000万辆,假设每秒产生约200MB/sec的数据,加上4小时,将超过1000辆Exa,已经进入另一个数量级。 但是时间到了2035年,我觉得1000 Exa还是小东西,不算大东西。

摩尔定律即将走到尽头。 从现在开始,我们还能实现1000倍的性能提升吗?

人类过去30年,对于超级计算,基本上每十年增长1000倍。 五六年后的今天,我们中国人要拿第一,比如天河二号。

随着摩尔定律放缓甚至终结,十年后我们是否仍能实现 1,000 倍的性能提升? 这个问题值得我们算计的朋友去思考。 对于深度学习计算来说,最大的挑战还是功耗,包括大规模集群的功耗和芯片的功耗。 另一大挑战是记忆墙。 我觉得我快走到尽头了。 现在这种计算结合内存墙,未必能解决所有问题。

可以肯定的是,算法上会出现更多支持并行处理的计算。 另外,到目前为止,编程软件技术还不是特别成熟,我认为这方面值得学术界和工业界进行更多的探索。

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

比特币矿机挖矿_比特币矿机原理_比特币矿机在哪挖矿合适啊

深度学习做的其实是多维矩阵计算。 云深度学习接近张量处理是很自然的。

深度学习有什么作用? 它要做的计算本质上是多维矩阵的计算,所以我们可以说,所谓的Deep Learning计算,从做芯片的角度来说,很简单,就是对多维矩阵做各种计算. 如何进行张量计算? 如此大的计算量需要计算机架构上的一些创新,而传统的CPU显然不适合。 因此,从各个行业和论文中可以看出,实际上,Cloud端用于深度学习的高性能芯片的架构已经逐渐向Tensor架构靠拢。

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

比特币矿机原理_比特币矿机在哪挖矿合适啊_比特币矿机挖矿

从Cloud端看,Deep Learning的计算非常简单。 一是性价比和能耗比。 对于Deep Learning来说,确实会在这两方面表现的相当不错。 所以,对于云端的深度学习计算,我觉得谷歌的“TPU”张量计算处理器,Tensor这个名字很贴切。

终端深度学习难度更大

然而,深度学习计算还有另外一种芯片应用,就是终端。 个人认为比较难。 因为这种架构要受限于单芯片的功耗,不能太大。 一般来说,这种芯片很难超过10瓦,所以设计这样的架构是很有挑战性的。

在这种芯片里面,一般来说CPU都要参与到数据传输和计算任务的调度中,所以刚才寒武纪也提到了它的市场方向,我觉得寒武纪确实是一个非常伟大的公司。 当它进入这个领域时,它阅读了两兄弟的论文。 他们还在Deep Learning领域啃着最难啃的骨头,真的很厉害。

谷歌TPU重夺脉动阵列,计算机架构开发周期向前推进

让我们来看看收缩压是什么。 Systolic 是收缩阵列。 它在处理深度学习操作方面具有独特的优势。 使用硬件实现多维度的数据处理和计算任务的调度,可以达到非常高的性能,更适合使用。 在云中加速。 我们都知道谷歌的TPU是基于Systolic架构的,但是Systolic并不是什么新鲜事物,Systolic可能比我还老。 随便查了一下,最早能找到的文献是1984年的,对Systolic的描述很清楚,也有一些论文对Systolic进行了各种描述。

比特币矿机在哪挖矿合适啊_比特币矿机挖矿_比特币矿机原理

其实计算机的发展一直都是这样的。 每当一个新的计算任务出现时,许多专家、教授和工程师都会想出各种新的解决方案来应对这个问题。

比特大陆第一代深度学习计算芯片发布

比特币矿机挖矿_比特币矿机原理_比特币矿机在哪挖矿合适啊

比特币矿机在哪挖矿合适啊_比特币矿机挖矿_比特币矿机原理

让我向您报告我们制造的产品。 BM1680是我们的第一代深度学习计算芯片。 我们从2015年底开始设计这个芯片,2017年4月推出,经过前几个月的2017年6月的今天,据说这个芯片可以量产,或者个别指标可以更快量产。

这是一张用我们的芯片做的深度学习加速卡。 在这张卡上,我们还可以运行Googlenet、VGG等这些经典的Nets,这是为了性能指标。 如果您更担心,可以访问我们的网站。 看具体资料。

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

这是用我们芯片做的双芯片卡,功耗基本翻了一倍。 这是通过将卡插入其中而制成的服务器。 在这个服务器上,我们实现了人脸检测,行人检测,属性分析,人脸识别。

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

让我们给你一个示范。 做这个demo的深度学习算法的大家都不陌生。 没有什么新鲜事。 就是小汽车在跑,然后用画框框起来。 在这里我要告诉你一个秘密。 我们今天的新鲜之处在于与众不同。 在哪里? 就是这里的算法。 所有这些涉及神经网络计算的算法都运行在我们前面介绍的BM1680芯片上。 这是唯一的秘诀,其他都一样。

比特币矿机挖矿_比特币矿机原理_比特币矿机在哪挖矿合适啊

下一个环节是人脸识别的演示。 早上在我们摊位报名的朋友可以上来当义工,看看能不能认出来? 谢谢! 已经认出来了。

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

现在让我们继续最后的广告链接。 首先告诉大家,我们的二代芯片1682将在下个月发布。 它还使用 16 纳米工艺。 功耗还是30瓦左右,算力3T左右。 第三代芯片将于明年9月发布。 它将使用 12 纳米工艺。 功耗仍将涉及30瓦,计算能力将达到60T。 应该没有问题。 这个芯片我们只会支持更多的数据精度,支持16位和8位。 第四代、第五代,我们将继续走快速迭代、精益求精的道路,一代代把它做好。 我希望你能与我们有更多的合作。

比特币矿机在哪挖矿合适啊_比特币矿机原理_比特币矿机挖矿

比特大陆在AI in Deep Learning领域的使命,或者说我们的目标,和我们做数字货币是一样的。 通过点点滴滴,一代又一代的芯片,一代又一代的产品,把产品做到极致,做到最好,服务于需要深度学习加速服务的用户和应用。 谢谢!

比特币矿机挖矿_比特币矿机在哪挖矿合适啊_比特币矿机原理