2020年12月17日木曜日

China's AIPerf500, Nov 15, 2020

スパコンポエム Advent Calendar 2020 https://qiita.com/advent-calendar/2020/sc_poem への参加です (2020年12月18日)。

2020 China HPC Top100, Nov 15, 2020 https://this-may-interest-you2.blogspot.com/2020/12/china-hpc-top100-2020-nov-15-2020.html
China HPC Top500記事を眺めていた際、AIPerf500という見慣れないランキングに気づきました。

AIPerf500は China HPC 500と同じく ChinaSC 2020 (11/15:SC20開催中) に発表されたそうですが、公式サイトは見つかりません。いくつかの記事等を参考にして考察してみます。AIPerf500 1位のサイトは IO500, Nov 2020の 1位のサイトでもあります。
※2020年12月18日:Atlas 900 Compute Node, Technical White Paper, 2020-12-15追加

概要

  • AIBench, BenchCouncil
  • AIPerf500
  • 云脑II (鹏城实验室), Cloud Brain II (Peng Cheng Laboratory)
  • IO500
  • 2024年には 4 ExaFlopsシステム
  • ※ページ内リンク設定が解らないのでスクロールして下さい。

AIBench, BenchCouncil

手がかりとして、中国には、中国科学院の BenchCouncil: International Open Benchmarking Councilによる AIBench: A Datacenter AI Benchmark Suite
があり、積極的に国際学会でチュートリアルを開いています (↑左側)、11月16日にランキングを発表しました
"AIBench and Its Performance Rankings", Prof. Jianfeng Zhan, Bench'20, 2020.11.16


ここに AIPerf500の名前が出てきますが、自分たちとは違う団体で (大学名が聞き取れない)、ベンチマークの問題点を指摘しているだけです。
"Scalable but hard to ensure repeatability" はベンチマークとして問題大ありでは…


AIPerf500

で、AIPerf 500に戻りますが、
で紹介した
"AIPerf500人工智能算力榜新鲜出炉 鹏城云脑II高居榜首", 2020年11月18日
いろいろ見比べてこの記事が一番詳しいです。だがしかし、この記事を含めて「何を測定し、どのような基準で順位付け」しているか書いてません、何故に…

ここに 1位~10位の表があります (他のサイトでは一覧は見つかりませんでした)

そもそも指標の AIPerf score (Tops) の意味が解りませんが、1位はぶっち切りで
云脑II (鹏城实验室):                         194527.25 (Huawei Ascend910)
A Video Company (联泰集群):            16361.28 (NVIDIA Tesla T4)
A Video Company (联泰集群):             4220.42 (NVIDIA GTX 2080Ti)
A Technology Company (联泰集群):    10360 (NVIDIA V100)
中软国际 (中软国际):                             5070 (NVIDIA V100)

AIPerf500ですが、11位~500位のリストは見つかりませんでした。

云脑II (鹏城实验室), Cloud Brain II (Peng Cheng Laboratory)

ところがなんと!、少し前まであった 1位獲得の鹏城实验室 (Peng Cheng Laboratory) のプレスリリースが消えてます…
”“鹏城云脑Ⅱ”获中国超级算力大会AIPerf500榜首”、2020-11-17
2020年12月15日 10:20:01 GMT に取得

上の記事にあるこの画像と
1位の賞状と確か表彰式の写真がありました。
何故消えた…

この写真を見るとおり、鹏城云脑Ⅱはかなり巨大なシステムです。記事には
ノード数:512
AIアクセラレータ: Huawei Ascend910 (32GB) × 4096
CPU: Huawei Kunpeng 920 (ARMv8.2) 2.6GHz × 2048 (98304コア)
Memory: 2048 GB/node
Total Memory: 1024 TB
Network: RoCE 100G (Ascend910: 1x 100GbE RoCEv2 + CPU)
OS: Huawei Euleros 2.8 
※2020年12月18日:Atlas 900 Compute Node, Technical White Paper, 2020-12-15追加
 
※ここまで

搭載されている Ascend 910については
チップ公開、2019年8月23日

パフォーマンスがかなり高く、足回りもしっかり考慮されたチップです。
Hot Chips 2019
"DaVinci: A Scalable Architecture for Neural Network Computing",
Huawei, Aug 19, 2019
Ascend 910 AI Serverは Intel Xeonから Huawei Kunpeng 920 (ARMv8.2) に変更。

Da Vinci Architecture, Whitepaper, Huawei Communicate, Dec 28 2018
プレスリリース、2018年12月10日
"Huawei Releases AI Strategy and Full-Stack, All-Scenario AI Portfolio", Dec 10, 2018

云脑II, Cloud Brain IIのプレスリリースがありました
"Huawei and Peng Cheng Laboratory Build Cloud Brain II, Embarking on a New Chapter for AI Clusters at 1000 PFLOPS Scale", Nov 29, 2019

両者はその前から関係があり
"Peng Cheng Laboratory Ecosystem Practice", Sep 20, 2019
2019年9月3日に Joint Labを設立しています。

Peng Cheng Laboratoryの設立は、Brief Introduction http://www.szpclab.com/about/ 
によると、2018年3月、設立主体は明記されてませんが、深圳市や広東省が関係しているでしょう。将来的にはかなりの規模になるようです:Lab Locations

こちらのが解りやすいです:
"国之重器鹏城云脑-2入驻鹏城实验室", 深圳市人民政府, 2020-09-22
全体ではすごい規模になるようです…


IO500

突然 IO500が出てきましたが、実は Peng Cheng Laboratoryは IO500, Nov 2020
1位を獲得した機関です。

現時点で MadFSの詳細は不明ですが、Huawei Atlas 900最大構成を活かすために Huaweiと共に強力なファイルシステムを構築したと思われます。

※2020年12月18日:Atlas 900 Compute Node, Technical White Paper, 2020-12-15追加
各ノード (2x Kunpeng 920 (ARMv8) + 8x Ascend 910 NPU) の、それぞれの Ascend 910 NPUから 100Gb RoCEv2直接接続が可能。

鹏城云脑Ⅱの場合は、機械学習プロセッサ:Ascend 910 NPUから最大 4,096x 100Gb RoCEv2直接接続が可能、なのでそれなりのストレージが要求される。  
実構成は公開されてないが、IO500, Nov 2020での接続ノード数は 255。

Huaweiは 100Gb RoCEv2対応の独自 AI Fabricを提供
参考ツイート https://twitter.com/ogawa_tter/status/1336290921856430081
当然ながらストレージも提供。
※ここまで
SPEC CPU 2017 Integer Rate Result, Test Date: May-2020
SPEC CPU 2017 Floating Point Rate Result, Test Date: May-2020
Huawei (Test Sponsor: Peng Cheng Laboratory)
です。

2024年には 4 ExaFlopsシステム

Peng Cheng Laboratoryと IO500で調べていたところ、興味深い記事がありました
"高文院士:鹏城实验室为国家实验室种子队 鹏城云脑Ⅱ冲刺全球IO500榜单"、 2020-11-17
高文さんは Peng Cheng Laboratoryの所長で、
中国国际高新技术成果交易会, 2020.11.11  - 11.15 https://www.chtf.com/ での 11月11日の講演の記事です。残念ながらこちらの全文アクセスは要登録となってしまったようです
以前のツイートの画像

鹏城云脑IIは名前の通り第二世代 (建設一代)、初代は 100 P ops (完成一代)
さらに 2024年には第三世代
4 ExaFlops, 60 Exa Ops
を計画しています。

2024年に 4 ExaFlopsを実現出来たら、ダントツ世界一でしょうが、実現しても中国国外に情報発信する可能性は少ないかもしれません。
Huaweiと組んでいるので、Huaweiが最先端ファブを利用出来れば可能性が無いとも言えなさそうですが、どうなるか気になりますね。

0 件のコメント:

コメントを投稿

Tesla Memo [3/3] : Tesla AI Day, Aug 19, 2021

Teslaについて過去ツイートを纏めてみました (Memo from my past tweets)。 Tesla Memo [1/3] : Tesla Autonomy Investor Day, Apr 2019 - Sep 2020 https://this-may-int...