Rebel100™

ハイパースケールのマルチモーダルAI∙MoEを加速させる次世代NPU

Contact Sales Download Brochure

フラッグシップGPUを超える性能とエネルギー効率 -　H200対比3.2倍の TPS / Watt

Rebel100™は次世代LLMサービスを高効率および低電力で提供できます。混合精度コアやPredictive DMA、UCIeインターコネクトを通じて、高い演算効率と早いデータ処理を実現します。ラック·スケールの性能とモジュールの拡張性を基に、あらゆる環境でも即時にデプロイし、安定的な運用ができます。

Read White Paper

Architecture

4-homogeneous-chiplet SoC based on
UCIe-Advanced

Compute (Dense)

1,024 TFLOPS (FP16)
2,048 TFLOPS (FP8)

External Memory

HBM3E 144GB 4.8TB/s

Chiplet Interface (UCIe-A)

16Gbps
1TB/s per channel

Host Connection

2x (64GB/s + 64GB/s)
2x PCIe Gen5 x16

Power Consumption

Up to 600W

Software

Native-support of PyTorch 2.x, vLLM and Triton

One Engine.
Mixed Precision.

Rebel100™はFP8とFP16演算を一つの混合精度パイプラインで同時に処理します。ブロックの追加やカーネルの再コンパイルが不要です。ATOM™対比2.8倍高い演算密度を提供します。

Prefetch Smarter.
Decode Faster.

Rebel100™は KVデータを事前にロードするために、ソフトウェア制御方式の予測基盤DMAエンジンをオンチップ・メッシュネットワークと密結合します。2.7TB/sの帯域幅が実現でき、32K+ context LLMでもトークンレベルのレイテンシを画期的に短縮します。

Modular Architecture.
Monolithic Efficiency.

Rebel100™はUCIe-Advancedインターコネクトを通じて、チップ全体のメッシュ構造を拡張します。チャンネルごとに両方向1TB/s、11nsのレイテンシで接続しているチップレットが、一つのバーチャルダイのように動作します。ソフトウェア修正も、I/Oボトルネックもなく、円滑に拡張できます。

No Stalls.
Full Throughput.

Rebel100™は256個のルーターとフルメッシュハードウェアの同期に対応します。演算の偏差が大きい場合や希少なワークロードでも、すべてのチップレットとモデル間で、リソースの活用効率を高く維持します。

Rebel100™

フラッグシップGPUを超える性能とエネルギー効率 - H200対比3.2倍の TPS / Watt

4-homogeneous-chiplet SoC based on UCIe-Advanced

1,024 TFLOPS (FP16) 2,048 TFLOPS (FP8)

HBM3E 144GB 4.8TB/s

16Gbps 1TB/s per channel

2x (64GB/s + 64GB/s) 2x PCIe Gen5 x16

Up to 600W

Native-support of PyTorch 2.x, vLLM and Triton

One Engine. Mixed Precision.

Prefetch Smarter. Decode Faster.

Modular Architecture. Monolithic Efficiency.

No Stalls. Full Throughput.

Related Products

ATOM™-Max POD

RebelServer™

ATOM™-Max Server

Enterprise Al Solution

Let's Talk