Back to Blog

人工知能エッジコンピューティング

エネルギー効率に優れたエッジプロセッサー上のマルチモーダル生成AI

Image of ダスグプタ　サキャシンガ　博士

ダスグプタ　サキャシンガ　博士

Multimodal-Generative-AI-on-Energy-Efficient-Edge-Processors

エッジコンピューティングは、ネットワークのエッジで低レイテンシ、高性能、プライバシーを保持した計算を必要とするデバイスやアプリケーションがますます増えているため、今後数年間で著しく成長すると考えられます。

しかし、エッジコンピューティングが直面する最大の課題の1つに、画像、ビデオ、オーディオ、テキスト、スピーチ、センサーなど、複雑化・多様化するデータソースやモダリティを処理することが挙げられます。そして、この課題を解決するには、マルチモーダル生成人工知能（AI）が活躍します。

マルチモーダルAIは、アプリケーションが人間のような豊かで自然なやり取りを理解し、生成することを可能にします。生成AIには、ユニモーダルなものとマルチモーダルなものがあります。マルチモーダルAIによって、アプリケーションは異なるモダリティから補完的で重複する情報を活用し、結果の精度とロバスト性を向上させることができます。すでにマルチモーダル生成AI機能を使用しているアプリケーションの例としては、会話エージェント、画像キャプション、ビデオ要約、感情認識などがあります。

しかし、マルチモーダルAIはエッジコンピューティングに大きな課題を突きつけます。なぜなら、高い計算能力、広いメモリ帯域幅、複数のデータストリームをリアルタイムで処理し融合する複雑なアルゴリズムが必要になるからです。スマートフォン、カメラ、IoTセンサーなどの従来のエッジデバイスは、バッテリー寿命、ストレージ容量、処理能力に制約があることが多いです。このような制約があるため、性能、効率、品質に妥協することなく、エッジでマルチモーダルAIを実現できる革新的なソリューションが求められています。

マルチモーダル生成AIでデバイスを実現する

このような観点から、生成AIと大規模な言語モデルは、デジタルコンテンツを作成し、消費する方法を再定義する可能性を秘めています。デバイスでは、リアルで興味をそそるテキスト、画像、音声、ビデオをゼロから、またはユーザーの入力に基づいて作成することができます。ライブビデオストリームのキャプションを生成できるスマートカメラや、テキストから自然な音声を合成できる音声アシスタントを想像してみてください。

一例として、DeepMindの最近のFlamingo視覚言語モデルは、マルチモーダルなタスクを解決するためにモデルを導くことができる、テキストとビジュアルのインターフェイスを備えています。これは、大規模言語モデル（LLM）が、テキストプロンプトでタスク例を処理することで言語タスクを実行するのと同じです。

このモデルは、few-shot学習と呼ばれる学習パラダイムに従って、数組の視覚入力と予想されるテキスト応答を見た後に、新しい画像やビデオで質問すると答えを生成することが可能です。

Visual language model in multimodal (images and text) generative AI context
Video credit: Flamingo

エネルギー効率の高いエッジAIプロセッサは、エッジデバイス上で実行可能なマルチモーダル生成AIや大規模言語モデルを実行するための革新的な新しい技術やテクノロジーと組み合わせることで、これらのデバイスを実現する上で重要な役割を果たすでしょう。可能性のある方向性としては、以下のようなものが挙げられます。

マルチモーダルなコンテクストにおいて、パフォーマンスや精度を損なうことなく、エッジデバイスにフィットするコンパクトで効率的な（より小さな言語モデルを含む）生成AIを設計する。
情報や品質を失うことなく、生成AIや大規模言語モデルのサイズや複雑さを軽減する新しい圧縮・量子化手法を開発する。
ローカルデータとリソースを使用して、エッジデバイス上でこうしたマルチモーダル生成AIモデルをトレーニングおよびアップデートするための分散学習および連合学習アプローチを活用する。
クラウドコンピューティングとエッジコンピューティングを組み合わせたハイブリッドアーキテクチャを探求し、生成AIモデルの速度、品質、コストのトレードオフを最適化する。

マルチモーダルな生成AIをエッジに導入することで、産業全体に革命を起こすことができます。そして、EdgeCortixは、将来のエッジコンピューティングに対応するエネルギー効率の高いAIプロセッサーとソフトウェアの技術を開拓しています。私たちは、高性能、省電力、柔軟なプログラマビリティを備えたマルチモーダルAIアプリケーションを作成するための高度なハードウェアおよびソフトウェアツールを提供します。

より多くのエッジ開発者がAIを使いこなせるように

EdgeCortixのビジョンは、防衛・セキュリティ、スマートシティ、ヘルスケア、教育、エンターテインメントなどの産業向けに、マルチモーダルなAI機能でエッジを強化することです。私たちは、マルチモーダルAIがエッジコンピューティングの可能性を最大限に引き出す鍵であると考えています。そして、2つのEdgeCortix製品群は、すでに大きな影響を与えています。

当社のSAKURA AIプロセッサは、ヘテロジニアスなコア、再構成可能なデータパス、メモリを組み合わせた新しいアーキテクチャを採用しており、さまざまなデータタイプやモダリティに対してスケーラブルで適応性の高いパフォーマンスを実現します。ヘテロジニアスなコアは、畳み込みモデルや変換モデルを含むディープラーニング用のコンピュートコア、演算タスク用のベクトルコア、プログラマブルな汎用コアから構成されています。再構成可能なデータパスにより、特定のアルゴリズムやアプリケーションのためのカスタム・ハードウェア・アクセラレーションが可能になり、同時に省電力でコンピュート利用率を最大化することができます。メモリ・ファブリックは、オンチップおよびオフチップ・メモリ・リソースへの高帯域幅かつ低レイテンシのアクセスを提供します。
当社のMERAソフトウェアスタックは、さまざまな異種エッジシステム上でマルチモーダルAIアプリケーションを簡単かつ効率的に開発・展開するための統一フレームワークを提供します。MERAは、ターゲット・デバイス向けにコードを最適化するコンパイラ、デバイス上でのアプリケーションの実行を管理するランタイムでマルチモーダルAIタスクの共通関数とアルゴリズムを提供するライブラリ、アプリケーションのデバッグ、プロファイリング、テストのためのツールチェーンで構成されています。

マルチモーダル生成AIは、エッジにおける性能、電力効率、品質の問題に対する革新的なソリューションを必要とする最先端の分野です。EdgeCortixは、画期的なSAKURA AIプロセッサとMERAソフトウェアによって、このようなソリューションを提供するエッジAI企業です。私たちは、今日のデータセンター向けの消費電力とコストの高いソリューションをはるかに超え、エッジ側で、さまざまな産業やドメインに対応できる省電力のマルチモーダルAM機能を実現することに注力しています。EdgeCortixは、エッジにおけるマルチモーダルAIによって、よりインテリジェントでエネルギー効率の高い、そしてコネクテッドな世界を構築する最前線にいます。

Image of ダスグプタ　サキャシンガ　博士

ダスグプタ　サキャシンガ　博士

サキャシンガ・ダスグプタ博士は、EdgeCortixの創設者兼CEOです。人工知能（AI）および機械学習の技術者、起業家、エンジニアであり、さまざまな業界において、最先端のAI研究をアイデア段階からスケーラブルな製品へと発展させた10年以上の経験を持っています。マイクロソフトやIBMリサーチ／日本IBMなどのグローバル企業や、理化学研究所、ドイツのマックスプランク研究所などの国立研究所でチームを率い、EdgeCortixを設立する直近では、日本とシンガポールの半導体テクノロジー、ロボティクス＆自律走行車、Fintech分野のリーン・スタートアップで技術部門の設立と指導に携わってきました。 Brain-inspired コンピューティング、ロボット工学、コンピュータビジョン、半導体上のAIアクセラレーション、ウェアラブルデバイス、IoT、金融やヘルスケアにおける機械学習など、さまざまな分野の研究開発に10年以上携わった後、サキャはエネルギー効率の高いエッジ・インテリジェンスの実現に焦点を当てたファブレス半導体設計企業として、2019年にEdgeCortixを設立しました。東京にEdgeCortixの研究開発本部と半導体設計チームの拠点を置き、「ハードウェアとソフトウェアの協調探索」と呼ばれる特許技術を駆使してAIに特化した再構成可能なプロセッサを一から設計しながら、ソフトウェアファーストのアプローチを取るという斬新的なアイデアに取り組んできました。FPGAやカスタムASIC設計のような既存のプロセッサ上でソフトウェアIPを使用し、高度なコンピュータビジョンアプリケーションを第一にターゲットとするEdgeCortixは、防衛、セキュリティ、航空宇宙、スマートシティ、インダストリー4.0、自律走行車、ロボット工学など、急速に成長するAI半導体分野に積極的に携わっています。ドイツのマックス・プランク研究所で複雑系物理学の博士号を取得し、英国エジンバラ大学で人工知能の修士号を取得。これまでに、世界中で20件以上の特許を取得しており、その研究の引用回数は1000件以上にものぼります。

関連記事

Software-defined heterogeneous computing enables better solutions for complex problems

AIが牽引するソフトウェア定義のヘテロジニアス・コンピューティング時代

Image of ダスグプタ　サキャシンガ　博士

ダスグプタ　サキャシンガ　博士

人工知能エッジコンピューティング

{% module_block module "widget_1688008903796" %}{% module_attribute "child_css" is_json="true" %}{%...

より多くのデバイスでエッジAI推論を実現するには？

Image of ジェフリー H グロスマン

ジェフリー H グロスマン

人工知能エッジコンピューティング