Back to Blog

エネルギー効率に優れたエッジプロセッサー上のマルチモーダル生成AI

Image of サキャシンガ・ダスグプタ博士
サキャシンガ・ダスグプタ博士
Multimodal-Generative-AI-on-Energy-Efficient-Edge-Processors
お気に入りのポッドキャストプラットフォームで聴く

エッジコンピューティングは、ネットワークのエッジで低レイテンシ、高性能、プライバシーを保持した計算を必要とするデバイスやアプリケーションがますます増えているため、今後数年間で著しく成長すると考えられます。

しかし、エッジコンピューティングが直面する最大の課題の1つに、画像、ビデオ、オーディオ、テキスト、スピーチ、センサーなど、複雑化・多様化するデータソースやモダリティを処理することが挙げられます。そして、この課題を解決するには、マルチモーダル生成人工知能(AI)が活躍します。

マルチモーダルAIは、アプリケーションが人間のような豊かで自然なやり取りを理解し、生成することを可能にします。生成AIには、ユニモーダルなものとマルチモーダルなものがあります。マルチモーダルAIによって、アプリケーションは異なるモダリティから補完的で重複する情報を活用し、結果の精度とロバスト性を向上させることができます。すでにマルチモーダル生成AI機能を使用しているアプリケーションの例としては、会話エージェント、画像キャプション、ビデオ要約、感情認識などがあります。

しかし、マルチモーダルAIはエッジコンピューティングに大きな課題を突きつけます。なぜなら、高い計算能力、広いメモリ帯域幅、複数のデータストリームをリアルタイムで処理し融合する複雑なアルゴリズムが必要になるからです。スマートフォン、カメラ、IoTセンサーなどの従来のエッジデバイスは、バッテリー寿命、ストレージ容量、処理能力に制約があることが多いです。このような制約があるため、性能、効率、品質に妥協することなく、エッジでマルチモーダルAIを実現できる革新的なソリューションが求められています。

マルチモーダル生成AIでデバイスを実現する

このような観点から、生成AIと大規模な言語モデルは、デジタルコンテンツを作成し、消費する方法を再定義する可能性を秘めています。デバイスでは、リアルで興味をそそるテキスト、画像、音声、ビデオをゼロから、またはユーザーの入力に基づいて作成することができます。ライブビデオストリームのキャプションを生成できるスマートカメラや、テキストから自然な音声を合成できる音声アシスタントを想像してみてください。

一例として、DeepMindの最近のFlamingo視覚言語モデルは、マルチモーダルなタスクを解決するためにモデルを導くことができる、テキストとビジュアルのインターフェイスを備えています。これは、大規模言語モデル(LLM)が、テキストプロンプトでタスク例を処理することで言語タスクを実行するのと同じです。

このモデルは、few-shot学習と呼ばれる学習パラダイムに従って、数組の視覚入力と予想されるテキスト応答を見た後に、新しい画像やビデオで質問すると答えを生成することが可能です。

 

Visual language model in multimodal (images and text) generative AI context
Video credit: Flamingo

エネルギー効率の高いエッジAIプロセッサは、エッジデバイス上で実行可能なマルチモーダル生成AIや大規模言語モデルを実行するための革新的な新しい技術やテクノロジーと組み合わせることで、これらのデバイスを実現する上で重要な役割を果たすでしょう。可能性のある方向性としては、以下のようなものが挙げられます。

  • マルチモーダルなコンテクストにおいて、パフォーマンスや精度を損なうことなく、エッジデバイスにフィットするコンパクトで効率的な(より小さな言語モデルを含む)生成AIを設計する。
  • 情報や品質を失うことなく、生成AIや大規模言語モデルのサイズや複雑さを軽減する新しい圧縮・量子化手法を開発する。
  • ローカルデータとリソースを使用して、エッジデバイス上でこうしたマルチモーダル生成AIモデルをトレーニングおよびアップデートするための分散学習および連合学習アプローチを活用する。
  • クラウドコンピューティングとエッジコンピューティングを組み合わせたハイブリッドアーキテクチャを探求し、生成AIモデルの速度、品質、コストのトレードオフを最適化する。

マルチモーダルな 生成AIをエッジに導入することで、産業全体に革命を起こすことができます。そして、EdgeCortixは、将来のエッジコンピューティングに対応するエネルギー効率の高いAIプロセッサーとソフトウェアの技術を開拓しています。私たちは、高性能、省電力、柔軟なプログラマビリティを備えたマルチモーダルAIアプリケーションを作成するための高度なハードウェアおよびソフトウェアツールを提供します。

より多くのエッジ開発者がAIを使いこなせるように

EdgeCortixのビジョンは、防衛・セキュリティ、スマートシティ、ヘルスケア、教育、エンターテインメントなどの産業向けに、マルチモーダルなAI機能でエッジを強化することです。私たちは、マルチモーダルAIがエッジコンピューティングの可能性を最大限に引き出す鍵であると考えています。そして、2つのEdgeCortix製品群は、すでに大きな影響を与えています。

  • 当社のSAKURA AIプロセッサは、ヘテロジニアスなコア、再構成可能なデータパス、メモリを組み合わせた新しいアーキテクチャを採用しており、さまざまなデータタイプやモダリティに対してスケーラブルで適応性の高いパフォーマンスを実現します。ヘテロジニアスなコアは、畳み込みモデルや変換モデルを含むディープラーニング用のコンピュートコア、演算タスク用のベクトルコア、プログラマブルな汎用コアから構成されています。再構成可能なデータパスにより、特定のアルゴリズムやアプリケーションのためのカスタム・ハードウェア・アクセラレーションが可能になり、同時に省電力でコンピュート利用率を最大化することができます。メモリ・ファブリックは、オンチップおよびオフチップ・メモリ・リソースへの高帯域幅かつ低レイテンシのアクセスを提供します。
  • 当社のMERAソフトウェアスタックは、さまざまな異種エッジシステム上でマルチモーダルAIアプリケーションを簡単かつ効率的に開発・展開するための統一フレームワークを提供します。MERAは、ターゲット・デバイス向けにコードを最適化するコンパイラ、デバイス上でのアプリケーションの実行を管理するランタイムでマルチモーダルAIタスクの共通関数とアルゴリズムを提供するライブラリ、アプリケーションのデバッグ、プロファイリング、テストのためのツールチェーンで構成されています。

マルチモーダル生成AIは、エッジにおける性能、電力効率、品質の問題に対する革新的なソリューションを必要とする最先端の分野です。EdgeCortixは、画期的なSAKURA AIプロセッサとMERAソフトウェアによって、このようなソリューションを提供するエッジAI企業です。私たちは、今日のデータセンター向けの消費電力とコストの高いソリューションをはるかに超え、エッジ側で、さまざまな産業やドメインに対応できる省電力のマルチモーダルAM機能を実現することに注力しています。EdgeCortixは、エッジにおけるマルチモーダルAIによって、よりインテリジェントでエネルギー効率の高い、そしてコネクテッドな世界を構築する最前線にいます。

テクノロジーを見る


Edge AI software workflows can start with PyTorch, TensorFlow, or ONNX models, and MERA automatically converts them to code for EdgeCortix DNA IP with no hardware-specific knowledge required

PyTorch、TensorFlow Lite、ONNXモデルでエッジAIソフトをつなぐ|EdgeCortix

Image of Antonio Nevado
Antonio Nevado
Read more

より多くのデバイスでエッジAI推論を実現するには?

Image of ジェフリー H グロスマン
ジェフリー H グロスマン
Read more