人工知能は急速にユビキタスになりつつあり、大規模なクラウド導入からスマートフォンやラップトップなどのリソースの少ないエッジデバイスまで、さまざまなアプリケーションを支えています。SmollM2(Allalら、2025年)、Phiモデル(Abdinら、2024年)、Llama 3.2 1B(Grattafioriら、2024年)など、エッジデプロイメント向けに最適化された現在のほとんどの小型モデルは、並列化可能な計算と効率性により、主にアテンション演算子を特徴とするトランスフォーマーベースのアーキテクチャに依存しています。カーネル(ヴァスワニ他、2017年)。アーキテクチャの最適化は、GPU であっても非常に困難な場合があります。ハイブリッドアーキテクチャは品質の向上をもたらすことが示されていますが、特にプロンプトが短い場合など、エッジ展開が重要な環境では、高度に最適化されたトランスフォーマーよりも導入が遅くなることがよくあります。これは、ターゲットハードウェアに合わせたパフォーマンス指標を用いて、モデルアーキテクチャと推論ランタイムを共同で最適化することの重要性を浮き彫りにしています。
本日、Hyena Edgeと呼ばれるLiquidアーキテクチャを紹介します。これは、Samsung S24 Ultraスマートフォンでベンチマークされた、エッジハードウェアの計算効率とモデル品質において、Transformerベースの強力なベースラインに匹敵するだけでなく、それを上回るコンボリューションベースのマルチハイブリッドモデルです。ハイエナエッジの設計には、最近提案したハイエナエッジを使用します。 エンドツーエンドの自動モデル設計フレームワーク。
今後数か月以内に、ハイエナエッジを含む一連のLiquidファンデーションモデルをオープンソース化する予定です。引き続き AI エッジで可能なことの限界に挑戦していきますので、ご期待ください。
アーキテクチャを体系的に調査して最適化するために、ICLR '25で発表された最近導入された自動アーキテクチャ最適化フレームワークであるSTAR(Thomas et al。、2024)を使用しました。STAR は進化的原理と線形システム理論を組み合わせて建築空間を効率的にナビゲートし、効率と品質性能の最適なトレードオフを実現しています。
STARは、16の候補アーキテクチャを集めて初期化し、24世代にわたって進化させてきました。検索空間には、ハイエナにインスパイアされた畳み込み演算子の複数のバリエーションが含まれていました(Poli et al.、2023; Ku et al.、2025)。ハイエナ(完全):ハイエナの内部畳み込みの隣にあるゲーティングメカニズムの畳み込みを含みます。ハイエナX (チャンドラセガラン他、2025): 内部畳み込みを除外します。Hyena-Y (チャンドラセガランら、2025 年): 特徴グループ (ゲート) に含まれるコンボリューションを除外します。これら3つのハイエナタイプにまたがることに加えて、学習した短く明示的な (SE) 畳み込みフィルター (3-128) の長さも変え (3-128)、合計18個の畳み込み演算子のセットが得られました。検索スペースにはさらに、GQA(KVヘッドの数が異なる、Shazeer、2019年)とSwiGlu(内側の幅が異なる、Shazeer、2020年)のバリエーションも含まれていました。
STARは、S24 Ultraでの個々のオペレーターのレイテンシーとメモリ使用量の初期プロファイリングと、トレーニング中の複雑さを考慮して、レイテンシー、メモリ使用量、モデル品質の効率性品質のフロンティアに向けてアーキテクチャの数を繰り返し進化させています。1。
興味深いことに、アーキテクチャが効率と品質の最前線に近づくにつれて、STARは次第にHyena-Y畳み込みを優先するようになり、レイテンシー、メモリ、品質の指標全体で優れたバランスが取れていることが実証されました。この洞察を活用して、最終的なハイエナエッジアーキテクチャは、最先端のGQA-Transformer++ベースラインのGQA演算子の3分の2を、Hyena-Yファミリーの最適化されたゲート畳み込みに戦略的に置き換えます。
Hyena Edgeのパフォーマンスを、パラメーターが一致したGQA-Transformer++ベースラインと照らし合わせて評価し、レイテンシー、メモリ使用量、言語モデリングのベンチマークに注目して、同じ1,000億トークンのセットで両方のモデルをトレーニングしました。
ハイエナエッジは、全体を通してトランスフォーマーベースのベースラインを上回っています。
効率: Hyena Edgeは、Samsung S24 Ultraで一貫してプリフィルとデコードのレイテンシが速いことを示しました。プレフィルレイテンシーは一般的なシーケンス長で著しく低く、デコードレイテンシーは 256 トークンを超えるシーケンスの方が速かった。重要なのは、Hyena Edgeでは、シーケンス長に応じてレイテンシーのスケーリングが改善され、長いシーケンスではデコードとプリフィルのレイテンシーが最大 30% 速くなり、シーケンス長が最短の場合はプレフィルのレイテンシーがさらに速くなることです。これは代替アーキテクチャにとっては画期的な出来事です。代替アーキテクチャの多くは、シーケンスが大幅に長い場合のみレイテンシーが改善されます。さらに、Hyena Edge は、に比べて、デプロイ時に使用するメモリが少なくて済みます。 ガストランスフォーマー+ すべてのシーケンス長にわたるベースライン。
モデル品質: ウィキテキスト、Lambada、Hellaswag、Winogrande、Piqa、Arc-Easy、Arc-Challengeなど、小言語モデルのさまざまな共通言語モデリングベンチマークで、ハイエナエッジは一貫して以下を上回りました ガストランスフォーマー+ ベースライン。
ハイエナエッジは、AI エッジの導入において一歩前進を遂げました。コンボリューションベースのマルチハイブリッドアーキテクチャは、エッジデバイスの主要な効率と品質性能の指標において従来のトランスフォーマーモデルよりも優れていることを示すことで、実用的なエッジアプリケーション向けに最適化された代替計算プリミティブの幅広い採用への扉を開きます。
参考文献: