要点

私たちは、第一原理から構築された新世代の生成AIモデル、Liquid Foundation Model(LFM)の最初のシリーズを発表します。

1B、3B、40BのLFMは、メモリフットプリントを小さくし、より効率的な推論を維持しながら、各スケールにおいて品質面で最先端の性能を達成した。

Liquid Playground、Lambda API、Perplexity Labs、そしてまもなくCerebras InferenceでLFMをお試しください。LFMスタックはNVIDIA、AMD、Qualcomm、Cerebras、Appleのハードウェアに最適化されています。

Liquid AIは、あらゆる規模の企業向けに、プライベート・エッジ・オンプレミスの優れたAIソリューションを構築します。

当社はLFMsの種類・規模を拡大しており、金融サービス、バイオテクノロジー、消費者向け電子機器など、今後さまざまな業界に新しく優れた機能を導入していく予定です。

Liquidを試す

Liquid AIでは、私たちがコントロールでき、かつ高性能なAIシステムを設計するための新しい手法を構築しています。エンジニアがエンジンや自動車、飛行機を作るのと同じように、第一原理から設計します。私たちの使命は、あらゆる規模においてクラス最高のインテリジェントで効率的なシステム、つまり、大量のマルチモーダルデータを逐次処理し、高度な推論を可能にし、信頼性の高い意思決定を実現するように設計されたシステムをゼロから創造することです。

本日は、第一世代のLiquid Foundation Model(LFM)を紹介します。LFMは、力学系の理論、信号処理、数値線形代数に深く根ざした計算ユニットで構築された大規模なニューラルネットワークです。このユニークな融合により、あらゆるスケールのインテリジェンスを実現するための探求において、これらの分野における数十年にわたる理論的進歩を活用することができます。LFMは、ビデオ、オーディオ、テキスト、時系列、信号など、あらゆる種類のシーケンシャル・データのモデル化に使用できる汎用AIモデルです。

「Liquid 」という社名は、私たちのルーツであるダイナミックで適応力のある学習システムに敬意を表しています。

第一世代の言語LFMの紹介

Liquidチームは、今回最初のシリーズとしての言語モデル群のリリースを誇りに思っています:

高密度の1.3Bモデル(リソースが非常に限られた環境に最適)

高密度の3.1Bモデル(エッジ展開に最適化)

専門家混合(MoE)の40.3Bモデル(より複雑なタスク向けにデザイン)

私たちのゴールは、クラス最高のLLMと競争でき、かつ社会に価値をもたらすモデルを開発することです。モデルの性能はスケールだけでなく、イノベーションも重要であることを示したいと考えています。

最先端のパフォーマンス

私たちはEleuther AIのlm-evaluation-harness v0.4を使用して、自社でファインチューニングしたLFMを同様のサイズの言語モデルと比較しました。(他のファインチューニングされたモデルとの比較)

LFM-1B は、1Bカテゴリのさまざまなベンチマークで最高得点を達成し、このサイズで新たな最先端モデルとなりました。これは、非GPTアーキテクチャがトランスフォーマーベースのモデルを大幅に上回った初めてのモデルです。

ベンチマーク
LFM-1B
プレビュー
1.3B
OpenElm
(アップル)
1.1B
ラマ 3.2
(メタ)
1.2B
ファイ1.5
(マイクロソフト)
1.4B
ステーブル LM 2
(安定性)
1.6B
レベル6
(RWKV)
1.6B
スモールLM
(ハグフェイス)
1.7B
ドナウ 2
(2時間)
1.8B
レネ
(カルテシア)
ベース 1.3B
R ジェマ 2
(グーグル)
ベース 2.7B
コンテキストの長さ (トークン)
32k
1k
128k
2k
4k
1k
2k
8k
-
256k
MMLU
(5 ショット)
58.55
25.65
45.46
42.26
41.06
26.02
28.46
37.63
32.61
34.38
MMLU-Pro
(5 ショット)
30.65
11.19
19.41
16.80
16.73
11.61
10.94
14.00
12.27
11.78
ヘラスワグ
(10 ショット)
67.28
71.8
59.72
64.03
69.33
61.46
62.52
73.99
69.93
72.24
アーク-C
(25ショット)
54.95
41.64
41.3
53.75
44.11
36.95
45.48
43.77
38.91
46.76
GSM8
(5ショット)
55.34
0.38
33.36
31.61
41.55
5.76
0.38
31.92
2.58
17.74

LFM-3B はそのサイズの割に驚くべきパフォーマンスを発揮しています。3Bパラメータサイズにおいて、トランスフォーマー、ハイブリッド、RNNモデルの中でLiquid-3Bが一番良いパフォーマンスを有するだけでなく、前世代の7Bや13Bモデルも凌駕しています!また、複数のベンチマークでLiquid-3BはPhi-3.5-miniと同等でありながら、そのサイズは18.4%小さいです。
LFM-3B はモバイルやその他のエッジでの、テキストベースのアプリケーションに最適です。

ベンチマーク
LFM 3B
プレビュー
3.1B
ジェンマ 2
(グーグル)
2.6B
ザンバ 2
(ザイフラ)
2.7B
AFM エッジ
(アップル)
3B
ラマ 3.2
(メタ)
3.2B
ファイ-3.5
(マイクロソフト)
3.8B
ミストラル-7b v0.3
(ミストラル AI)
7B
ラマ 3.1
(メタ)
8B
ミストラル・ニモ
(ミストラル AI)
12.2B
コンテキストの長さ (トークン)
32k
8k
-
32k
128k
128k
4k
128k
128k
MMLU
(5 ショット)
66.16
56.96
56*
60.64*
59.65
68.91
62.04
67.92
68.47
MMLU-Pro
(5 ショット)
38.41
27.32
-
-
30.07
38.31
30.35
37.72
35.56
ヘラスワグ
(10 ショット)
78.48
71.31
76*
55.24*
73.36
78.84
84.62
80.00
84.31
アーク-C
(25ショット)
63.99
57.94
56*
45.39*
52.65
64.51
64.16
60.58
65.70
GSM8
(5ショット)
70.28
44.28
-
-
64.9
79.15
49.05
75.44
73.54
*開発者によって報告されたスコア。その他のスコアはすべて、自社モデルに使用したのと同じ評価ハーネスを使用して計算されました。

LFM-40B は、モデルサイズと出力品質の新しいバランスを提供します。使用時に12Bのアクティブパラメータを活用し、LFM-40Bは他の大きなモデルより良いパフォーマンスを出しております。それに、MoEアーキテクチャにより、より高いスループットと費用対効果の高いハードウェアへの展開も可能になります。

ベンチマーク
LFM-40
プレビュー
40B A12B
ジャンバ 1.5
(アイ 21)
52B A12B
ミクストラル
(ミストラル)
47B A13B
クイーン 2
(アリババ)
57B A14B
ジェンマ 2
(グーグル)
27B
Yi 1.5
(01.AI)
34B
AFM サーバー
(アップル)
ラマ 3.1
(メタ)
70B
コンテキストの長さ (トークン)
32k
256k
8k
32k
128k
32k
32k
128k
MMLU
(5 ショット)
78.76
59.57
73.42
75.75
76.20
76.19
75.3*
82.25
MMLU-Pro
(5 ショット)
55.63
28.69
38.12
47.47
45.69
45.13
-
52.89
ヘラスワグ
(10 ショット)
82.07
77.16
87.54
85.96
85.79
85.37
86.9*
86.40
アーク-C
(25ショット)
67.24
60.90
71.33
66.89
74.83
69.11
69.7*
70.39
GSM8
(5ショット)
76.04
46.47
64.22
77.79
84.53
79.68
72.4*
88.10
*開発者によって報告されたスコア。その他のスコアはすべて、自社モデルに使用したのと同じ評価ハーネスを使用して計算されました。

LFM はメモリ効率が高い

LFMは、トランスフォーマー・アーキテクチャと比べてメモリ・フットプリントが低く抑えられます。これは特に長い入力に当てはまります:トランスフォーマベースのLLMのKVキャッシュはシーケンスの長さに応じて直線的に増大します。一方で、LFMは入力を効率的に圧縮し、同じハードウェアでより長いシーケンスを処理することができます。例えば、他の3Bクラスモデルと比較して、LFMは最小限のメモリ使用量を維持しております。

図 2.さまざまな言語モデルの推論メモリフットプリントの合計と、入力+世代長の比較。図 2.さまざまな言語モデルの推論メモリフットプリントの合計と、入力+世代長の比較。
図 2. 入力と生成の長さに対する言語モデルの推論メモリ使用量。

LFMはコンテキストの長さを真に利用できる

今回のプレビューリリースでは、クラス最高の32kトークン数を実現するために、モデルの効率性の限界を押し広げました。これはRULERベンチマークによって確認され、対応するスコアが85.6より高い場合、その長さは「効果的」とみなされます[Hsieh et al. 2024 - RULER]。以下の表は、異なるコンテキスト長でいくつかのモデルを比較したものになります。

モデル
請求された長さ
有効長さ
4k
8k
16k
32k
64k
ジェンマ 2 2B (グーグル)
8k
4k
88.5
0.60
-
-
-
ラマ 3.2 3B (メタ)
128k
4k
88.7
82.4
78.3
74.1
-
ファイ-3.5 3.8 ギガバイト
(マイクロソフト)
128k
32k
94.3
91.7
90.9
87.3
78.0
ラマ 3.1 8B
(メタ)
128k
32k
95.5
93.8
91.6
87.4
84.7
LFM 3B
32k
32k
94.4
93.5
91.8
89.5
-

この非常に効率的なコンテキスト・ウィンドウは、エッジ・デバイス上で初めてロング・コンテキスト・タスクを可能にします。これによって、開発者たちにとってドキュメントの分析や要約、コンテキストを意識したチャットボットとのより有意義な対話、RAG(Retrieval-Augmented Generation)のパフォーマンスの向上など、新しいアプリケーションの可能性が広がります。

私たちのゴールは、モデルのサイズ、訓練/テスト時間の計算、コンテキストの長さにわたってLFMをスケーリングし続けることです。言語LFM以外にも、様々なデータモダリティ、ドメイン、アプリケーションのモデルを設計しており、今後数ヶ月のうちにリリースする予定です。

大規模AIモデルのパレートフロンティアを推進

これらの結果を達成するために、私たちは事前と事後のトレーニングパイプラインとインフラを最適化し、モデルが5つの基準で優れていることを確認しました:

知識容量
多段階の推論
長いコンテキストのRecall
推論の効率
トレーニングの効率

モデルアーキテクチャの再構築

私たちは、表現力豊かで効率的な学習システムの設計に関する長年の研究に基づき、様々なモダリティやハードウェア要件に焦点を当て、基礎モデルの新しい設計空間を開発した。Liquid AIの目標は、Generative Pre-trained Transformers(GPTs)を超える基盤モデルを構築する方法を探求することです。

LFMでは、過去数ヶ月の間に我々のチームが開発した、モデル設計の指針となる新しい原則と手法を実践しています。

LFMは構造化された演算子で構成される
LFMアーキテクチャはコントロールされている
LFMは適応性があり、あらゆる規模のAIの基盤として機能する:
フィギュア 4.当社のアーキテクチャは、カスタム計算ユニットを深度グループに分けて配置し (ウェイトシェアリング)、さらにフィーチャライザー相互接続 (フィーチャーシェアリング) を追加しています。フィギュア 4.当社のアーキテクチャは、カスタム計算ユニットを深度グループに分けて配置し (ウェイトシェアリング)、さらにフィーチャライザー相互接続 (フィーチャーシェアリング) を追加しています。
フィギュア 4.当社のアーキテクチャは、カスタム計算ユニットを深度グループに分けて配置し (ウェイトシェアリング)、さらにフィーチャライザー相互接続 (フィーチャーシェアリング) を追加しています。フィギュア 4.当社のアーキテクチャは、カスタム計算ユニットを深度グループに分けて配置し (ウェイトシェアリング)、さらにフィーチャライザー相互接続 (フィーチャーシェアリング) を追加しています。
フィギュア 3. LFMのアーキテクチャは、深さ方向に配置されたカスタム計算ユニット(目標とする重みの共有)と、フィーチャライザーの相互接続(特徴の共有)が特徴

Liquidのデザインスペースは、主にアーキテクチャとそのコアオペレータのフィーチャライゼーションとフットプリントによって定義されます。フィーチャライゼーションとは、入力データ(テキスト、オーディオ、イメージ、ビデオなど)を、モデル内部の計算を適応的に調整するために使用される、構造化された特徴やベクトルのセットに変換するプロセスを指します。例えば、音声や時系列データは、言語やマルチモーダルデータと比較して、情報密度が低いため、一般的にオペレータのフィーチャライズは少なくて済めます。もう一つの重要な次元は、演算子の計算複雑性です。構造化された適応オペレータの設計空間を横断し、完成させることができるため、計算量を制御しながらパフォーマンスを最大化することができようになるのです。

フィギュア 5.計算ユニットの新しい設計空間の基盤を構築し、さまざまなモダリティやハードウェア要件に合わせてカスタマイズできるようにしました。フィギュア 5.計算ユニットの新しい設計空間の基盤を構築し、さまざまなモダリティやハードウェア要件に合わせてカスタマイズできるようにしました。
図 4. Liquid AIは、異なるモダリティやハードウェア要件へのカスタマイズを可能にする、計算ユニットの新しい設計空間の基礎を構築した

LFMの中核は、入力によって動作が決定される適応的な線形演算子として表現できる計算ユニットで構築されています。LFMの設計フレームワークは、深層学習における既存の幅広い計算ユニットを統合し、包含することで、アーキテクチャの空間を探索する体系的なアプローチを提供します。具体的には、トークン混合構造(オペレータが入力シーケンスの埋め込みをどのように混合するか)、チャネル混合構造(チャネルの次元をどのように混合するか)、フィーチャライゼーション(入力コンテキストに基づいて計算をどのように変調するか)の3つの重要な側面を改善することで、こういった分析はモデル構築に役立ちました。

LFM のアーリーアダプターになりませんか

Liquid AIはまだこの旅の初期段階にあるので、これらのシステムの長所と短所を一緒に発見しソリューションを探していくパートナー様・お客様との協業を歓迎します。。

今日の言語LFMが得意とすること:

  • 一般知識と専門知識
  • 数学と論理的な推論
  • 効率的かつ効果的なロングコンテキストタスク
  • 主な言語は英語で、第二言語はスペイン語、フランス語、ドイツ語、中国語、アラビア語、日本語、韓国語の多言語に対応。

今日の言語LFMが苦手としていること?

  • ゼロショット・コード・タスク
  • 精密な数値計算
  • Time-sensitiveな情報
  • 「Strawberry」のrを数えること
  • 人間の嗜好最適化技術は、まだ弊社のモデルに広く適用されていません

Liquid AIでは、オープンサイエンスなアプローチをとっています。これまでも、そしてこれからも、科学的・技術的な報告書を通じて、私たちの知見や手法をオープンに公開することで、AI分野の発展に貢献していきます。このコミットメントの一環として、私たちの研究努力によって生み出された関連データやモデルをより広いAIコミュニティに公開する予定があります。ただし、私たちはこれらのアーキテクチャの開発に多くの時間とリソースを費やしてきたため、現時点ではモデルのオープンソース化は行っていません。これにより、私たちは進歩を継続し、競争の激しいAI業界において優位性を維持することが可能になります。

もし御社が最先端なAIモデルを体験されたい場合は、ぜひ私たちにご連絡ください!
また、もしあなたがLiquidのミッションに共感されるのであれば、私たちのチームメンバーとしてjoinし、共に推進しましょう。

Liquid AIはまだこの旅の初期段階にありますが、基盤モデルの開発と展開の様々な側面で積極的に革新を起こしています。LFMモデルの能力を継続的に向上させるため、ぜひ皆様のご意見・フィードバックを聞かせてください:)

フィードバックを共有する

シェア:

プリファレンスを管理

当社は、お客様のブラウジング体験を向上させ、トラフィックを分析するためにクッキーを使用しています。「すべて同意する」をクリックすると、クッキーの使用に同意したものとみなされます。

さらに詳しく
  • 必須クッキーが必要です