要点

クラス最高のパフォーマンスを発揮するモデルLFM-7Bを発表します。

LFM-7Bは、トランスフォーマーを使用せず独自のLiquid Foundation Modelアーキテクチャを採用しており、ハイスループットでメモリフットプリントも最小です。

LFM-7Bは、ローカルでのデプロイメント、レイテンシーに制約のあるタスク、コストに制約のあるタスクに最適な言語モデルです。

LFM-7Bは、英語、アラビア語、日本語に対応した世界最高の多言語言語モデルです。

LFM-7Bを今すぐお試しください Liquid Playground、そしてまもなくOpenrouter、Perplexity Playground、Lambda API、AWSマーケットプレイスで公開されます。AWS marketplace, and soon on Openrouter, Perplexity Playground, and Lambda API.

LFM-7Bには、企業向けの推論スタックとカスタマイズスタックが付属しています。 詳細についてはご連絡ください

Liquidを試す

チャット機能

LFM-7Bは、応答品質、精度、および実用性を重視して特に最適化されています。チャット機能を評価する際、LFM-7Bが生成した回答を7B-8Bパラメータカテゴリの他のモデルと比較するために、多様なフロンティアLLM審査員を活用しています。これにより、個々のバイアスを減らし、より信頼性の高い比較を行うことができました。

以下の指示やArena-Hard-Autoからの質問など、厳選されたビジネスユースケースを含む英語のプロンプトへの回答を比較しました(Li et al.)、および現実世界の会話 (Zheng et al.)。Liquidの包括的な選好調整プロセスによって、LFM-7Bは同じサイズカテゴリーのすべてのLLMよりも優れています。

Chat CapabilitiesChat CapabilitiesChat Capabilities
図 1. 英語でのチャット機能にてLLM審査員による評価

以下の直接評価は、LLM審査員がLFM-7Bによって生成された回答を他のモデルの回答よりも好ましい回数の割合を示しています。このテストにおいては、まったく同じ英語のプロンプトが含まれています。

LFM-7BLFM-7BLFM-7B
図 2. 英語でのチャット機能にてLLM審査員による直接評価

自動ベンチマーク

LFM-7Bは、次のような幅広い知識と推論というコア機能を維持しています その他のモデル。会話スキルの向上に加えて、コーディング能力や指示に従う能力も向上しています。

LFM-7BLFM-7BLFM-7B
図 3. 13の自動ベンチマーク(MMLU、HellaSwag、ARC-C、iFeval、MMLU-Pro、MATH Lvl 5、GPQA、MUSR、HumanEval+、MBPP、MBPP+)の平均スコア

以下のスコアは、Eleuther AIの言語モデル評価ハーネスv0.4.5を使用して標準の自動ベンチマークで取得されました。比較されるのは、ポストトレーニング後のモデルのみです。

ベンチマーク
LFM-7B
プレビュー
7.7B
オルモ 2
(アイ 2)
8.0B
ザンバ 2
(ザイフラ)
8.0B
コマンド R7B
(コヒーア)
8.0B
ラマ 3.1
(メタ)
7.6B
ロモ 2
(アイ 2)
7.3B
コンテキストの長さ
(トークン)
32k
128k
128k
128k
128k
4k
MMLU
(5ショット)
69.34
64.66
67.92
70.44
74.31
62.18
ヘラスワグ
(10 ショット)
83.07
80.58
80.00
80.53
81.37
85.77
アーク-C
(25ショット)
70.56
61.77
60.58
66.55
67.24
68.09
トゥルースフルQA
(0ショット)
63.89
48.65
54.02
55.38
64.76
54.50
iFeval
(0ショット)
60.72
29.17
50.7
34.56
63.71
59.26
MMLU-PRO
(5ショット)
42.42
35.04
37.72
36.55
44.65
29.66
数学レベル 5
(4ショット)
21.42
13.62
11.77
19.07
23.77
9.82
GPQA
(0ショット)
32.29
31.01
33.26
29.55
32.45
28.53
MuSR
(0ショット)
40.79
42.75
39.72
43.33
42.9
39.44
HumanEval
(パス @1)
63.41
25.61
64.02
55.49
26.83
41.46
HumanEval+
(パス @1)
56.71
24.39
59.15
48.78
23.17
37.8
MBPP
(パス @1)
51.60
31.60
52.20
51.20
50.80
26.0
MBPP+
(パス @1)
55.56
45.24
57.41
61.64
52.91
36.51
テーブル 1. 自動ベンチマーク全体にわたるLLMのパフォーマンス

多言語機能

LFM-7Bは、英語、スペイン語、フランス語、ドイツ語、中国語、アラビア語、日本語、韓国語をサポートしています。モデルを評価したところ、MMMLU のような自動ベンチマークには混乱要因 (世界の知識など) が加わり、ターゲット言語でのライティングスキルは必要ないことがわかりました。一方、アリーナ評価では、特に文法的に正確で関連性の高い回答を出すことに重点が置かれています。そのため、モデルの質を公正かつ適切な方法で評価するために、アラビア語と日本語で言語別のアリーナを構築しました。

アラビア語の場では、現実世界の会話の厳選されたサブセットを使用します(Zheng et al.)アラビア語で。LFM-7Bはアラビア語に堪能で、同じサイズカテゴリの他のモデルよりもかなり好まれています。

Multilingual CapabilitiesMultilingual CapabilitiesMultilingual Capabilities
図 4. アラビア語でのチャット機能にてLLM審査員による評価

日本のアリーナでは、Elyza-Tasks-100(Sasaki et al.) およびパートナーである伊藤忠テクノソリューションズ株式会社によるキュレーションしていただいたプロンプトを組み合わせて使用しました。これにより、ビジネスユースケースを代表する多様なプロンプトが生成され、LFM-7Bは日本語でのチャット機能でも大きな差をつけています。

Multilingual CapabilitiesMultilingual CapabilitiesMultilingual Capabilities
図 5. 日本語チャット機能にてLLM審査員による評価

メモリ効率

以前のモデルと同様に、LFM-7Bは他のアーキテクチャと比較してメモリフットプリントが最小限に抑えられています。

Low Memory FootprintLow Memory FootprintLow Memory Footprint
図 6. 異なるモデルにおける言語モデル推論のメモリ要件を、入力と生成シーケンス長の合計に応じて比較したものです。すべてのモデルは量子化なしでbfloat16精度を使用しています。LFM-7Bは他のモデルに比べて大幅なメモリ節約を実現しています。量子化技術を使用することで、さらにメモリ使用量を削減することが可能です。

LFM-7Bのメモリ効率により、長文コンテキストの理解、エネルギー効率の高い推論、ローカルデバイスでのハイスループットの展開など、いくつかの重要な機能が可能になります。LFM-7B は、オンプレミスの微調整スタックを使用して、あらゆる知識やタスクに合わせて効率的にカスタマイズすることもできます。その結果、LFM-7Bは、プライベートエンタープライズチャット、安全なコード生成、迅速な指示追跡、長時間の文書分析、エネルギー効率の高いオンデバイスAIアシスタント、および多段階のエージェントワークフローなどのアプリケーションにおいて、エンドユーザーにとっての価値を大幅に高めます。

LFM-7Bは、長い入力コンテキストを効率的に処理する機能に加えて、長いコンテキストからの検索と推論を効果的に行うことができます。当社では、Liquid 社内のロングコンテキスト評価に特化して、開発の全段階でこれを検証しました。さらに、公開されているロングコンテキスト評価である RULER (Hsieh et al.) とLongBench v2 (Bai et al.)という2つの公開ロングコンテキスト評価によってLFM-7Bの機能を評価しています。RULER では、対応するスコアが 85.6 を超える長さは「有効」とみなされます。このことから、LFM-7B の実効コンテキスト長は 32k であることがわかります。

モデル
ロングベンチ v2
請求された長さ
有効長さ
ルーラー 4K
ルーラー 8K
ルーラー 16K
ルーラー 32k
ルーラー 64k
大臣
(ミストラル AI)
26.1
128k
32k
96.0
93.5
90.6
86.4
37.0
ラマ 3.1
(Meta) 8.0B
35.0
128k
32k
95.5
93.8
91.6
87.4
84.7
クイーン 2.5
(アリババ)
36.1
128k
32k
95.3
93.0
92.2
90.2
74.5
LFM-7B
プレビュー
36.1
32k
32k
91.3
89.2
87.7
88.5
-
テーブル 2. LongBench v2とRULERによるロングコンテキストの評価

パートナー・ウィズ・Liquid

We’re making it easier than ever for developers, teams, and enterprises to integrate LFM models into their workflows:

  • LFMとチャットするには playground.liquid.ai
  • API 経由でモデルのテスト用はLiquid公式サイトに連絡を取るか、Lambda APIで試してみてください。
  • API 経由でモデルを構築されるするには、 オープンルーターにアクセスしてください。
  • API 経由のエンタープライズ利用については、 AWS マーケットプレイスまでお越しください。
  • オンデバイスまたはオンプレミスアプリケーション用にライセンスしたい場合は、 当社直接にお問い合わせください。

アーリーアダプターとしてご参加ください

お客様はもしより少ないリソースでより多くのことを行うために、高性能で効率的なLFMを必要とするユースケースがある場合は、 当社までに直接ご連絡をください。

よくある質問

企業として、LFMへのフルローカルアクセスを購入できますか?
LFM を微調整できますか?
LFM-7Bはどの言語をサポートしていますか?
Liquid Foundation Modelについて詳しく知りたいですが、どこで確認できますか?

シェア:

プリファレンスを管理

当社は、お客様のブラウジング体験を向上させ、トラフィックを分析するためにクッキーを使用しています。「すべて同意する」をクリックすると、クッキーの使用に同意したものとみなされます。

さらに詳しく
  • 必須クッキーが必要です