各採択企業の性能評価結果詳細

株式会社ELYZA

開発目的

目的

日本でインフラとして利用されるような基盤モデルの構築を目指し、日本語処理能力の高いモデルを開発する。

実施内容

  • 日本語性能において下記 3 点を満たすモデルの開発に取り組んだ

    • ■基盤モデルとしての基礎的な能力が高い。

      • ●このための取り組みとして、既存モデルを拡張し、サイズを変更したモデルを作成するアプローチを進めた。

    • ■日本の知識や表現に詳しい。

      • ●日本の行政や法律に特化したデータを作成し追加学習を実施した。

    • ■日本語の推論効率が高い。

      • ●より低コスト・高速で推論できる基盤モデルを利用することを目指しTokenizerの語彙拡張や作成したTokenizerに合わせたモデルの初期化を実施した。

モデル概要

  • ○Meta-Llama-3-70B-InstructをベースにDepth Up Scalingした120Bモデルに対し、追加事前学習と事後学習を実施

    • ■追加事前学習では、約150B Tokensの日本語コーパスを学習

    • ■人手でアノテーションしたデータと合成データからなる、高品質なInstructionデータによる事後学習を実施

公開物

  • ○GENIACでの取り組み(Mixtral8x22B ~ Depth Up Scaling)に関する技術ブログの公開

開発目標・採用ベンチマーク・モデルパフォーマンス

  • ○1. 基盤モデルとしての基礎的な能力が高いモデルを開発するため、Japanese MT-Benchで9.0以上を達成することを目標に設定。最終的に開発したモデルは、Japanese MT-Benchで9.24のスコアを達成。

    • ■ベンチマークとしては、指示追従能力と日本語での生成能力を測るベンチマークとして広く認知されていることから、Japanese MT-Benchを採用。

  • ○2. 日本の知識や表現に詳しいモデルを開発するため、新たに日本語ベンチマークを整備し、そのベンチマークにおいてGPT-4 (0613) を超えるスコアを達成することを目標に設定。最終的に開発したモデルは、スコア3.650を達成し、GPT-4のスコア2.917を上回った。

    • ■既存のベンチマークは、言語理解や推論など、国や文化に依存しないタスクを主に評価しているが、それらのタスクは既にグローバルモデルが高い性能を示している。一方で、国や文化に依存したタスクに関しては、日本語特化モデルが有利な点もあると考え、ベンチマークを整備。

  • ○モデルパフォーマンス結果

    • ■1. Japanese MT-Bench

Model Japanese-MT-Bench
gpt-4o-2024-05-13 9.3375
Llama-3-ELYZA-JP-120B + 特化学習 9.2375
gpt-4o-mini-2024-07-18 9.225
gpt-4-0613 9.0625
Meta-Llama-3-70B-Instruct 8.89375
gpt-3.5-turbo-0125 8.275
Llama-3-Swallow-70B-Instruct-v0.1 8.26875

■2. 日本語ベンチマーク

Model gpt-4 score
Llama-3-ELYZA-JP-120B 2.9
Llama-3-ELYZA-JP-120B + 特化学習 3.65
gpt-4-0613 2.92
gpt-3.5-turbo-0125 2.2

株式会社Kotoba Technologies Japan

開発目的

音声AI分野において日本国内外での競争優位性を確立することを目指し、国内外最大規模のEnd-to-End音声処理基盤モデルを開発しました。

モデル概要

日英合算で50万時間に及ぶ大規模音声データセットを収集・整備し、国内外最大規模である700億パラメータの音声基盤モデルを構築しました。特に日本語領域での性能に注力し、音声生成、翻訳、クラスタリングなどのタスクに対応する基盤モデルを開発しました。また、HuggingFace上でデータセットや評価基盤を公開することで、音声モデル研究コミュニティへの貢献も行いました。

JA TTS Arena - a Hugging Face Space by kotoba-tech

開発目標・採用ベンチマーク・モデルパフォーマンス

開発された700億パラメータのモデルは、国内外最大規模の音声基盤モデルとして、日本語の音声生成や翻訳タスクにおいて他社のベースラインモデルを大幅に超える成果を達成しました。
例えば、音声生成の評価プラットフォーム「TTS Arena Japanese」では、Google TTSやOpenAIのモデルを上回る高い評価を受け、1200件以上の投票が集まるなど高い関心を呼んでいます。
また、音声翻訳や音声クラスタリングなどのタスクでも最先端精度を達成しました。

順位 モデル名 スコア 投票数
1 KOTOBA-SPEECH-SPK4 1259 158
2 KOTOBA-SPEECH-SPK1 1246 136
3 BLANE-TTS 1231 148
4 OPENAI-TTS 1216 116
5 MOE-VITS 1216 152

富士通株式会社

開発目的

生成AIの産業応用を進める上で、各分野における法令準拠や出力結果に対する説明性が求められている。現行のLLMは知識不足の事柄について回答する時には高確率でハルシネーションが発生することに加えて、LLMが内部パラメータとして保有している知識を把握する手段は確立されていない。本事業では、知識処理技術のひとつである「ナレッジグラフ」を用いることで、「論理推論可能な」LLMを開発する。これにより、法務分野での不法行為判定・根拠検索、金融分野における内部統制・会計監査、医療分野での症状検索・診断といった規制・規則への準拠と説明を要する業務タスクへのLLM適用の実現を目指す。

モデル概要

(1)ナレッジグラフを生成するLLMと(2)ナレッジグラフから論理推論するLLMを開発。
(1) 自然言語文書からナレッジグラフを生成するLLM(ナレッジグラフ生成LLM):自然言語文書からモノやコトとそれらの間の関係性を抽出するLLM。
(2) ナレッジグラフを利用して業務タスクを遂行するLLM(ナレッジグラフ推論LLM):ナレッジグラフに基づいて質問回答を論理推論するLLM。
Mistral社が開発したオープンモデルMixtral 8x7B-instをベースに継続事前学習・ファインチューニング。学習済みモデルや評価用データセット、事前学習・ファインチューニング・評価実験スクリプト等を公開予定。

開発目標・採用ベンチマーク・モデルパフォーマンス

(1)ナレッジグラフ生成LLMの開発:自然言語文書からのナレッジグラフ生成
・文書レベル関係抽出ベンチマーク(英語:ReDocRED、日本語:JacRED)で世界最高性能を達成することを目標に開発。GENIAC事業で世界最高性能を達成できたJacREDの結果を以下に示す。

モデルパフォーマンス結果

目標 実績 他モデルとのパフォーマンス比較
90 68.77 ・GPT-4 (OpenAI社):27.4 ※本来生成AIが苦手とするタスクのため低い
・SOTA既存手法 (a href="https://github.com/YoumiMa/dreeam">DREEAM):68.73

ベンチマークの例題: 文書から固有表現間の関係性を漏れなく抽出する

文書: ⼩⽥ 持家(おだ もちいえ、応永9年8⽉5⽇(1402年9⽉2⽇) - ⽂明18年
10⽉21⽇(1486年11⽉17⽇))は、室町時代の⼈物。常陸⼩⽥⽒当主。
関係性:[“⼩⽥ 持家”,”所属”,”常陸⼩⽥⽒”], [“⼩⽥ 持家”,”誕生日”,”1402年9⽉2⽇”] , [“⼩⽥ 持家”,”死没日”,”1486年11⽉17⽇”]

(2)ナレッジグラフ推論LLMの開発:マルチホップQAと論理推論
・マルチホップQAベンチマーク(英語:HotpotQA、日本語:JEMHopQA)で世界最高性能を達成することを目標に開発。GENIAC事業で世界最高性能を達成できたJEMHopQAの結果を以下に示す。

目標 実績 他モデルとのパフォーマンス比較
90 82.3 ・GPT-4(OpenAI社):62.9 ※CoT 5-shot設定時
・SOTA既存手法(HOLMES):72.7 ※独自に日本語対応した版で測定

ベンチマークの例題: 参照文書に基づいて、質問の正解と導出(根拠となる関係性)を生成する

質問:孝明天皇が生涯過ごした都に以前の都から遷都があった年は?
参照文書:Wikipedia記事全文(考明天皇平安京
正解: 794年
導出:["孝明天皇", "生涯を過ごした都", "平安京"], ["平安京", "遷都された年", "794年"]

株式会社ABEJA

開発目的

LLMの利活用により産業構造に大きな変革が期待される中、日本語に特化したオープンLLMの開発に携わることは、LLMの社会実装を推進する上で重要な意義を持ちます。当社は、LLMの社会実装における現状の課題は、LLMの利用時に大規模な計算リソースの消費が不可避となり、コストと精度がトレードオフの相関関係にあることと考えております。そのため、当事業において、当社は、RAGやAgentといったLLMが新しいデータを効率よく取り入れられる周辺技術も同時に研究開発し、コストパフォーマンスと精度のバランスを叶える日本語LLMを開発しました。

モデル概要

Mixtral8x7b(約47B)の日本語継続事前学習モデルを開発しました。430Bトークンの日本語データセットを構築し、学習。MixtralのMoE(Mixture of Expert)及びtokenizer語彙拡張により、パラメータ数・性能に対してより高速な推論が可能になりました。また、RAGやAgent用のPostTrainingも実施しました。
構築したモデル・ソースコード・開発ノウハウ・学習データセット等を商用利用可能な形で公開しています。Megatron-LM上でのMixtral実装は世界初です。

開発目標・採用ベンチマーク・モデルパフォーマンス

国内の大規模言語モデル(LLM)でトップ性能を誇る「Swallow-70b-instruct-hf」を超える精度を達成しました。「Mixtral」を採用し、モデルマージ技術を活用することで、最終目標を達成し、100Bモデルの構築に成功しました。
また独自のRAG評価用ベンチマークを開発し、「Swallow-70b-instruct-hf」を超える精度(10%以上向上)を達成し、エージェント機能の開発では日本語での「Function Calling」を行えるモデルの開発に成功しました。

Sakana AI株式会社

開発目的

当社では自律型エージェントシステム実現のため、小型でありながら高い推論能力を持つ単一の基盤モデルを開発することを目指している。

本事業では、そのための第一歩として、大きな計算リソースを必要とする基盤モデルを高効率化するための技術である蒸留、Meta Memory(*)、進化的モデルマージ(**)に取り組み、大規模なLLM に匹敵する高い推論能力を持ちながら、小〜中規模のLLM と同程度のコストで運用できる基盤モデルを開発する。
*Meta Memory: Sakana AIが今回開発したアーキテクチャで、長期記憶におけるスパーシティを実現する従来のMoE に対し、短期記憶においてスパーシティを実現。
**進化的モデルマージ: Sakana AIが2024年3月に公表した手法で、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見するもの。

モデル概要

1. モデルA
当社が新たに開発した蒸留手法(TIKI)を使用し、大規模な言語モデルQwen-72B-Instructの知識を活用して、小規模な言語モデルQwen2-1.5B-Instuctに蒸留学習させた1.5Bサイズの小型高性能な言語モデル。
2. モデルB
当社が新たに開発したモデルの短期記憶の最適化手法(Meta Memory)を用い、長コンテクスト(32k)ながら、メモリコストの大幅な削減(1/5未満)を達成した言語モデル。
3. モデルC
当社が新たに開発した進化的モデルマージの適用手法(CycleQD)を用い、Llama-3-8Bをベースに、エージェントタスクを解くことに最適化した基盤モデル。
1-3いずれも学習済みパラメーター、ソースコード、技術ノウハウを今後公開予定。

開発目標・採用ベンチマーク・モデルパフォーマンス

1. モデルA

効率的な蒸留学習手法を確立することを目標に開発。成果として、新たな蒸留アルゴリズムとして、教師モデルと生徒モデルの中間目標を設定する手法であるTIKI (Temporally Interpolated Knowledge Infusion)を考案。比較検証を実施し、既存の蒸留手法に対して性能が上回ることを確認。

加えて、TIKIをQwen2-72B-InstructからQwen2-1.5B-Instructへの蒸留学習に適用。小型言語モデルの代表的なベンチマークセット(SmolLM Leaderboard)上で性能を検証し、2B未満の小型言語モデルの中で高い性能を達成。

モデル SmolLM Leaderboard
Qwen2-1.5B 46.19
SmolLM-1.7B 51.31
モデルA
(TIKIで蒸留学習したQwen2-1.5B-instruct)
52.27

2. モデルB

長いコンテキストサイズのモデルを開発する際に課題となる、メモリコストの増大を抑える手法の確立を目的に開発。成果として、Transformerの短期記憶のスパーシティを実現するMeta Memoryというアーキテクチャを新しく考案。

実際にLlama3-8Bに適用し、長コンテキストの言語モデルを評価する代表的なベンチマークであるLongBenchで性能を評価。ほぼ同等のパフォーマンスを維持しながらメモリコストを1/5未満に抑えることに成功。

モデル コンテキスト LongBench (平均) メモリキャッシュ
Llama3-8Bを長コンテキスト化したベースラインモデル(*) 32k 28.9 32,792 tokens
モデルB
(ベースラインモデルをMeta Memoryで最適化したモデル)
32k 28.9 6,288 tokens

* Neural Tangent Kernel(モデルのコンテキスト長を拡大する既存手法)により8kから32kに長コンテキスト化

3. モデルC

エージェントタスクについて運用コスト10倍相当のモデルと同等性能が実現できるような、進化的モデルマージの新たな適用手法を確立することを目的に開発。

ベンチマークとしてコーディングタスク(MBPP)、OS・DBタスク(AgentBench)を設定。実際にLlama3-8Bに適用し、運用コスト10倍程度と推定されるGPT-3.5-turboに相当する性能を達成。

モデル コーディング
(MBPP)
DB
(AgentBench)
OS
(AgentBench)
平均
通常のファインチューニングで最適化したLlama3-8B 0.67 0.37 0.37 0.47
GPT-3.5-turbo 0.77 0.41 0.39 0.52
モデルC
(CycleQDで最適化したLlama3-8B)
0.76 0.38 0.43 0.53

大学共同利用機関法人 情報・システム研究機構

開発目的

GPT3 相当、1750億パラメータ規模を有し、日本語と英語を中心としたオープンなマルチリンガルモデルを構築する。また高い日本語性能を持つ LLM 構築の手法や費用対効果を検証する。この達成にあたって、特に複数のベンチマークにおいて日本語 SoTA(State of The Art)を達成する。また、このモデルを実運用可能なレベルまで構築・公開し、日本のコミュニティの知識基盤のかさ上げを図る。

モデル概要

1750億パラメータ相当のTransformerデコーダモデルをフルスクラッチで学習する。学習にはNVIDIA社のMegatron-LMを使用し、NVIDIA H100 512枚で学習を行う。データセットには英語の公開データセット、独自に収集する日本語のデータセット、ソースコードの公開データセットを中心に2.1兆トークンを準備し、このうち1.35兆トークン程度を目標の学習量とする。データセット、コード、モデル(最終モデルと学習中のチェックポイントを含む)をオープンライセンスで公開することを目指し、また開発中の知見も公に共有する。

開発目標・採用ベンチマーク・モデルパフォーマンス

GPT-3相当の約1750億パラメータを有し、日本語に強いオープンなマルチリンガルモデルの構築を目標に開発。
ベンチマークとして日本語LLMの性能評価に利用されるNejumi LLMリーダーボードを採用。GPT-3.5 turboとGPT-4の中間値である0.72 [2024.2.6時点] を目標値とした。
Llama-2の学習設定を踏襲したが、大規模モデルでのみ再現する当該設定上の本質的な問題を発見、最適な学習設定を別途調査するに至った。この検証に時間を要し、新設定下で目標学習量の約30%の4,000億トークンまでの学習が実施された。この時点での評価値は0.36である。

モデルパフォーマンス結果

目標 実績 他モデルとのパフォーマンス比較
0.72 0.36
※4,000億トークン学習時点
・OpenAI GPT-4-preview:0.83
・OpenAI GPT-3.5-turbo:0.65

ストックマーク株式会社

開発目的

ビジネスでの利用に耐え得る、ビジネスに関してのドメイン知識をもち、ハルシネーションを大幅に抑止した正確性の高い応答を行うことができる日本語の大規模言語基盤モデルの開発

モデル概要

当社が独自に収集しているビジネスドメインのテキストデータを含めた合計9100億トークンの日本語・英語のテキストデータを用いて、1000億パラメータの大規模言語モデルをフルスクラッチで開発した。国内でフルスクラッチで開発されたモデルとしては最大規模の基盤モデルである。構築したモデルは、オープンソースとして公開し、開発詳細はテックブログにて公開をおこなっている。

事前学習モデル: https://huggingface.co/stockmark/stockmark-100b
指示学習モデル: https://huggingface.co/stockmark/stockmark-100b-instruct-v0.1
テックブログ: https://stockmark-tech.hatenablog.com/entry/2024/06/05/120340

開発目標・採用ベンチマーク・モデルパフォーマンス

本事業では、(1) ビジネスのドメインでの質問回答での正確性および(2)日本語の一般の言語理解能力をベンチマークとした。
(1) gpt-4の正解率が64%である、ビジネスドメインの知識を問う50問の質問回答のベンチーマークであるStockmark Business Questionsにおいて90%を目標とした。公開されているビジネスドメインのベンチマークとしては唯一のものであるため、これを採用した。最終的には、gpt-4を大きく超えた90%の正解率を達成した。
(2) 一般的な言語理解のベンチマークであるJGLUEで、実用上も重要である機械読解タスクJSQuADでgpt-3.5と同レベルの84%を目標とした。これに関しては目標には届かず、目標の9割程度のスコアであった。

モデルパフォーマンス結果

Stockmark Business Questions

目標 実績 他モデルとのパフォーマンス比較
90% 90% ・gpt-3.5 (OpenAI): 44%
・gpt-4 (OpenAI): 64%
*2024/8/7

JGLUE (JSQuAD)

目標 実績 他モデルとのパフォーマンス比較
0.84 0.79 ・gpt-3.5 (OpenAI): 0.87
*2024/8/7

ベンチマークの例題

日本の7大商社を答えてください。

2022年8月10日にトヨタ自動車やソニーグループなどの出資により設立され、政府からも700億円の支援を受けている日本の半導体メーカーを答えてください。

マイクロプラスチックとは?

テックブログ: https://huggingface.co/datasets/stockmark/business-questions

Turing株式会社

開発目的

完全自動運転の実現に向け、映像を含めた高次の認知・理解・判断を可能にする日本語マルチモーダル基盤モデルを開発しました

モデル概要

ベースとなる700億パラメータの日本語言語モデルでは、指示調整用の高品質データセットを構築し、国内のオープンモデルでは最高の日本語性能を達成。視覚モーダルへの拡張のため、事前学習および指示調整を実施し、最大730億パラメータの視覚-言語モデルを構築しました。さらに、運転ドメインの知識を追加学習し、運転免許試験で高水準な得点を可能にしました。構築したライブラリ、モデル、データセットは一部を除き商用利用可能な形で公開しています。

https://github.com/turingmotors/vlm-recipes
https://huggingface.co/turing-motors/Llama-3-heron-brain-70B-v0.3
https://huggingface.co/turing-motors/Heron-Idefics2-8B-v0.1
https://huggingface.co/datasets/turing-motors/Wikipedia-Vision-JA
https://huggingface.co/datasets/turing-motors/Cauldron-JA
https://huggingface.co/datasets/turing-motors/CoVLA-Dataset-Mini

開発目標・採用ベンチマーク・モデルパフォーマンス

日本の文化、交通文脈を理解する能力を測るため、言語およびマルチモーダル性能でGPT-4やClaudeなどクローズドモデルを上回る性能を達成することを目標に開発した他、運転に関して人間のドライバー並の知識獲得を目指しました。ベンチマークとして、ベースとなる日本語性能では、JGLUEを用いた日本語ベンチマークでgpt-3.5-turboを超える0.75以上を達成しました。さらに画像-言語のマルチモーダルモデルの評価指標としては、VQAやreasoningなどの包括的な評価指標の平均スコアに対して、Claude 3 OpusやGemini Proなどのクローズドモデルを上回りました。さらに、運転ドメインの知識として、運転免許の学科試験問題で、GPT-4oを超え、世界最高の81.1%の正答率を達成しました。

モデルパフォーマンス結果

目標 実績 他モデルとのパフォーマンス比較
0.75 0.799 - JGLUEのスコアでgpt-3.5-turbo(0.748)を上回る性能を達成
- GPT-4(0.898)には及ばないものの、報告されている国内モデルの中では最高性能に
90.0 88.1 - LLaVA Bench (coco) JAでClaude 3 Opus (77.9)、Gemini Pro (74.6)を上回る性能を達成
90% 81.1% - 普通自動車免許 学科試験でGPT-4o(80%)、Claude-3.5-Sonnet (75.6%)、Gemini-1.5-Pro(71.1%)を上回る世界最高の性能を達成
- 現状、合格水準である90%に届くモデルはなく、LLMにとって最も難しいカテゴリであることが明らかに

ベンチマークの例題

(マルチモーダル性能)

Q: これらのスーツケースを価値あるものにする可能性のある要素とは?

(運転ドメインの知識)
Q: 「前方の自転車を追い越そうとしたが、左右にふらついており危険が予測されたので、危険を避けるためやむを得ず警音器を鳴らした。」という記述は正しいか答えなさい。

国立大学法人 東京大学

開発目的

本事業においては、国内での産業活用を念頭に、LLMの日本語性能を重視する。200名の開発チームを組成しコンペ形式を取ることで、開発経験を積んだ人材の育成を目的にしている。

モデル概要

フルスクラッチで構築した8Bサイズのモデルをアップサイクリングと呼ばれる手法で8x8BのMixture of Expertsへと拡張し、合成データ等も含め、累計で1700 Bトークンを学習させた日英のバイリンガルモデル。構築したモデル・ソースコード・開発ノウハウ等(議論の過程・失敗も含む)を商用利用可能な形で公開。
githubリンク:https://github.com/matsuolab/nedo_project_code
huggingfaceリンク:https://huggingface.co/weblab-GENIAC

開発目標・採用ベンチマーク・モデルパフォーマンス

日本語のLLMの性能評価において一般的なJGLUE(Nejumi Leaderboard Ver1)を評価に用いる。GPT-4はJGLUEにおいて89.8点、GPT-3.5 turboは74.8点である。また、NIIを中心としたLLM勉強会が10月に公開したLLM-jp-13Bは83.0点を記録している。本事業での開発モデルは、既存JGLUEのスコアにおいて70点を達成することを目標としたが、Phase2で開発された最終モデル(tanuki-8x8b)における結果は76.0点となった。当モデルは、LLMの汎用能力の中でも作文会話能力を最重要視したモデルであり、JGLUEの訓練データを用いた学習を行っておらず、かつJGLUEが想定するようなzero-shotの一問一答タスク形式で最適化を行っていないにも関わらず高いスコアを達成したことは特筆に値する。また、最新の評価指標(Nejumi Leaderboard Ver3の中の特に作文会話能力を必要とするタスク群)でも評価を行ったところ高い性能を達成した。以下の補足にてその詳細を記述する。

モデルパフォーマンス結果

目標 実績 他モデルとのパフォーマンス比較
70 76.0 - GPT-4:89.8
- LLM-jp-13B:83.0
- GPT-3.5 turbo:74.8

(*)Phase2におけるファインチューニング時のプロンプトフォーマットで評価を実施。
以下はMARC-jaタスクの例。

以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\n\n### 指示:\n製品レビューをnegativeかpositiveのいずれかのセンチメントに分類してください。出力はnegativeかpositiveのいずれかのみで小文字化してください。それ以外には何も含めないことを厳守してください。\n製品レビュー:{sentence}\n\n### 応答:\n

補足(最新の評価指標における評価結果):

開発終了時点において、LLMの日本語性能を最も多角的に評価可能なベンチマークシステムとして認知されているNejumi LLMリーダーボード3を用いて最終モデルの追加評価を実施した。このベンチマークは、LLMの言語理解能力・応用能力・アライメントなどの幅広い能力を評価可能である。
開発モデルの総合性能は1点満点中、0.57と算出され、GPT3.5 turboの0.58点と同程度であった(GPT-4は0.79点)。
マルチターンでの作文会話能力を評価するJapanese MT-Benchの総合スコアは10点満点中6.8-7.0点(ランダムシードの関係で評価の度に変動)となった。このスコアはGPT 3.5 turbo (6.8)やcalm3-22b-chat (6.9)と同程度であり、国産モデルとしては最高水準である。

Nejumi LLMリーダーボード3によるモデルパフォーマンス結果

目標 実績 他モデルとのパフォーマンス比較
- 0.57 - GPT-4:0.79
- GPT-3.5 turbo:0.58

Japanese MT-Benchによるモデルパフォーマンス結果

目標 実績 他モデルとのパフォーマンス比較
- 6.8-7.0 - GPT-4:8.6
- calm3-22b-chat:6.9
- GPT-3.5 turbo:6.8
- Llama-3-Swallow-70B-Instruct-v0.1: 6.2
- Llama-3-ELYZA-JP-8B: 6.1
- karakuri-lm-8x7b-instruct-v0.1: 5.9

※calm3-22b-chat, Llama-3-Swallow-70B-Instruct-v0.1, Llama-3-ELYZA-JP-8B, karakuri-lm-8x7b-instruct-v0.1については、leaderboard3に記録されている純国産・継続学習モデルにおいて、japanese mt-benchで高スコアを示す上位モデルだったので比較対象として追加している

ベンチマークの例題

[数学] あるテックスタートアップは、創業1年目にソフトウェア開発に80万円を投資し、2年目にはその半額をソフトウェア開発に投資しました。このスタートアップが2年間でソフトウェア開発に投資した総額はいくらですか?
[論理推論] 大石さんには三人の年上の姉がいて、それぞれの姉には各自より一歳年上の兄が一人ずついます。大石さんには何人の兄がいるでしょうか?
[ロールプレイ] あなたが宮崎駿であると思い込んで、可能な限り彼のように話してみてください。なぜ私たちはアニメが必要なのでしょうか?

株式会社Preferred Elements

開発目的

国産で日本語対応能力の高い基盤モデルを開発することは、日本特有の課題や文化への対応、カスタマイズによる高度なサービス・製品の開発、日本の産業イノベーションの促進、国際競争力等の観点から重要であると考え、独自アーキテクチャと学習データを用いて、フルスクラッチで開発する純国産の大規模言語を開発しました。

モデル概要

PLaMo™︎は、PFNグループが独自アーキテクチャと学習データを用いてフルスクラッチで開発する純国産の大規模言語モデルです。日本語と英語のテキストデータ合計2兆トークンを事前学習に使用しました。

1兆 (1T) パラメータ規模のLLMの事前学習検証
1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了
PFEの開発したLLMのPLaMo-100Bを用いた金融ベンチマーク評価と結果の分析
1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習

開発目標・採用ベンチマーク・モデルパフォーマンス

日本語性能を評価するベンチマークJaster(*) 0shotおよび4shotにて、GPTやClaude、Llamaをも上回り最高性能を記録しました。また、金融分野関連のベンチマークや医師国家試験などの専門知識を持つ関する質疑においても高い応答性能を持つことが確認できました

モデルパフォーマンス結果(2024年7月16日時点)

1 日本語ベンチマークJaster
また、日本語性能を評価するベンチマークJaster(*) 0shotおよび4shotにて、GPTやClaude、Llamaをも上回り最高性能を記録しました。

(*) 日本語性能を評価する標準ベンチマークで、GENIAC特有のカテゴリセット(NLI, QA, RC, MC, MR, FAの6カテゴリ)で評価。GENIACでは、Weights & Biases社のllm-leaderboard/g-leaderboard で主な基盤モデルをベンチマーク評価を実施。評価スコアは、ベンチマークテストに全問正解すると1点満点となる。

2 医師国家試験スコア

モデル 2021年 2022年
GPT-3.5 turbo 299 289
PLaMo-100B 300 317

3 金融評価(Japanese Language Model Financial Evaluation Harness)

モデル 平均スコア
GPT-3.5 turbo 50.27
PLaMo-100B 53.39

最終更新日:2024年12月20日