※一部事業者の掲載は日を追って行います
採択事業者一覧(アルファベット順)
株式会社ABEJA
開発目的
パラメータ数(コスト)と性能のトレードオフ関係を意識し、ビジネスでの実活用を目的としたモデルの小型化と性能を両立させる。提案書作成や論理推論、情報抽出など特定のタスクにおいてGPT-4を超えることを目標に、MT-Bench-Japaneseの該当3カテゴリにおいて性能を検証する。
モデル概要
Qwen2.5の32B/7Bをベースモデルとして、継続事前学習及び事後学習を実施。継続事前学習では品質フィルタリング及び合成データにより高品質化した100Bトークン規模のデータを、事後学習ではアノテーションを活用したデータを用いて学習。7Bモデルでは蒸留学習を実施。さらに32BモデルではReasoningモデルも構築し、これらをApache 2.0で公開済み。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、MT-Bench-JapaneseにおけるExtraction/Reasoning/Writingの3カテゴリをベンチマークとして採用。目標としていたGPT-4のスコア7.8に対し、8.35を達成。またReasoningモデルでは更に向上し、8.477を達成。
開発会社 | モデル名称 | 総合評価 (MT-Bench-Japanese) |
タスク特化評価 (MT-Bench-Japaneseにおける Reasoning/Writing/Extraction) |
---|---|---|---|
ABEJA | ABEJA-QwQ32b-Reasoning-Japanese-v1.0 | 8.669 | 8.477 |
OpenAI | OpenAI o1-preview | 8.642 | 8.461 |
Anthropic | claude-3-5-sonnet | 8.635 | 8.872 |
OpenAI | gpt-4o-2024-08-06 | 8.560 | 8.472 |
ABEJA | ABEJA-Qwen2.5-32b-Japanese-v1.0 | 8.335 | 8.350 |
OpenAI | gpt-4-0613 | 7.563 | 7.80 |
株式会社AIdeaLab
開発目的
テキストから動画を生成するモデル3つを開発し、コンテンツ産業を支援することに使う。うち2つのモデルは国際的に公開されている一般の動画生成モデルと比べて日本語で上回る指示追従さを持ち、うち1つのモデルは国際的なモデルと比べて日本のアニメらしい動画を生成できる特徴を持っていることを検証する。
モデル概要
最先端の高速アルゴリズムであるRectified Flow Transformer(2B)を2つフルスクラッチ開発。CCライセンス3000時間程度の実写動画を学習。推論コード、重みをApache 2.0で公開。日本語と英語の入力に対応。一方で、Wan 2.1 14Bをアニメ動画でフルファインチューニング。200時間程度のアニメ動画を学習。英語の入力に対応。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では機械的評価として日本語に対するFVDを採用。一般的な論文に出てくるFVDを参考に目標値を545以下と厳しく設定。アニメに対しては、更に厳しい100以下と設定。また、人手評価として一対比較を採用。映像品質、指示追従、日本のアニメらしさを国際的に有名なモデルと一対比較。
結果として、軽量型汎用動画生成AI基盤モデルはFVDの目標を達成し、汎用動画生成AI基盤モデルはCogVideoX-2Bに対して指示追従で96%勝利。アニメ用動画生成AI基盤モデルはKLING 2.0 MASTERに対して日本のアニメらしさで75%勝利。
モデル性能評価結果
・機械的評価 ※2025/5/14時点
モデル | 目標 [FVD] | 実績 [FVD] |
---|---|---|
軽量型汎用動画生成AI基盤モデル | 545以下 | 275 |
汎用動画生成AI基盤モデル | 545 以下 | 804 |
アニメ用動画生成AI基盤モデル | 100 以下 | 851 |
CogVideoX-2B(参考) | - | 4,540 |
・人手評価 ※2025/5/14時点
モデルの組み合わせ | 映像品質勝率 | 指示追従勝率 | 日本のアニメらしさ勝率 |
---|---|---|---|
CogVideoX-2B×汎用動画生成AI基盤モデル | 15% | 94% | - |
KLING 2.0 MASTER×アニメ用動画生成AI基盤モデル | 34% | 57% | 75% |
AiHUB株式会社
開発目的
アニメ制作補助環境に組み込む、文字列から画像を生成するモデルを制作する。限られた許諾済みデータを用いつつも、現在実用されているモデルと同等の性能を目標とし、画像生成分野で標準的に利用されている指標として、事前学習モデルをFID、CLIP score、GenEvalで、追加学習モデルをaesthetic score、TIFA score、Win rateで性能検証する。
モデル概要
独自設計のRectified Flow Transformerモデル(12億パラメータ)。1000万枚規模のデータセットを用いてフルスクラッチで事前学習を行い、100万枚規模のデータセットを用いて事前学習モデルからの追加学習を行った。英文テキストからの画像生成に対応。推論コードと事前学習モデルの重みを、 https://hf.co/aihub-geniac/oboro にてApache License, Version 2.0で公開した。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、画像生成分野で標準的に利用されている指標として、事前学習モデルをFID、CLIP score、GenEvalで(SD 1.5またはSDXLと同等が目標)、追加学習モデルをAesthetic score、TIFA score、Win rate(SDXLを20%上回ることが目標)で性能検証する。追加学習モデルは、GenEvalにおいては及ばないものの、FIDやCLIP scoreにおいては、Stable Diffusion 1.5(SD 1.5)やStable Diffusion XL(SDXL)と同等の数値を記録した。また、追加学習モデルはAesthetic scoreで同等程度の数値を達成し、TIFA scoreおよびWin rateにおいてはSDXLを大きく上回る性能を達成した。実際の数値については、測定方法にランダム性がある等の理由で、競合モデルも含め実際に同条件にて手元で測定した結果を下記に記載する。
モデル性能評価結果
FID | CLIP score | GenEval | Aesthetic score | TIFA score | Win rate | |
---|---|---|---|---|---|---|
oboro:base | 22.7 | 0.31 | 34 | 4.5 | 0.85 | - |
oboro:追加学習モデル | - | - | - | 5.7 | 0.73 | 0.887 |
SD 1.5 | 19.6 | 0.31 | 42 | 4.8 | 0.52 | - |
SDXL 1.0-base | 24.3 | 0.31 | 54 | 6.5 | 0.62 | 0.113 |
指標(事前学習モデル) | 目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|---|
FID | 100%維持(SD1.5比) | 22.7 | SD 1.5は19.6, SDXLは24.3 |
CLIP score | 100%維持(SDXL比) | 0.31 | SD 1.5, SDXLは0.31 |
GenEval | 100%維持(SD1.5比) | 30 | SD 1.5は42, SDXLは54 |
指標(追加学習モデル) | 目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|---|
TIFA score | 20%向上(SDXL比) | 0.73 | SD 1.5は0.52、SDXLは0.62 |
Aesthetic score | 20%向上(SDXL比) | 5.7 | SD 1.5は4.8、SDXLは6.5 |
Win rate | 20%向上(SDXL比) | 0.887 | SDXLは0.113 |
AI inside株式会社
開発目的
DX Suiteの項目抽出処理において、誤認識を30%改善(例:90%→93%)する「通常項目用モデル」と「テーブル項目用モデル」を開発。さらに、通常項目用モデルには、同等の計算リソースでスループットを10倍に向上させる小型モデル(SLM)も開発。また、SLMが大規模言語モデル(LLM)に近い精度を自律的に実現できる仕組みも開発。精度は新たに構築したベンチマーク「japanese-bizform-table-kie」で公開し、スループットについては社内比較で検証。
モデル概要
弊社でスクラッチ開発した全文OCRモデルの読み取り結果/表抽出結果を利用。
帳票の一般項目(テーブル以外)の抽出モデルには、Mistral 8B、Llama3.2-3Bをベースモデルとしてファインチューニングを実施。この学習データは、弊社の利用可能な学習データ30万件を活用。
テーブル項目の抽出モデルには、Llama3.2-11Bにファインチューニングを実施。明細表のデータ10万2500件を活用(10万件は合成データを利用し、アノテーション時間を削減)。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、精度評価に関して、弊社独自のベンチマーク「japanese-bizform-table-kie」を採用。
これにより、弊社が調査したOCR利用頻度の高いトップ50のビジネス非定型帳票への、読み取り精度を客観的に評価することが可能。
評価結果
項目 | 目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|---|
通常項目(テーブル項目以外) | 誤認識の30%を改善 | 誤認識の68.62%を改善 | 通常項目の項目抽出精度については、平均95.1%となり、2位のgemini-2.5-pro-preview-03-25よりも5%高い結果となった。 |
テーブル項目 | 誤認識の30%を改善 | 誤認識の33.40%を改善 | 明細項目の項目抽出精度については、平均93.9%となり、1位のgemini-2.5-pro-preview-03-25(平均95.9%)に次いで、2位の結果となった。 |
ベンチマーク
https://github.com/aiinside/japanese-bizform-table-kie
また、小型モデルのスループット評価も内部で実施。
こちらは既存モデルの12倍のスループットとなった。
※具体的には、レイテンシーが1/3となり、GPUメモリの使用量が1/4となった。
株式会社EQUES
開発目的
薬学・製薬分野におけるドメイン知識を強化し、同分野の業務における質問応答、文書チェックなどの業務を効率化する。同分野における包括的なベンチマークが不足していることから、質問応答や文書チェックの能力を問うベンチマークスイートを独自に作成し、世界最高レベルのモデルであるGPT-4oと比較して70%以上の性能を小規模モデルで実現することを目標にする。
モデル概要
Alibaba社のQwen2.5-7Bをベースとし、数十Bトークンの日本語・英語のドメインデータを用いて継続事前学習を実施。開発モデル(70億パラメータ)は比較的軽量なため、ローカル環境(社内サーバ、ラップトップ等)でも動作する。モデルの重み及び学習コードは商用利用可能なライセンスで公開予定。
開発目標・採用ベンチマーク・モデルパフォーマンス
薬学・製薬分野では類似分野の医療分野と比べて包括的なベンチマークが不足していることから、本事業ではベンチマークスイート “JPharmaBench” を新たに作成。同ベンチマークは独自に作成した日本薬剤師国家試験、名寄せ、齟齬点検ベンチマークと既存の医学・薬学ベンチマーク2種からなり、質問応答だけでなく文書チェック等の実業務に近い能力を計測することを目指した。
モデル性能評価結果
※2025/5/20時点
ベンチマーク名 | 目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|---|
YakugakuQA | 58.5 | 62.8 | - Meditron3-Qwen2.5-7B(同規模の医療分野ドメイン特化モデル): 54.1 - GPT-4o(世界最高レベルの性能、クローズドモデル): 83.6 |
NayoseQA | 60.2 | 62.2 | - Meditron3-Qwen2.5-7B(同規模の医療分野ドメイン特化モデル): 58.3 - GPT-4o(世界最高レベルの性能、クローズドモデル): 86.0 |
SogoCheck | 27.4 | 26.7 | - Meditron3-Qwen2.5-7B(同規模の医療分野ドメイン特化モデル): 19.6 - GPT-4o(世界最高レベルの性能、クローズドモデル): 39.1 |
IgakuQA | 60.6 | 64.7 | - Meditron3-Qwen2.5-7B(同規模の医療分野ドメイン特化モデル): 58.8 - GPT-4o(世界最高レベルの性能、クローズドモデル): 86.6 |
JMMLU (Pharma) | 47.6 | 55.0 | - Meditron3-Qwen2.5-7B(同規模の医療分野ドメイン特化モデル): 31.7 - GPT-4o(世界最高レベルの性能、クローズドモデル): 79.1 |
ベンチマーク
作成したベンチマークは以下で公開。
https://huggingface.co/collections/EQUES/jpharmabench-680a34acfe96870e41d050d8
株式会社Kotoba Technologies Japan
開発目的
音声をリアルタイムにEnd-to-Endでやりとりできる音声基盤モデルの開発は世界的に広がりを見せている。当社が開発する音声基盤モデルが、日本市場におけるベストな選択となるまで技術水準を向上させ、商業化への道筋を示す。具体的には、1) 当社音声基盤モデルの日本語音声能力・推論速度を飛躍的に高め、2) 音声アプリケーションにおける特化を進める。
モデル概要
音声基盤モデル、すなわち音声をEnd-to-Endにリアルタイムかつ流暢にやりとりできるTransformerベースの基盤AIモデルの 開発を進める。大規模な日本語・多言語音声データを活用して、8Bの汎用的な能力を待つ音声基盤モデルを学習する。
開発目標・採用ベンチマーク・モデルパフォーマンス
本開発で構築したモデルは、高速応答を実現し、500msを大幅に下回る処理速度を達成した。また、数十分規模の音声をEnd-to-Endで処理可能であることを実証した。さらに、TTS-Arena評価において日本語音声生成能力で従来ベースラインを大きく上回る性能を確認した。本モデルは既に当社の同時通訳アプリに実装され、社会での利用が開始されている。公開後わずか2ヶ月で数万人規模のユーザに利用され、実用性と商業化の可能性を強く示した。
NABLAS株式会社
開発目的
日本語と英語に対応した国内で最高性能をもつ汎用的な視覚言語モデルの開発をした上で、そのモデルをベースにした「食」に関する特化型モデルの開発を目的とした。プロジェクト後はこのモデルを用いて食品・小売会社に向けた業務効率化サービスの開発および展開を狙う。
モデル概要
公開した汎用的な視覚言語モデル「NABLA-VL」は、画像エンコーダーにNaViT、言語モデルにPhi‑4を採用し、その間を2層のMLPでつないだシンプルな構成。約150億パラメータの大規模モデルながら複数画像や動画も処理でき、日本語と英語の両方を扱えるよう公開データセットを組み合わせて学習。モデルの重みや学習・推論コードはApache 2.0ライセンスで公開され、研究・商用利用が可能。
開発目標・採用ベンチマーク・モデルパフォーマンス
llm‑jp‑eval‑mmでベンチマーク評価を実施したところ、Heron(LLM‑as‑a‑Judge)のスコアが67.5、JMMMUが45.7%など複数の指標で高い性能を示し、英語に関しては学部生レベルの分野横断質問応答ベンチマークMMMUで51.1%を達成。特に、図表を含む日本語文書理解ベンチマークJDocQAでは29.2%とgpt-4o-2024-11-20を含むリーダーボード上の他のすべてのモデルを上回る成績を示した(2025年7月時点)。
株式会社Preferred Elements・株式会社Preferred Networks
開発目的
高品質なデータ不足に対して、LLMを利用し、世界最大規模の高品質な学習データを構築する。このデータと既存のデータを組み合わせて、フルスクラッチの事前学習を実施し、その後事後学習を行う。このような高品質なデータを大量に利用することで、既存の10倍近く大きなモデルと比較して同レベルの精度を達成する。
モデル概要
状態空間モデルであるMamba2とsliding window attentionを組み合わせたモデルアーキテクチャで長い文章の生成でもメモリ消費が大きくならないように工夫した。このモデルをフルスクラッチで1Bから31Bまで数Tトークン学習。一部のモデルをHugging Faceで公開中。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では開発したPLaMo 2の8Bサイズのモデルで、JMMLUを始めとしたいくつかのベンチマークでGENIACの第1サイクルで開発したPLaMo 100Bなど数倍のサイズのモデルよりも高い精度を達成することを目標とし、2025/5/12時点で、JMMLUではPLaMo 100Bで0.57というスコアだったのに対して8Bで0.63というスコアを達成。他のベンチマークでも同様に目標よりも高いスコアを達成した。
※2025/5/12時点
モデル性能評価結果
ベンチマーク | PLaMo 2 | 比較対象のスコア(目標モデル名) |
---|---|---|
JMMLU (5-shot) | 0.63 (事前学習済みモデル8B) | 0.57 (PLaMo 100B) |
JHumanEval (0-shot) | 0.70 (事前学習済みモデル8B, ユニットテストが通るかどうかのシンプルなリワードを活用) | 0.6 (Llama 3 Swallow 70B) |
Jaster (0-shot) | 0.57(事後学習済みモデル8B) | 0.57 (PLaMo-Prime, 100Bモデル) |
Jaster (4-shot) | 0.63(事後学習済みモデル8B) | 0.61(PLaMo-Prime, 100Bモデル) |
Japanese MT Bench | 7.0(事後学習済みモデル8B) | 6.4(PLaMo-Prime, 100Bモデル) |
SyntheticGestalt株式会社
開発目的
分子特化の基盤モデルは分子関連産業における多様な下流タスクの「共通基盤」となる技術。実験データが限られている場合でも、高精度なモデル開発を可能にし、医薬品、特殊化学品、農薬、機能性食品などへの応用において、開発コストと時間を大幅に削減することを目的としている。
モデル概要
今回開発した基盤モデル「 SG4D10B」 は、位相幾何学の知見を活かした新たな分子表現を用いて、立体構造情報を扱えるようにしたモデル。その複雑なモデルを100億件という大規模なデータで事前学習させた世界最大のモデルで、以下のような特徴を有する。
- 分子の立体構造を適切に扱うための点群に対するグローバルな SE(3) 不変性
- 4次元分子表現のサポート(複数のコンフォメーションを処理可能)
- 100億件で事前学習をした後、公開実験データ30万件で追加学習済み
開発目標・採用ベンチマーク・モデルパフォーマンス
モデル性能評価結果
基盤モデルの有用性を示す一つの指標として、創薬のベンチマークで Top 3 に入ることを目指した。
今回チャレンジした課題は Therapeutics Data Commons (TDC) が提供するもので、TDC は創薬・医薬品開発を加速させるためのオープンサイエンスのプラットフォームである。
今回、SG4D10B をファイン・チューニングしたモデルで、薬効や副作用に関わる薬物動態のタスクで世界最高レベルの性能を達成することに成功。また、本基盤モデルの実用性も検証するために、製薬企業が実際に利用する化合物ライブラリから化合物群を選定し、ウェット実験を実施して評価データを作成。また、そのデータを用いたモデル評価では、Average Precisionが80%を超える性能が示された。今後、本成果を創薬研究の現場に実践投入していく。
Turing株式会社
開発目的
完全自動運転の実現に向け、視覚・言語・行動を統合的に理解・判断できる「身体性」を持つマルチモーダル基盤モデルを開発。複雑な交通環境に適応可能な知能を育成し、自動運転領域における次世代の判断・制御の枠組みを構築し、評価には汎用性・再現性の高い指標を採用する。
モデル概要
NVILAアーキテクチャを基盤とするHeron-NVILA-Liteは、日本語対応の視覚-言語モデルで、最大33Bの規模を持つ。Webスケールの日本語インターリーブデータを用い、視覚-言語モデルをスクラッチ開発。性能・効率性・多用途性を兼ね備え、重み・コード・アプリも一般公開済み。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、ベースとなる視覚-言語理解の性能評価として「Heron VLM Leaderboard」をベンチマークに採用、開発目標をHeron VLMスコア4.0と設定した。2025年3月時点で、Heron-NVILA-Lite-15BはHeron VLMでスコア4.84を達成した。Llama-3.2-11B-Vision-Instruct(3.27)、Qwen2.5-VL-7B(4.65)などを上回り、オープンな70B以下のモデルでは最高性能となった。開発モデルはHugging Face上にて商用利用可能なモデルとして公開済み。
モデル性能評価結果
ベンチマーク | 目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|---|
Heron VLM Leaderboard | 4.0 | 4.84 | Meta/Llama-3.2-11B-Vision-Instruct: 3.27, Alibaba/Qwen2.5-VL:4.65, OpenAI/gpt4o-2024-08-06: 6.34 |
ベンチマーク例
Heron VLM Leaderboardは視覚-言語応答(VQA)や画像キャプションの精度を総合的に評価する指標。その他の日本語視覚-言語性能についても多数評価を実施し、モデル公開ページで公開(いずれも同規模のオープンモデルで最高水準):
https://huggingface.co/turing-motors/Heron-NVILA-Lite-15B
ウーブン・バイ・トヨタ株式会社
開発目的
動画像など時空間理解向けのマルチモーダル基盤モデルを開発し、交通安全、防犯、教育、生活の利便、街の検索・案内、など都市関連サービスへ展開予定。動画像理解に向けた国際ベンチマークMVBench Public Leaderboardで2025年4月30日時点1位の性能を達成した基盤モデルを開発。
モデル概要
事前学習から事後学習まで独自に設計したInstance-aware Spatial-Temporal LLM (70億パラメータ)構造を採用。独自に構築した約1億のインスタンスレベルの動画像+言語+物体位置(regionやtrack)のデータを用いて、事前と事後学習を実施。推論モデルと構築したデータセットの一部を公開予定。
開発目標・採用ベンチマーク・モデルパフォーマンス
本開発において、時空間理解の性能検証として、動画像の理解において国際主要なベンチマークMVBenchを採用。開発目標値は62.0/100と設定し、2025年4月30日時点で72.05/100のスコアを達成し、MVBenchのPublic Leaderboard上で1位の確認。
モデル性能評価結果
※2025/4/30時点
目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|
62.0 | 72.05 | *73.81(2025/5/21), Shanghai AI Lab 73.24, Gemini1.5-Pro: 60.5, GPT4-o: 64.6 |
ベンチマーク例
MVBenchは動画の空間(姿勢、行動、位置、属性など)と時間(移動方向、状態遷移、行動予測/理解)両方から計20項目で評価するベンチマーク。以下、パブリックベンチマークの結果をアクセスできる:
https://huggingface.co/spaces/OpenGVLab/MVBench_Leaderboard
国立研究開発法人海洋研究開発機構
開発目的
気候変動によるリスク評価や対策立案に特化した大規模言語モデルを開発し、自治体における効果的かつ現実的な適応策・緩和策の立案や企業における気候関連財務情報開示タスクフォース(TCFD)レポート作成を効率化させる。気候変動や温暖化対策に特化した独自のベンチマークを構築し、ベースモデル比で20%の性能向上を目的とする。
モデル概要
東京科学大学がLlama 3.3をベースに開発したLlama 3.3 Swallow 70B Instruct v0.4に対して、気候変動関連の知識獲得のための指示チューニングに加えてテーブルデータ読み取りと科学演算に特化した指示チューニングを実施。学術論文や報告書等約400編から生成した38000件の指示チューニング用データを生成。学習データの公開に向けて準備中。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、気候変動に特化した選択肢型(ClimateQA)および記述型(ClimatePlan)のベンチマークを独自に構築。開発目標を、ベースモデル比で20%の精度向上と設定し、2025年4月23日時点において20%の性能向上を達成した(合計スコア1.33から1.59へと20%の精度向上)。
モデル性能評価結果
※2025/4/23時点
目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|
20% | 20% | Llama 3.3 Swallow 70B(ベースモデル):0.64 / 0.69 / 1.33, 開発モデル:0.78 / 0.81 / 1.59, ※数値はClimateQA(選択肢型) / ClimatePlan(記述型) / Total |
カラクリ株式会社
開発目的
日本のカスタマーサポート業務に特化した高性能AIエージェントを実現するため、日本語UIに対応したCUA(Computer-Using Agent)モデルを開発。自然言語の業務指示からアプリケーション操作を自動化し、カスタマーサポート業務の生産性向上を目指す。英語モデル中心の既存CUAでは困難だった日本語読解とUI理解に対応する。
モデル概要
Qwen2.5-VL-32Bをベースに、日本語業務環境向けに最適化した大規模Vision-Languageモデル「KARAKURI VL」を開発。画像と自然言語の両モダリティに対応し、公開事例としては世界で初めてQwen 2.5 VL 32BのAWS Trainium上での学習を実施した。学習済みモデルとコードはHugging Faceで公開。
開発目標・採用ベンチマーク・モデルパフォーマンス
日本語の視覚言語タスクにおける代表的なベンチマーク3種(JDocQA、JMMMU、Heron)において、KARAKURI VLは同規模帯の国内外オープンモデルを上回る性能を記録した。
モデル | JDocQA (Acc) | JMMMU | Heron |
---|---|---|---|
Qwen/Qwen2.5-VL-32B-Instruct | 25.2 | 48.8 | 74.8 |
karakuri-ai/karakuri-vl-32b-instruct-2507 | 26.3 | 55.2 | 81.0 |
karakuri-ai/karakuri-vl-32b-thinking-2507-exp | 27.3 | 51.0 | 73.9 |
meta-llama/Llama-3.2-11B-Vision-Instruct | 15.4 | 36.4 | 38.1 |
google/gemma-3-27b-it | 20.2 | 50.5 | 69.2 |
OSWorld-JP
ストックマーク株式会社
開発目的
業務で用いられる複雑なドキュメントを高い正確性を持って読解できる基盤モデルを開発し、社内文書の検索や活用の効率化や高度化を目指す。日本語のドキュメント理解の性能を検証するために、図表理解のベンチマークである日本語ChartQAやビジネスドキュメント理解の独自ベンチマークであるbusiness slide questionsにおいて、GPT-4oを超えることを目標とする。
モデル概要
フルスクラッチで1000億パラメータのVLMの開発を行なった。まず、日本語・英語・コードを含む2.0兆トークンのテキストコーパスにより事前学習を行いLLMを開発し、その後に、1000万組の画像・テキストペアのデータセットによりマルチモーダル学習を行い、VLMを開発した。事前学習後のLLMに指示学習を行ったモデルおよび、VLMをHugging Face Hubにて公開した。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、言語理解とドキュメント理解において高い性能のモデルの開発を目指したものであり、以下の性能目標を設定した。
ドキュメント読解のベンチマーク:
- 複雑な図表を含むドキュメント読解評価セット(business document Questions)にてGPT-4oを超える性能。
- 日本語ChartQAにおいてGPT-4oと同等の性能。
言語理解のベンチマーク:
- Stockmark Business Questionsで90%以上の性能
- 日本語MT-BenchでGPT-4oと同等の性能
(1), (2), (3)については目標を達成し、ドキュメント読解に高い性能を示すモデルを開発するという成果を得ることができた。また(4)については目標に達しなかったものの、これまで国内でフルスクラッチで開発されたモデルの中では最高性能を示した。
モデル性能評価結果
※2025/5/16時点
ベンチマーク | 実績 | GPT-4oのスコア |
---|---|---|
(1) Stockmark business document questions | 4.36 | 4.32 |
(2) 日本語ChartQA | 0.82 | 0.77 |
(3) Stockmark business questions | 0.90 | 0.88 |
(4) 日本語MT-bench | 7.88 | 8.60 |
株式会社データグリッド
開発目的
(動画生成AI)テキストから動画を生成する動画基盤モデルと選択的編集モジュールを開発し、広告等のコンテンツを誰でも簡単に生成・編集できるサービスにつなげる。目標性能は、動画の生成品質であるFVDを採用し、風景の時系列変化を対象としたSkyTimelapseデータセットで世界最高精度を目指す。
(画像生成AI)テキストから画像を生成する画像生成基盤モデルと選択的編集モジュールを開発し、広告や製造業の製品データ等のユーザー意図に沿って生成し、選択的に編集できるサービスにつなげる。目標性能は、製造業データにおける選択的編集性能を測定するためにLPIPSやCLIP, DISTSを採用し、pixabay等で収集した金属表面画像等のデータセットを評価データに使用し、これらの性能で世界最高精度を目指す。
モデル概要
(動画生成AI)Open-Sora-Plan_v1.3を基盤として、ロイヤリティフリーの動画共有サイトから収集した16万の動画データセットをベースにクレンジングしたデータセットで学習した。学習コード、重みをApache 2.0で公開予定。
(画像生成AI)PD12MやCommonCatalogなどのオープンなデータセットから約2000万枚のデータセットを構築し、Local Attention DiTという独自のアーキテクチャの画像生成基盤モデルをスクラッチから構築するとともに、製造業特化データでファインチューンすることで製造業特化モデルを構築した. 学習コード、重みをApache 2.0で公開予定。
開発目標・採用ベンチマーク・モデルパフォーマンス
(動画生成AI)本事業では、動画生成の品質の指標であるFVDを評価ベンチマークに設定(評価データは、SkyTimelapseデータセット)。開発目標をスコア32と設定し、2025年4月30日時点で37.78を記録した。開発目標スコアに及ばなかったもののSOTAのOpen-Sora-Plan_v1.3を上回り、スクラッチから学習可能なオープンモデルの中で世界最高精度(SOTA)を記録。
モデル性能評価結果
※2025/4/30時点
凡例:✅よりよい性能を達成した
ベンチマーク | ベンチマークの意味 | 目標値 | 実績値 | 他モデル値(比較) |
---|---|---|---|---|
FVD | 動画品質(動画のフレーム間の一貫性・品質)、低いほど良い | 32 | 37.78(未達) | Latte: 42.67( ✅ )Open-Sora-Plan_v1.3: 42.19( ✅ ) |
(画像生成AI)本事業では、選択的編集性能を測定するためにLPIPS, CLIP, DISTSの前景・背景の6観点をベンチマークとして採用。製造業特化モデルにおいて、開発目標をそれぞれ設定し、6項目中3項目に関して、2025年1月27日時点でSOTAを記録した。詳細は比較表を参照。
モデル性能評価結果
※2025/1/27時点
ベンチマーク | ベンチマークの意味 | 目標値 | 実績値(目標達成) | 他モデル(Harmonizing Attention)値との比較 |
---|---|---|---|---|
LPIPS_fg | 前景部分の画質誤差(低いほど良い) | 0.24 | 0.23( ✅ ) | 0.27( ✅ ) |
LPIPS_bg | 背景部分の画質誤差(低いほど良い) | 0.2 | 0.25(未達) | 0.25(未達) |
CLIP_fg | 前景の意味的整合性(高いほど良い) | 92 | 93.1( ✅ ) | 90.4( ✅ ) |
CLIP_bg | 背景の意味的整合性(高いほど良い) | 75 | 70.4(未達) | 69.5( ✅ ) |
DISTS_fg | 前景の構造類似度誤差(低いほど良い) | 0.18 | 0.18( ✅ ) | 0.19( ✅ ) |
DISTS_bg | 背景の構造類似度誤差(低いほど良い) | 0.16 | 0.16( ✅ ) | 0.24( ✅ ) |
株式会社ヒューマノーム研究所
開発目的
細胞の機能や状態を示す遺伝子発現量を収集し、多様な細胞状態を包括的に表現した「地図」である基盤モデルを開発する。このモデルを用い医薬品の薬効予測精度向上や創薬における臨床試験の効率化を目指す。同種モデル世界1位の達成を目標に、先行研究でも用いられた標準指標「MSE(平均二乗誤差)」で性能を検証する。
モデル概要
先行研究scFoundationの非対称エンコーダ・デコーダ型アーキテクチャをベースに拡張したモデル(3億パラメータ)。公共DBから収集した約9億細胞分のデータから高品質な約3億細胞分を抽出した世界最大級となるデータセットを構築し学習。利用のための推論コード、モデルの重みはいずれも公開予定。
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、遺伝子発現量の基盤モデルの評価として、標準的ながら難易度の高い遺伝子発現量を数値として予測するタスクをベンチマークとして採用。数値評価の標準指標「MSE」で評価を実施。既存のモデルの性能を基準に、現行トップであるscFoundationの性能を上回るMSE0.30以下と設定し、2025年4月19日時点で0.295を記録した。
モデル性能評価結果
※2025/4/19時点
目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|
0.30 | 0.295 | scFoundation:0.32, scGPT、GeneFormer:0.32以上 |
フューチャー株式会社
開発目的
日本語とソフトウェア開発に特化した基盤モデルを開発し、ソフトウェア開発の省力化、高品質化を図る。Llama 3.1 8B、70Bを超える性能を目指し、国際的に広く用いられているベンチマークデータである ”HumanEval” により英語コード補完性能を計測し、これを日本語訳した ”JHumanEval” により日本語コード補完性能を計測する。
モデル概要
Llama 3.1 8Bモデルを、日本語データ80B token, 英語データ5B token, ソースコードデータ205B tokenを用いて継続事前学習し、その後ソフトウェア開発に関連した合成指示チューニングデータ1200万件によりFine-tuning、Preference Learningを行った。学習済みモデルは以下で公開済み。
https://huggingface.co/future-architect/Llama-3.1-Future-Code-Ja-8B
開発目標・採用ベンチマーク・モデルパフォーマンス
本事業では、ソフトウェア開発に関連したベンチマークにより、ベースモデルであるLlama 3.1を超える性能を達成することを目標とした。定量的な性能計測のため、国際的に広く用いられているコード補完ベンチマークデータである “HumanEval” およびそれを日本語訳した “JHumanEval” を中心にコード補完性能を計測した。また、HumanEvalのテストセットを拡張した “HumanEval+”、コードの途中補完性能を測る “SantaCoder-FIM” についてもLlama 3.1と比較を行った。開発したモデルは上記全てのベンチマークにおいて、Llama 3.1 8Bを超える性能を達成し、一部タスクについてはLlama 3.1 70Bを超える性能が得られた。
モデル性能評価結果
※2025/5/20時点
評価データ | 目標 (Llama 3.1 8B Instruct) | 目標 (Llama 3.1 70B Instruct) | 実績(開発モデル) | 他のモデルとのパフォーマンス比較 |
---|---|---|---|---|
HumanEval | 0.6311 | 0.7970 | 0.6835 | Llama 3.1 8Bモデルを上回る性能を達成。 |
JHumanEval | 0.5061 | 0.7061 | 0.6335 | Llama 3.1 8Bモデルを上回る性能を達成。 |
HumanEval+ | 0.5872 | 0.7390 | 0.6360 | Llama 3.1 8Bモデルを上回る性能を達成。 |
SantaCoder-FIM (Python) | 0.4468 | 0.5964 | 0.5139 | Llama 3.1 8Bモデルを上回る性能を達成。 |
SantaCoder-FIM (Java) | 0.3506 | 0.2910 | 0.5478 | Llama 3.1 8Bおよび70Bモデルを上回る性能を達成。 |
株式会社リコー
開発目的
日本のモノづくりの知の継承をめざし「様々なドキュメント群を読み取るマルチモーダルLLM」を開発する。商用利用可能な同等規模の既存モデルの中で最高の読み取り性能を持つことを目指し、図表の読み取り性能を計測する独自開発のベンチマークと、ドキュメント画像に対する質問応答データセットであるJdocQAを用いて性能を検証する。
モデル概要
日本語に強い国産のLlama-3.1-Swallow-70B-Instruct-v0.3を採用し、更にQwen2-VLのビジョンエンコーダを用いてLLaVA方式でマルチモーダル化を実施。その後日本語の図表を中心に学習させることによって国内のデータに最適化。商用利用不可のデータは学習に利用せず、モデルを利用して生成した出力を学習利用可能なLLMを用いてほぼ全ての学習データを生成。
開発目標・採用ベンチマーク・モデルパフォーマンス
モデル性能評価結果
本事業では、図表の読み取り性能を計測する独自開発のベンチマークと、ドキュメント画像に対する質問応答データセットであるJdocQAを公式ベンチマークに採用。開発目標を、商用利用可能な同等規模の既存モデルの中で最高性能と設定し、2025年4月20日時点で独自ベンチマーク/JDocQAそれぞれにて、0.890/0.297を記録。競合のQwen2.5-VL-72B-Instruct, llava-calm2-siglip, Llama-3.2-90B-Vision-Instructに対して、優位性を確保。
※2025/4/20時点
目標 | 実績 | 他のモデルとのパフォーマンス比較 |
---|---|---|
- | 0.89 | (独自),Qwen2.5-VL-72B-Instruct:0.865,llava-calm2-siglip:0.09,Llama-3.2-90B-Vision-Instruct:0.710 |
- | 0.297 | (JdocQA),Qwen2.5-VL-72B-Instruct:0.234,llava-calm2-siglip:0.085,Llama-3.2-90B-Vision-Instruct:0.231 |
ベンチマーク例
JdocQAは、ドキュメント画像に対する質問応答データセット。一般ユーザーも以下のリンクから体験可能(v0.4.0にて実施):https://github.com/llm-jp/llm-jp-eval-mm/tree/v0.4.0
株式会社ユビタス/株式会社Deepreneur
開発目的
東アジア言語(日中韓)に強い多言語LLM開発プロジェクト。国内の外国語対応や海外での日本語対応に貢献し、 日本語の推論・対話理解タスクで高い正確性と再現性 を発揮。ELYZA-100、JA MT-Bench、TMMLU+といった主要ベンチマークでの 高性能達成 を目標とする。
モデル概要
Ubitus Multi-lingual Llama 3.1 405Bモデルは、Metaの Llama 3.1 405Bを基盤 とし、 日本語1000億、中韓400億トークンのデータで事前学習・ファインチューニング を実施。 推論・生成性能向上 のため、命令チューニングとDPOを統合しH100クラスタで最終調整。API提供とHugging Faceでのモデル公開を予定。
開発目標・採用ベンチマーユビタスルパフォーマンス
本事業では、日本語と繁体字中国語に特化した大規模言語モデルの開発に成功。最終モデルには、 Llama 70Bのファインチューニング版 と、 405Bの継続事前学習版 が含まる。
日本語モデルは JA MT-Benchで9.18、ELYZA-100で4.44 を達成 。繁体字中国語モデルもTMMLU+で76.06%以上と高い性能を示した。特に405Bモデルのトレーニングには、SFTで8万時間以上、DPOで1万時間以上もの計算リソースを使用し、これまでの日本語トレーニングで最大規模となった。トレーニングはDeepSpeed ZeRO-3やOpenRLHF RingAttentionなどを活用し、240ノード以上のH100クラスタで実行。最終モデルは日英両方のベンチマークでGPT-4 Turboを上回る性能を発揮。
指標 | 目標 | 結果 | 参考)GPT-4 |
---|---|---|---|
ELYZA Tasks 100 | 4.1を上回る | 4.44 | 4.03 |
JA MT-Bench | 8.1を上回る | 9.18 | 8.16 |
llm-jp-eval | 0.7を上回る | 0.748 | 0.757 |
最終更新日:2025年9月11日