ホーム
生成AI基盤モデル開発第3期採択事業者中間報告会を開催しました！

生成AI基盤モデル開発第3期採択事業者中間報告会を開催しました！

イベントレポート

2025/12/25

2025年11月21日（金）、日本の生成AI開発と社会実装の加速を支援する「GENIAC」は、基盤モデルの開発を手掛ける第3期採択事業者24社による中間報告会を開催しました。本会は、開発進捗および中間成果の報告に加え、事業者間での学びの共有を目的に実施されたものです。本記事では、当日の内容の一部を紹介します。

中間報告会の冒頭、経済産業省商務情報政策局情報産業課AI産業戦略室室長渡辺琢也が開会の挨拶に立ち、GENIACの目的を述べるとともに、中間報告会の場を「振り返りと学び合いの機会として活用してほしい」と呼びかけました。
その上で渡辺は、官邸主導で示された「日本成長戦略会議」の重点17分野に触れ、「AIと半導体」を重要な投資対象として捉えているのではないかという見立てを示します。
「AIと半導体の分野は政府の成長戦略の一丁目一番地だと、私は思っています。GENIACのプログラムも3期目に入りましたが、今後も頑張って支援し続けていきます」（渡辺）
また、GENIACの継続に向けて取り組みを進めていく考えを改めて述べた上で、採択事業者に対して「それに応える成果」への期待を語りました。

続いて、中間報告会の会場を提供したDatadog Japan 合同会社の角田高彬氏より、同社が開発・運用・セキュリティの分断を解消し、システムの信頼性を高めることをミッションに創業されたことの紹介がありました。AIへの取り組みとして、独自の時系列予測モデル「Toto」のほか、提供中の機能として運用監視支援の作業をAIで“コード化”していくこと（AIOps）と、運用しているAIシステムそのものを監視・可視化し、品質や安全性も含めて管理していくこと（AIObs）を説明。

中間報告会

今回の中間報告会は、計24社からの報告がありました。報告は6グループに分かれ、各社の発表後にグループディスカッションが行われました。

［グループA］

株式会社ABEJA
株式会社野村総合研究所
楽天グループ株式会社

［グループB］

株式会社AIdeaLab
Infinimind株式会社
Turing株式会社

［グループC］

株式会社Kotoba Technologies Japan
Nishika株式会社
NABLAS株式会社
AI inside 株式会社
カラクリ株式会社

［グループD］

Degas株式会社
株式会社リコー
ストックマーク株式会社
Sansan株式会社

［グループE］

ONESTRUCTION株式会社
Zen Intelligence株式会社
株式会社NexaScience
Airion株式会社
株式会社Preferred Networks

［グループF］

Direava株式会社
株式会社プレシジョン
アリヴェクシス株式会社
SyntheticGestalt株式会社

グループA発表とディスカッション

グループAでは、株式会社ABEJA、株式会社野村総合研究所、楽天グループ株式会社がそれぞれ開発の進捗状況や今後の目標、他の採択事業者と議論したいポイントを述べ、発表後にグループディスカッションを行いました。

株式会社ABEJA

株式会社ABEJAは、「ゆたかな世界を、実装する」を経営理念に掲げ、ミッションクリティカル業務へのAI導入支援のため、基盤システムとなるABEJA Platformの開発・導入・運用を行う「デジタルプラットフォーム事業」を展開しています。
GENIAC第3期では、ローカル環境で動作可能なモデルサイズかつ複雑な業務に対応できる汎用的なAIエージェントモデルの開発を目標に、ロングコンテキスト性能やプランニング・ToolUse能力などのエージェント性能の高い基盤モデルの研究開発を進めており、外部企業との実証実験も予定しております。
学習フレームワークには NeMo 2.0 および NeMo RL を採用し、Qwen3 や gpt-oss に対して継続事前学習と事後学習を行っています。11月までは主に継続事前学習に取り組んでおり、12月以降は事後学習および外部企業との実証実験を実施予定です。
Qwen3 の継続事前学習では、学習時のハイパーパラメータおよび使用するデータセットについて比較実験を行い、11月時点で本番の継続事前学習を開始しました。 gpt-oss については学習が失敗する複数の要因を解消してきていますが、11月時点では本番学習前の検証を続けています。
上記の実験結果や問題・対策に加えて、強化学習における報酬ハックや急激な報酬の低下などの問題・対策などの開発知見を得ており、GENIACコミュニティの Slack チャンネル等で共有しています。

株式会社野村総合研究所

株式会社野村総合研究所（NRI）は、コンサルティングとシステム開発を通じて金融を含む産業の課題解決を支援しています。GENIAC第3期では、Qwen3-14BやGemma 3 27B、gpt-oss-20bなど中規模（10B〜40B）のオープンLLMを土台に、金融（証券・保険）向けの業界・タスク特化型LLMを構築中です。現時点で、複数のベースモデルを選定し、ドメイン／品質フィルタで日本語金融混合コーパスと金融ドメイン指示データセットを整備しました。Qwen3-14Bの継続事前学習では、ベースモデルから約10%の性能向上を確認し、指示チューニングはChat Vectorの適用で約4.8%改善、マルチターン対話は同等以上の能力を達成しています。今後は実証先ユースケースで合成教師データ生成とファインチューニングを行い、文書校正や営業会話のコンプライアンスチェックへの適用、AIエージェントとして業務プロセスへの組み込みを目指します。リーズニングに適した実務タスクの見極めや、エージェント向けモデルのカスタマイズ手法、汎用商用モデルと比べた自社モデルの活用のメリットを他事業者と議論したいと考えています。

楽天グループ株式会社

楽天グループ株式会社は、EC・トラベル・Fintechなど“楽天エコシステム”を基盤に、AIで顧客体験と業務効率を高める企業です。GENIAC第3期では、長期記憶（Factorization Memory）と対話型学習を融合し、ロングコンテキストを効率的に扱う生成AI基盤モデルを研究開発しています。現在、日本語1,250億トークン規模の事前学習により約700Bパラメータの日本語特化モデルを構築し、Attentionの一部をLinear Attentionへ置き換えるアーキテクチャ変更を推進しています。変更後のロスに回復傾向を確認し、中間成果としては長文領域で50％以上の推論コストを削減する見込みで、当該モデルの公開も計画しています。今後はロングコンテキストを128Kから2M長へ段階的に対応し、カスタマーサポートやパーソナライズ提案で社内実証を進めます。また、インハウスと外部LLMの使い分けや評価方法、プライバシーとパーソナライズの最適解について他事業者と議論を深めたいと考えています。

グループAのディスカッション

司会進行の下、グループAの3事業者はまず「なぜ14Bなのか」「なぜQwenなのか」といったモデル選定の理由を共有し、性能と計算コストのバランスを踏まえたベースライン評価の考え方を確認しました。続いて、リーズニングを“数学の強さ”ではなく業務タスクにどう効かせるかを議論し、検索・情報整理の深掘り、コンプライアンスチェックの厳密化、社内議事録を読み込ませた意思決定支援などの活用像が挙がりました。また、分散学習基盤や独自モデルと汎用モデルのハイブリッド運用、社内展開と社会実装のバランスを今後の論点として共有しました。

グループB発表とディスカッション

グループBでは、株式会社AIdeaLab、Infinimind株式会社、Turing株式会社がそれぞれ開発の進捗状況や今後の目標、他の採択事業者と議論したいポイントを述べ、発表後にグループディスカッションを行いました。

株式会社AIdeaLab

株式会社AIdeaLabは、拡散トランスフォーマーをベースに、「時空間MoE」を用いた低コスト動画生成モデルと、動画生成プラットフォームを開発しています。2025年11月時点では、Wan 1.3Bを素材別にファインチューニングし、5種のエキスパートをアップサイクリングして、総パラメータ約10Bの小規模MoEを完成しました。一方で、動きの滑らかさは改善したものの、激しい動きや細部の一貫性には課題が残っています。並行して、プラットフォームで約1カ月のベータテストを実施し、1,200人超／7,500回超の生成を記録しました。また、推論時間は最適化により約2時間から約3分へ大幅に短縮しています。今後は、広告向けショートアニメや自動中割り（フレーム補完）など用途別の要求を見極めつつ、アニメ制作現場との連携を進め、北米展開も視野に入れます。他事業者とは、大規模MoEの分散学習やVRAM制約の突破、Sora 2などと比較可能な満足度評価指標の設計について議論したいです。

Infinimind株式会社

Infinimind株式会社は、数時間〜数日に及ぶ長尺映像を理解できる大規模映像基盤モデル「DeepFrame LVM（7B〜30B）」を開発しています。2025年11月時点で6カ月計画の約60％を完了し、データ整備はほぼ完了、モデル学習は約30％で、残りを独自のNARUベンチマーク構築と性能強化に充てています。NeMo Curatorを拡張した9モダリティ統合パイプラインで約12TBを処理し、250万超のクリップを生成しました。重い映像データの処理と品質管理は、多段階フィルタリングなどで対応しています。Vision/Audio Encoder＋Fusion＋LLMのプロトタイプまで到達し、東京大学と共同で日本語の物語・文化理解を測るNARU（2026年1月末完成予定）を整備中です。評価はLVBenchでSOTA比＋5％、処理コストは既存API比1/10を目標にしています。今後は日本語文化特化モデルへ移行し、メディア領域での実証からセキュリティやリテール領域へ展開を進め、2月中旬のマイルストーン達成を目指します。他事業者とは、IPフリーの長尺日本語動画の確保と権利整理、評価指標の共通化を議論し、日本の映像AIの底上げにつなげたいです。

Turing株式会社

Turing株式会社は、生成AIで完全自動運転を実現するため、車載で動くフィジカル基盤モデル（VLA：Vision-Language-Action）の開発に取り組んでいます。2025年11月時点では、交通環境特化の画像圧縮トークナイザで一般画像のrFID 1.0以下を達成し、走行データでも初期学習を完了しました。GENIAC 2期で公開した「STRIDE-QA」を拡張し、自車行動・運転意図まで含むv2データセットを整備しながら、VLMをアクションヘッド付きで学習する「DriveHeron」を検証中です。実装はTransformers互換へ刷新して行数を98.7％削減し、学習時間も20.5時間から13時間へ短縮しました。お台場エリア（車線長70.1km）のシナリオで、信号遵守や追従などを定量評価する枠組みも整備しています。今後は蒸留・量子化などで車載システムの1Hz以上動作を目指し、NAVSIM v2でスコア50以上を狙いつつ、自動運転システムとの結合と2026年のクローズド実証へつなげます。エッジ推論の高速化や分散学習の効率化、評価指標の整合について議論したいと考えています。

グループBのディスカッション

まずInfinimindが、長尺動画学習で用いる動画プラットフォームやテレビ放送等のデータについて、機械学習向けに整備したデータパートナーと契約し、必要分を導入していると説明。時空間処理では、Turingが自動運転で数秒程度の時系列は扱う一方、長期記憶は今後の課題だと述べました。Infinimindは「意味のまとまり」で動画を分割し、階層化メモリやデータベースなどモデル外も含む仕組みで長尺性に対応する方針を示しました。データ収集では、AIdeaLabがCCライセンスなどの素材や権利処理の難しさ、法制度（著作権法30条の4）も踏まえた現実解を提示しました。推論高速化では量子化・蒸留・ステップ削減が論点となり、Infinimindは低コスト運用を優先し、クラウド前提で進める姿勢を示しました。

—

グループC発表とディスカッション

グループCでは株式会社Kotoba Technologies Japan、Nishika株式会社、NABLAS株式会社、AI inside 株式会社、カラクリ株式会社がそれぞれ開発の進捗状況や今後の目標、他の採択事業者と議論したいポイントを述べ、発表後にグループディスカッションを行いました。

株式会社Kotoba Technologies Japan

株式会社Kotoba Technologies Japanは、同時通訳・音声書き起こし・音声生成などのリアルタイム音声AIを提供するスタートアップです。GENIAC第3期では、音声とテキストを単一モデルで扱うエンドツーエンドの音声基盤モデルを開発し、データセンターだけでなく端末側で動く“超低遅延”を狙っています。2025年11月時点で、合成音声も活用した多言語音声データの大規模化は前倒しでほぼ完了し、同時音声通訳／リアルタイムASR／TTSの各タスクに向けた学習と最適化を進めています。中間成果として、日英同時通訳は精度と遅延の両面で人手通訳に迫る水準に到達し、同時通訳アプリ「DOTSU」は累計約15万DLを達成、App Storeの上位にも入りました。今後はDOTSUへの統合提供を通じて実ユーザーで検証を回しつつ、エッジ展開の最適化や評価設計を他事業者と議論したい考えです。特に、合成音声を混ぜたスケーリングで生じる品質管理、翻訳品質と遅延のトレードオフに関する評価指標、端末実装時の計算資源・省電力のチューニング、社会実装での障害対応に関する知見共有を深めたいと思っています。

Nishika株式会社

Nishika株式会社は、AI議事録ソフト「SecureMemo」シリーズを展開し、オフライン／オンプレミス環境でも使える業務向け要約技術を強みにしています。GENIAC第3期では、専用GPUのない環境でも動く「要約タスク特化型小規模言語モデル（SLM）」を開発し、議事録で頻出する指示への追従性を高めることを狙います。2025年11月時点で、実会議データを基にした合成データ基盤を整備し、文字起こし＋指示文＋要約の学習データ約10万件、ベンチマーク約1,000件を構築中です。中間成果として、IFEvalを会議要約向けに改変した「J-MeetEval」を策定し、文体統一（です・ます／である）など日本語特有の評価も含む約20項目に整理しました。今後はSecureMemoに従来のSLMとGENIACで開発したSLMを載せ替え、国立大学法人と民間企業で作業時間の短縮効果を検証します。他事業者とは、合成データと実データの乖離の影響、既存ベンチマークとの相関、LLM as a Judgeの公平性・安定化といった評価設計を重点的に議論したいです。

NABLAS株式会社

NABLAS株式会社は、ディープフェイクやフェイクニュース対策の検知技術を開発し、官公庁や報道機関向けにもサービス提供しています。GENIAC第3期では、ファクトチェックに特化した報酬モデル（FRM）と、複数回のWeb検索と推論で主張の真偽を判定しレポート化する「ファクトチェックエージェント」の開発に取り組んでいます。2025年11月時点では、既存LLMをベースに教師ありファインチューニングを進め、疑わしい主張の抽出・分解精度が向上しました。32B級モデルでも大規模モデルに劣らない手応えがあり、見逃しが少ない点が成果です。一方で、特定の主張に誤判定が続くケースや出力の不安定さが課題で、改善サイクルを回す仕組みづくりが必要だとしています。今後は強化学習を加え、報道機関との実証で速報・SNS検証業務への適用を検討します。他事業者とは、日本語・日本文化に根ざした評価データ／ベンチマーク整備や、安定性向上の設計について議論を深めたいと考えています。

AI inside 株式会社

AI inside株式会社は、AI-OCR「DX Suite」やAIエージェント構築基盤「Leapnet」などを展開するAI企業です。GENIAC第3期では、これまで培ったSLM＋LoRAの知見を基に、日本語特化のマルチモーダル生成AIモデルを研究開発しています。2025年11月時点で、H200×12ノードの分散学習環境を整備し、DX Suite 由来のデータを含むTB級データを用いた継続事前学習の第1段階を完了しました。中間成果として、音声モーダルを「Audio as LoRA」で拡張できる手応えを得ており、80msステップで応答する全二重の音声対話を見据え、入力特徴量の圧縮など低遅延化の設計も進めています。加えて、心理カウンセラーによる200時間の1on1音声対話データを収録し、会話イベントを7種に整理してアノテーションを進行中です。今後はInstruction Fine-Tuningに加えて音声・画像の学習（Vision as LoRA）を本格化し、表情読み取りなど追加モーダルも検討します。他事業者とは、情報正確性だけでなく、共感・協働を軸にした「BuddyEval」のような品質指標づくりや、学習環境の差分を踏まえた運用知見について議論したいと思っています。

カラクリ株式会社

カラクリ株式会社は、カスタマーサポート領域で、画面操作まで担う「Computer Using Agent（CUA）」を中核にしたオムニモーダルエージェントの開発に取り組んでいます。GENIAC第3期では、第2期で課題となった「テキスト指示が現場で直感的に使いづらい」「電話サポート中心の運用に乗せにくい」点を踏まえ、音声入力に対応した高精度CUAモデルの構築を進めています。2025年11月時点では、AWS Trainium 2への移行を進めつつ、Qwen3-VL-235B-A22B-Thinkingのtrn2対応を実施中です。また、CUAデータ収集用デスクトップアプリを構築し、操作ログに加えて音声データの収集も開始しました。中間段階の成果として、Trainiumへのモデル移植手順を学習教材として体系化し、開発コミュニティへ共有しています。今後は、ヘルスケア企業のCS業務を実証先に、APIのない複数ツールの横断手続きをCUAで自動化できるか、現場担当者が自ら指示して運用を回せるかを検証します。他事業者とは、音声×画面操作の評価設計や、非API環境での実装・運用ノウハウ、Trainium活用の勘所を議論したいです。

グループCのディスカッション

グループディスカッションでは、音声AIの学習で鍵になる「高品質な合成音声データ」をどうつくるかが焦点となりました。自社の音声合成モデルで品質を担保し、性能が臨界点を超えると合成データの効果が一気に見え始めるというKotoba Technologiesの知見が共有されました。学習手順としては、まず大量のテキストでLLMとしての基礎能力を高めた上で音声へ拡張するのが有効で、AI insideの例としてLoRAで音声を載せ、モーダル別エンコーダーを用いない設計も紹介されました。リアルタイム性についてはフルデュプレックス（双方向通信）の価値と、遅延の主因がターン切替判定（VAD）にある点が議論されました。ファクトチェックでは、検索ソースの信頼性を拡散経路やボット関与など多面的に見て人手も併用する考え方が示され、日本語の検索付きデータ不足にはWikipediaの活用や知識グラフで難易度を制御する案も挙がりました。CS領域では評価データセットでPDCAを回しつつ、最終的には顧客環境での検証が不可欠であること、GPUを遊ばせない運用にも話が及びました。

—

グループD発表とディスカッション

グループDではDegas株式会社、株式会社リコー、ストックマーク株式会社、Sansan株式会社がそれぞれ開発の進捗状況や今後の目標、他の採択事業者と議論したいポイントを述べ、発表後にグループディスカッションを行いました。

Degas株式会社

Degas株式会社は、衛星画像などのリモートセンシングデータを対象に、画像の質問応答（VQA）や領域指定（Visual Grounding）、キャプション生成を行える「衛星画像対応VLM」の研究開発を進めています。GENIAC第3期では、RGBに加えて近赤外（NIR）などマルチスペクトルに対応し、農業・森林・防災分野の解析を自動化・高速化することが狙いです。2025年11月時点で、EC2によるマルチGPU分散学習環境を確立し、「EarthDial」をベースに自社開発の4chビジョンエンコーダを組み込んだモデルを構築しました。中間成果として、Stage1用の4chデータ整備（約100万件のQA対応付け）を完了し、4ch対応モデルでStage1／Stage2の学習を終え、下流タスクの専門評価とベンチマーク取得を進めています。今後はEarthDialの学習フローを踏襲しつつ、Stage3でSAR＋光学データの融合学習も見据え、国際機関・政府・保険業界での災害レポート作成支援やモニタリング実証、商社とのアセット監視など社会実装を検討します。他事業者とは、想定以上に時間を要したデータ収集・統合プロセスの工夫や、VLMの技術更新が速い中で「技術選定を見直すタイミング」をどう設計するかを議論したいです。

株式会社リコー

株式会社リコーは、企業が保有する図表を含む社内文書を高度に解析し、「知の活用」を支援するプライベート環境向けのマルチモーダルLLMの開発を進めています。GENIAC第3期では、図表がより複雑になっても精度を維持できるリーズニング性能の向上に加え、開発コストとオンプレミス運用時の顧客コストの双方を下げることを目標に掲げました。2025年11月時点で、ベースモデルにQwen3-VL-32Bを採用し、学習データ生成と学習手法（SFT／強化学習）の工夫を並行して進めています。報酬計算の並列化（非同期処理）により評価の生産コストを半分以下に抑えるなど、開発サイクルの高速化も進めています。中間成果として、公開可能な画像を用いた独自ベンチマーク（約1,000問想定）の改良、タスクベクトルのマージによる汎化性能の向上、画像トークン圧縮とvLLM連携の検討が挙げられます。今後はオンプレミス向けモデルとしてのリリースや共創先とのPoCの具体化を進めつつ、VE（Vision側）の工夫の要否、Tool Callingの設計、推論高速化（トークン圧縮の費用対効果を含む）について他事業者の知見を得たいと思っています。

ストックマーク株式会社

ストックマーク株式会社は、製造業の「暗黙知」継承を支える業界特化のマルチモーダル文書読解モデルを開発しています。GENIAC第3期では、導入ハードルを下げるため従来の100B級から30B規模へ小型化し、設計図・仕様書・QCレポートなど、高情報密度で多様なフォーマットを扱える基盤モデルを目指します。2025年11月時点で、化学系／機械系を中心にデータ収集とアノテーションを進め、メタデータからDocument／Chart／Tableを合成する手法で学習データを拡充しています。カリキュラム学習により基礎知識の獲得も順調で、分子構造理解などの例で手応えを得ています。運用面では、AWSのEC2環境で発生するノード異常を監視し、再作成まで自動化することで安定稼働を実現しました。今後は12月以降の外部提供実証を具体化していきます。また、専門家不在でもドメイン固有知識の妥当性を評価する方法の設計や、LLM／VLM as a Judgeのバイアスと適用範囲について議論を深めたいと考えています。

Sansan株式会社

Sansan株式会社は、名刺管理や契約書・請求書管理などの「働き方を変えるAX（AIトランスフォーメーション）サービス」を展開し、正確なビジネスデータを基に価値を提供する企業です。GENIAC第3期では、社内で稼働実績のある文書特化VLM「Viola」を、文書内の位置情報も扱えるVisual Groundingモデル「Cello」へ拡張する開発を進めています。2025年11月時点で、ファインチューニング用データセットの構築を完了し、ベースラインモデルは名刺ドメインで目標を達成しました。一方で、請求書・契約書では位置の特定が難しく、追加の事前学習が必要であることが明らかになりました。中間成果としては、位置トークンの初期化を工夫することで学習サイクルを約半分に短縮し、マルチクラウド運用で課題となっていたデータ転送コストもキャッシュ機構によって抑制しました。今後は事前学習と最適化を並行して進め、2025年12月から社内で導入に向けた検証を開始する予定です。また、他事業者との間では、マルチクラウド環境でのデータ転送コストを抑える工夫や運用知見について議論したいとしています。

グループDのディスカッション

ディスカッションでは、まずドメイン特化・ドキュメント系の画像データセット収集の難しさが共有されました。ストックマークは、公開データだけでは不足するため現場と交渉して設計図などを収集し、専門家によるアノテーションとメタデータ付与を前提に合成データをつくる事例を説明。モデル設計については、「データ量に合わせてサイズを決める」のではなく、先に30B未満のようにサイズを固定してからデータを集める判断も紹介されました。Sansanは、社内リソースの調整とアノテーションツールの活用で作業サイクルを回し、人手で機械的にできる部分を増やして巻き返す方針を示しました。VLMのグラウンディングは物体検出と比べて一長一短があり、未知物体や複雑ルールはテキストモデルの強みと組み合わせる方向性も示されました。評価面ではリコーが、図面は社内専門家の協力が不可欠であり、LLM as a Judgeの誤りはプロンプト改善や設問設計の変更で方向性を出すと述べました。推論高速化では、vLLMやNVIDIAの仕組みの活用が論点となりました。

グループE発表とディスカッション

グループEでは、ONESTRUCTION株式会社、Zen Intelligence株式会社、株式会社NexaScience、Airion株式会社、株式会社Preferred Networksがそれぞれ開発の進捗状況や今後の目標、他の採択事業者と議論したいポイントを述べ、発表後にグループディスカッションを行いました。

ONESTRUCTION株式会社

ONESTRUCTION株式会社は、建設データ×AIによるグローバルにおける業界変革を目指すスタートアップです。GENIACでは、新しい3D設計手法であるBIMのさらなる発展の一貫としてBIMの属性情報要件（IDS: Information Delivery Specification）を自然言語から生成する基盤モデル「Ishigaki-IDS」を開発しています。
2025年11月時点では、標準化団体が公開している評価ツールを発展させ、生成品質を測る独自ベンチマーク「IDS-Bench」を構築し、学習サイクルの中に組み込みました。独自に構築した約1.2億トークンのIDS特化データ、標準規格に関するコーパスを学習させて、標準フォーマットへの準拠率を大幅に改善しています。
すでに自社Webツール「OpenAEC」上で「Ishigaki-IDS」を統合し、手元のBIMモデルを見ながらAIと対話して不足属性の照査ができる状態です。今後は2026年1月からbuildingSMART Japanとの実証を本格化し、専門家・非専門家の「作業効率改善」と「標準規格の民主化」の度合いを2軸で検証します。成果はベンチマークやモデルの一部公開を通じて普及を狙います。
他開発事業者とは、機密データ前提の学習設計、実務ベンチマークをKPIに据えた改善サイクルの回し方、RLHF／RLVRなどの強化学習で少量データから性能を伸ばす方法を議論したいと考えています。

Zen Intelligence株式会社

Zen Intelligence株式会社は、住宅施工会社向けの遠隔施工管理SaaS「zenshot」を展開し、360度現場動画から工程進捗や品質・安全上の指摘を生成する特化型VLM基盤モデルを開発しています。2025年11月時点では、協力いただいた工務店がzenshotに登録した動画へ現場監督の知見と部材情報を付与したマルチモーダルデータセットを構築中です。基準のばらつきや物件差によりアノテーションに苦戦しましたが、ガイドライン整備と増員で改善を進めています。中間成果として、断熱材・石膏ボードなどを抽出するセグメンテーションモデルは目標性能を確認しました。一方、Qwen2.5-VLで学習するVLMは、データ不足に加えて長尺・高解像度入力の影響でハルシネーションが残ったため、動画分割やフレーム間引きで学習の安定化を図ります。今後は実証パートナー物件で出力の妥当性を検証し、2026年2月以降にzenshot上で巡回・レポート化するAIエージェントとしての実装を目指します。他事業者とは、必要データ量の見積もり、専門的アノテーションの効率化、日本語VLMの最適構成、指摘箇所のタイムスタンプ推定などについて意見を交わしたいと考えています。

株式会社NexaScience

株式会社NexaScienceは「すべてのAIを使いこなすAI」を掲げ、複数のAIエージェントを目的に応じて組み合わせ、業務フローを自律的に遂行させるオーケストレーションAIの開発に取り組んでいます。2025年11月時点では、エージェント間に小規模モデルを挟み、入出力とトークン量を最適化する「AIエージェントアダプター」の開発に注力しています。中間成果として、評価の土台となる基礎ベンチマーク（ML-Bench、RAGAS、要約）の選定を完了し、自社開発の自動研究支援OSS「AIRAS」との接続準備も進めました。今後はベースライン実装を加速し、アダプターが通信コスト削減と精度向上を同時に実現できるかを実証します。社会実装はNexaPapers／NexaPatents／NexaCollabなどのSaaS提供を見据え、他事業者とは、社会実証の組み立て方（連携の立ち上げ、役割分担、評価項目の設計）や、GPU基盤運用・API利用上の制約下で学習と評価を回す方法を議論したいです。

Airion株式会社

Airion株式会社は製造業DXを支援する東大発ベンチャーで、PLC制御に用いられる「ラダープログラム」を自然言語仕様から生成する特化型LLMを開発しています。2025年11月時点では、実証先データの前処理を終え、指示チューニング用のラベリングを約1,000件まで完了しました。12月までに3,000件の完了を目標にしています。また、IEC 61131-3準拠の合成ラダープログラムも整備し、約10,000件規模のデータセット作成を進めています。中間成果として、PLCソフトと連携した評価で「コンパイル通過率」と「LLM as a Judge」の2軸を用い、学習前は27.4%だった通過率を98.8%まで改善しました。テストでも84%の通過を達成しています。今後はモデル単体に加え、既存エディタで読み込み・修正できるUIを備えたWebアプリを2026年1月上旬に実証導入し、初期ラダー作成工数を3分の1以上削減することを検証します。他事業者とは、実機やテストケースが用意しにくい領域で生成コードの正しさをどう担保するか、LLM as a Judgeの有効な運用知見などを共有したいです。

株式会社Preferred Networks

株式会社Preferred Networks（PFN）は、AI半導体から計算基盤、基盤モデル、ソリューションまでを垂直統合して産業応用を進める企業です。GENIAC第3期では、監視カメラ、ロボット、ドローンなどの自律稼働デバイス上で高精度に動く軽量VLMの開発に取り組んでいます。2025年11月時点では、既存VLMによるデータ合成とPLaMo翻訳を用いた日英データ整備を進め、 PLaMo 2.1-8Bを基にした「PLaMo 2.1-8B-VL」を開発しました。日本語VQAおよびVisual Groundingで、同規模の既存オープンモデル（Qwen系など）を上回る性能を確認しています。中間段階では、工場内の作業タスク分析と、ドローン映像によるインフラ異常検出の実証を開始し、実データでの優位性検証と課題抽出を進めています。今後は実証データを拡充し、ライセンス／ソリューションによるモデル提供や海外展開も視野に、データ不足領域での合成・評価設計、実タスクに即した指標づくり（LLM／VLM as a Judgeの活用）を他事業者と議論したいです。

グループEのディスカッション

グループEのディスカッションでは、まずQwen-VLのGPU効率が低い理由として「画像エンコーダとLLMで計算特性が異なり、全体最適化が難しい」点が共有されました。続いてトークナイザーについては、無理に改変せず前処理で吸収する判断が多いこと、LLM as a Judgeはドメイン依存で誤判定も起こり得るため、構造評価など複数軸での採点設計が有効だという見解も示されました。さらに、データ取得が難しい領域では、協力会社によるアノテーションや合成データの活用、実世界での異常データ生成といった取り組みが紹介され、実タスクに沿う指標づくりや実証先の決め方、役割分担などが論点となりました。

グループF発表とディスカッション

グループFでは、Direava株式会社、株式会社プレシジョン、アリヴェクシス株式会社、SyntheticGestalt株式会社がそれぞれ開発の進捗状況や今後の目標、他の採択事業者と議論したいポイントを述べ、発表後にグループディスカッションを行いました。

Direava株式会社

Direava株式会社は、AIで外科手術の安全性を高め、合併症の低減を支援するソフトウェアを開発する医療機器スタートアップです。GENIACでは、術中画像と言語情報を統合し、術式・解剖・術者行動に関する知識を学習した、日本語の外科手術に特化した視覚・言語統合基盤モデル（8B級）を開発しています。2025年11月時点で、外科医の協力の下、専門コーパスとVQAデータセットの構築を完了し、Qwen3-VL-8Bをベースに学習・評価・改善を進めています。公開ベンチマークがないことから、VQAによる客観評価に加え、解剖学的正確性、文章の流暢性、臨床的有用性を外科医が採点する主観評価、独自指標「Surg-VLM Bench」の整備も行いました。今後は、若手外科医や医学生の教育支援を入口に、提案や確認を行う術中支援へ段階的に拡張し、記録・研究、将来的な自動化も視野に入れます。外部医療機関の手術室で現場評価を実施し、自社の手術ナビゲーション製品への組み込みと、医療AI規制に即した安全性・信頼性評価を進めながら、海外展開も検討します。他事業者とは、既知臓器の検出における従来の物体検出とVLMの役割分担、統合設計、精度向上の工夫について議論したいと考えています。

株式会社プレシジョン

株式会社プレシジョンは、医師兼AI研究者が主導し、医療用SIP-jmed-LLMを基盤に、医療現場向けの用途特化型LLMを開発するスタートアップです。GENIACでは、人手依存で負荷が高い医療業務を「記録する・調べる・整理する・経営する」の4領域から見直し、複数の小型モデルを段階的に構築しています。2025年11月時点で計画は概ね想定どおりに進捗しており、記録の領域では12月分までのデータ整備を進め、診療会話からカルテを半自動生成するモデルで、医師のフィードバックを取り入れた評価を通じて高い精度を確認しました。がん領域では、臨床課題ごとに文献DBへ問い合わせて統合回答するAgentic RAGの知識基盤を整備し、併用注意など重要情報を含む回答生成を実証しています。胸部X線では、東大病院の20,000症例に対するラベル付与を完了し、所見の構造化で正答率89％を達成しました。今後はDPCコード／レセプトの自動集計支援など経営領域にも広げ、医師の燃え尽き抑制などにつなげます。現場導入を見据えた安全性評価と継続的な改善を進めるとともに、希少な正解データを補う合成データ学習、強化学習、蒸留の効率的な方法について、他事業者の知見を伺いたいです。

アリヴェクシス株式会社

アリヴェクシス株式会社は、低分子化合物の生物活性（タンパク質への結合の強さ）を高精度に予測する「創薬生成AI基盤モデル」を研究開発するスタートアップです。GENIAC第3期では、独自の分子動力学シミュレーションエンジン「ModBind」を“正解を返すオラクル”として活用し、生成AIを能動学習（Active Learning）で追加学習させることで、未知の化合物領域でも予測精度を高める枠組みの確立を目指しています。2025年11月時点では、標的選定に用いるデータ品質の想定外の課題により初期工程で遅延が生じた一方、化合物生成、多様性フィルター、結合予測、活性予測など各コンポーネントの動作検証を終え、ModBindを含む全要素の統合と自動化を完了しました。最初の標的では小規模なテストランとして、予定10サイクルのうち5サイクルまで実行し、実験値と予測値の誤差が段階的に改善する傾向を確認しています。今後は本番環境での大規模実施を進め、第2・第3標的のモデル構築へ展開します。製薬・農薬分野での共同研究やモデル／データ提供、海外展開も視野に入れ、他事業者には「ワンタイムアクセス＋成功報酬」のような成果連動型の収益モデルが、医薬以外で成立した事例についてお聞きしたいです。

SyntheticGestalt株式会社

SyntheticGestalt株式会社は、タンパク質と低分子の分子間相互作用を学習し、標的タンパク質のポケット周辺の情報を条件として、最適な化合物を生成するモデルを開発しています。GENIAC第3期では、結合親和性に関するスコアの改善に加え、多様性と新規性を重視した定量目標を設定し、2025年11月時点で内部指標の一部を達成、生成品質の改善を確認しました。一方で、低品質データを学習してしまう課題が顕在化しており、高品質データ合成に向けた計算資源の拡充が急務となっています。今後は、複合体に加えて低分子単体の大規模事前学習を含むマルチステージ学習を軸に開発を進めていきます。クラウド連携によるサブスクリプション提供と共同研究を組み合わせ、、医薬・農薬・化粧品・新素材など幅広い応用へ展開します。他事業者とは、データ品質を担保した大規模合成の進め方、Sheaf NN や Flow Matching を含む学習設計や評価指標のつくり方について議論したいです。

グループFのディスカッション

ディスカッションでは、医療・創薬領域の基盤モデル開発において、ドメイン知識を組織にどう浸透させるかが出発点となりました。各社は、専門人材の配置や外科医との密な対話、手術室での観察など、現場理解を前提に開発を進めている点を共有しました。グローバル戦略については、日本の外科技術を世界に広める狙い、物理・化学という共通言語を武器に当初から海外を見据える姿勢、日本語での細かな意思疎通が国内顧客に評価される現実など、企業ごとの考え方の違いが語られました。ビジネス面では、成果報酬型モデルの難しさや、医療機器規制によるクラウド制約を踏まえ、病院ごとの導入形態を検討する必要性が議論されました。技術面では、臓器検出における従来の物体検出とVLMの使い分け、マルチタスク学習や条件付けによる精度向上の可能性、合成データ／シミュレーションなどを活用した学習の効率化が重要な論点として確認されました。

デジタル庁が推進する「Gennai」

開発事業者による中間報告の後、デジタル庁の山口真吾氏が登壇し、職員ポータル上で生成AIを安全に使える基盤「Gennai（ゲンナイ）」の取り組みを紹介。基盤モデルに約30のアプリを重ね、汎用のチャット／翻訳／校正に加えて、国会答弁作成支援や各種審査の効率化など、行政特化型アプリの拡充を計画していると説明しました。
市販ツールの単発導入では「1日数分」程度しか縮まらないため、公務員が数時間“どっぷり”使える質の高いAIを目指すと言います。2025年11月時点で、延べ利用は12万回を突破。省庁別の利用状況を可視化するダッシュボードで、他省庁との比較も促し、全公務員30万人への展開を見据えます。
また、基盤は特定ベンダーに縛られず、問題が起きれば迅速に乗り換えられる設計です。まず、78年分の官報など政府共通データの整備・配布も進め、12月に試験導入の公募、2026年春に連携モデルなどを選定し、5〜6月頃から大規模展開へと進める計画です。また、高度なアプリ開発で、省庁に残る紙業務の改革にも踏み込みます。効果測定として利用ログやアンケートを取り、参加企業にも示唆を還元。令和9年度以降の本格利用・有償契約も視野に、国産・外資を問わず「良いものを安く安全に」採り入れる方針です。

続けて、NEDO（国立研究開発法人新エネルギー・産業技術総合開発機構）AI・ロボット部生成AIチームチーム長遠藤勇徳より締めの挨拶があり、国の仕事を加速させるAIの進化に、開発事業者の成果が加わることへの期待を述べて中間報告会を締めくくりました。

また、報告会のあとには、事業者同士が報告やディスカッションだけでは伝えきれなかった知見を共有しあい、今後の開発に生かせる学びを深める機会となりました。GENIACでは引き続き事業者間の連携を強化し、開発の支援を促進してまいります。各事業者が創意工夫を凝らした、さらなるイノベーションにご期待ください。

GENIACトップへ

最終更新日：2026年4月16日

生成AI基盤モデル開発 第3期採択事業者 中間報告会を開催しました！