- ホーム
- 政策について
- 政策一覧
- ものづくり/情報/流通・サービス
- 採択事業者のご紹介
採択事業者のご紹介
性能評価結果
株式会社ELYZAは、2019年から大規模言語モデル(LLM)の研究開発と社会実装に取り組んできました。Metaなどが提供するオープンモデルをベースに、日本語に特化した継続事前学習や指示学習を行い、グローバルプレイヤーの商用モデル(GPT-4・Gemini 1.0 proなど)と遜色ない精度を達成。企業向けには、LLMをベースとしたプロダクト・ソリューションを提供しています。
同社では「社会実装」にこだわり、基盤モデルを活用して業務を30〜50%効率化した事例を多く生み出しています。2022年1月からは、データ作成を行う部署を立ち上げ、AI開発と距離が近い状態で同社独自のデータ作成をできる体制を整えていました。
インフラとして生成A Iが活用されるためには、さらになる高性能化と日本の知識や表現に適用させることが不可欠です。同社では、インターネットやスマートフォンと同様に、日本で「あたりまえ」のインフラとして利用されるような基盤モデルの構築を目指します。
本採択を受け、日本語処理能力の高いモデル構築に取り組む予定です。本プロジェクトで作成したモデルを提供することで生産性の向上に加え、これらのノウハウをもとに領域特化のモデルを作成することで、特定の産業における発展や課題解決にも繋げます。
成果報告会 自社開発モデルプレゼンテーション
Depth up-Scalingという既存モデルのサイズを拡張する手法を用い、1,200億パラメータ級のモデルを開発
- 会社名
- 株式会社Kotoba Technologies Japan
- 所在地
- 東京都千代田区大手町1-6-1 大手町ビルヂング6階
世界に先行し、音声における基盤モデル技術の研究開発を行う、株式会社Kotoba Technologies Japan。同社の研究者は、米国のトップ学術機関において最先端でAIを研究し、大規模言語モデル(LLM)が大きく取り上げられる以前から、国内のスパコンを活用したLLMの開発に挑戦してきました。AIトップ会議に多数採択され、ベストペーパー賞などの実績を持つチームが一丸となり、研究開発を行っている点も同社の強みです。
テキスト分野でGPT-1からGPT-4へと大規模なスケールの革命が起きたように、音声分野においても革命的な進歩が起きること見越し、生成AIの新たな切り口「音声基盤モデル」に取り組んでいます。
音声アプリケーションに活用できる汎用的なAI基盤モデルは、世界的にみてもまだ開発の初期段階。特に日本語などの非英語圏の言語ではその傾向が顕著であることから、本採択を受け、同社は日英両言語に対応できる音声基盤モデルの大規模な開発に取り組みます。また、そこで得た知見は広く公開する予定です。
欧米で開発された技術の後追いではなく、挑戦的で独自の切り口で生成AIの技術開発を目指します。同社の音声基盤モデル開発が模範例となり、日本発信で、世界的にAI活用の裾野が広がるきっかけになるかもしれません。
成果報告会 自社開発モデルプレゼンテーション
7Bの音声基盤モデルを開発
ビジネスにおける業務効率化に貢献するAI技術の開発に取り組む、富士通株式会社。「Fugaku(富岳)-LLM」をはじめとする基盤モデルの開発、複数の生成AIモデルを組み合わせる混合技術と、安心して業務活用するためのトラスト技術の研究開発を行っています。同社が開発したAIブランド「Fujitsu Kozuchi」を通じて、ニーズに応じてカスタマイズした特化型モデルを提供している点も同社の特徴です。
生成A Iにはハルシネーションの課題があることから、これまで法律・医療分野では、本格的な活用がされてきませんでした。同社は、正確性の高い出力が求められる分野でも業務に使える生成AIを提供することを目的に、本採択を受け、ナレッジグラフの生成・推論に特化した基盤モデルの開発に取り組みます。
同社の目標は、法律・医療分野以外にも、ソフトウェア開発・マーケティングなど、様々な領域に生成AIを浸透させ、ビジネスにおける業務変革を実現すること。また、新薬開発やクリーンエネルギーのための材料開発の領域などにもAIを浸透させることで、健康長寿社会や持続可能な世界の実現に向けて貢献していきます。AIが今後、日常生活やビジネスにおいて広く浸透し、密接に協調していくことで、多くの方にとって「バディ(相棒)」として活躍する日も遠くないでしょう。
成果報告会 自社開発モデルプレゼンテーション
ナレッジグラフの技術を活用した基盤モデルを開発
「ゆたかな世界を、実装する」を経営理念として掲げる株式会社ABEJAは、「ABEJA Platform」を基盤に顧客企業の基幹業務のプロセスを変革し、ビジネスの継続的な収益成長の実現に伴走するデジタルプラットフォーム事業を展開しています。
ABEJA Platformは、人とAIが協調する「Human in the Loop」というアプローチを用いることで、データ量が少なくAIが効果的に学習できず、高い精度を発揮できない初期段階からの実運用を実現。人とAIが協調する環境を創り出すことで、失敗が許されないミッションクリティカルな領域でのサービス提供に成功しています。
今回の採択を受け、同社では大規模言語モデル(LLM)の社会実装に必要不可欠な「精度」と「計算コストパフォーマンス」の飛躍的な向上を目的に、日本語LLMと周辺技術(RAG、Agent)の研究開発を実施。RAGによる精度の向上とAgentの最適化が、計算コストパフォーマンスを向上させ、経済的合理性や適用範囲の拡張性をもたらします。生成AIを利活用する企業・組織の増加に貢献し、LLMの社会実装を強力に推進することを目指します。
また同社では、今回の研究開発で得られたLLMおよびソースコード、開発ノウハウなどを社会に広く公開提供していく予定です。それにより、LLMの利活用はもとより、社会におけるAI技術革新の大幅な加速、そして次世代の研究者や技術者の育成の一助を担います。
報告資料
- 2024/5/21: GENIAC 中間報告
- Megatron-LMとGKEで作るMixtral 8x7Bの継続事前学習(PDF/671KB)
成果報告会 自社開発モデルプレゼンテーション
RAGの高精度化を実施。MOE技術を活用して8×7Bのモデルを開発
- いち早くビジネス展開に着手、モデルもOSS化
従来とは全く異なる開発手法でAI開発に取り組んでいる、Sakana AI株式会社。小さな個々の魚が大きな群れを形成する中で、優れた行動判断を行っていくような「自然界の法則」に着想を得て、進化や集合知など、自然界の原理を応用した基盤モデルの開発を目指しています。
今回の採択を受け、エージェントタスクに対応可能な「自律型エージェントシステム(人間の指示や命令なしに自ら考え行動し、目標を達成することができるシステム)」向けの基盤モデルの開発に取り組みます。推論能力を向上させるための新たな手法や高効率な計算を行うためのアルゴリズムを検証し、大規模なLLMに匹敵する高い推論能力を持ちつつも、低コストで運用できる小型の基盤モデルの構築に挑戦中です。自律型エージェントが実現することで、マルチエージェントリサーチなどの新たな研究分野の開拓や、多様な産業用途への活用にも期待できます。
また、国内外から世界トップクラスの人材が集まる同社では、東京に世界トップクラスのAIラボをつくることを目標にしています。生成AIの分野でポテンシャルあふれる日本発のグローバルスタートアップとして、日本が誇る豊富で多様なクリエイティブ・コンテンツと、層の厚い研究開発コミュニティーとのコラボレーションを実現し、日本のAIエコシステムを深化させていくことを目指します。
成果報告会 自社開発モデルプレゼンテーション
運用コスト10倍以上の大規模モデルと同等性能の小型モデルを開発
- 蒸留・進化的モデルマージ・Meta Memoryを活用。
国立情報学研究所(以下、NII)では、大規模言語モデル(LLM)の透明性・信頼性を確保するための研究開発を行っています。2023年5月から、自然言語処理、計算機システムなどの研究者が集まる「LLM勉強会(LLM-jp)」の活動を開始し、参加者は1,000名を超えました(2024年4月現在)。この活動では、オープンかつ日本語に強いLLMの構築、原理解明に取り組んでおり、モデルなどの成果や議論の過程・失敗を含めすべて公開する予定です。2023年の秋には、勉強会の初期の成果として130億パラメータの言語モデルを公開。さらに2024年4月には、NII内に「大規模言語モデル研究開発センター」を新設しました。
今回の採択を受け、国立情報学研究所では、オープンで商用利用可能かつ日本語に強いLLMの構築に取り組みます。創発的能力の獲得が見られるレベルを超えた1,750億パラメータ規模で、理解・生成の両面で高い日本語性能を持つLLMを構築。安全性を確認した上で公開する予定です。そこに企業独自の技術開発を付加すれば、オリジナルかつ多様なサービスを提供することも可能になります。
LLMに基づいたデータ解釈と、知識の関連付けにより体系化した知識基盤を構築することで、新たな知の創造や、一つの学問分野では解決できない複合的な社会課題の解決に期待できます。
成果報告会 自社開発モデルプレゼンテーション
スクラッチで172B(国内最大級)のモデルを開発、ノウハウを最高峰の国際学会であるICMLで発表予定
国内外35,000超のビジネス情報サイトから、業務に必要な情報を推薦し、組織の情報収集課題を解決する「Aseries」を提供する、ストックマーク株式会社。ビジネス領域に精通した大規模言語モデル(LLM)を自社開発し、ビジネス情報とLLMを組み合わせることで企業の価値創出支援を行っています。
同社の強みは、これまで分析が困難だったテキストデータを、最先端の自然言語処理技術で構造化し、価値あるデータに変換できる点です。これにより、社内外に眠る膨大なビジネス情報を横断的に解析し、自社開発のLLMを活用することでハルシネーションを抑制しながら、自身の業務で知りたい情報をわかりやすく理解できるようになります。
ビジネスの現場では特に正確性が重要視されますが、現状の生成AIは「正確性が実用レベルでない」と判断されているケースも少なくありません。今回の採択を受け同社では、厳密さが要求されるビジネス用途において信頼して利用できる、ハルシネーションを大幅に抑止した基盤モデルの開発に取り組みます。
ハルシネーションを大幅に抑止することができれば、ビジネスドメインという高い言語理解力が求められる領域においても、基盤モデルが有効であるという画期的な事実の証明となります。また、基盤モデルの活用が停滞しているビジネスドメイン・産業界全般における基盤モデルの利用を、大幅に底上げすることを目指します。
報告資料
- 2024/5/21: GENIAC 中間報告
- GENIAC 中間報告(PDF/714KB)
成果報告会 自社開発モデルプレゼンテーション
スクラッチで100Bモデルを開発
- ビジネス活用に向けハルシネーション抑制に注力
完全自動運転EVの開発・製造およびそれに向けた自動運転AI開発を進めている、Turing株式会社。自動運転で重要になるマルチモーダルAIの開発、車両や車載用のエッジ半導体など、AIと連携したハードウェアを一貫して研究開発しています。同社のミッションは、「We Overtake Tesla」。2030年には完全自動運転車を量産し、完成車メーカーとなることを目指しています。
自動運転AIを人間と同じように運転させるというコンセプトのもと、「目」と「脳」を結びつける観点からマルチモーダルAIの基盤的研究を進めており、今回の採択を受け、完全自動運転に向けた運転ドメインを学習した、大規模マルチモーダル基盤モデルの開発に取り組みます。
これらが実現することで、日本語や日本文化を理解した汎用的なマルチモーダルAIが利用可能になり、様々な応用ができるようになります。将来的には、日本の道路環境を理解した自動運転の実現を目指します。完全自動運転は、地球環境に優しく、すべての人の生活を劇的に向上させるプロダクトです。この実現は文明と人類にとって大きな進歩になるでしょう。
報告資料
- 2024/5/21: GENIAC 中間報告
- HPC ToolkitによるSlurm環境構築と⽇本語LLM/VLM開発(PDF/1.96MB)
成果報告会 自社開発モデルプレゼンテーション
自動運転に活用可能な700億パラメータ級のVison & Language Modelを開発
東京大学 松尾・岩澤研究室では、「知能を創る」をビジョンに掲げ、深層学習に関する基礎研究、講義、企業との共同研究、学生起業家の育成支援などを行っています。基礎研究成果を社会に還元することにも注力しており、東京大学の学生でなくとも受講ができる無料のオンライン講義を開講。受講者数は2023年度に10,000人を超え、2023年8月に行われた全7回の「大規模言語モデル講義」には、およそ2,000名が参加しました。同月には、100億パラメータサイズの大規模言語モデル(LLM)「Weblab-10B」も公開しています。
今回の採択を受け、「大規模言語モデル講座」の修了生および一般公募によって集まった有志の開発者が参加するチームを結成。最新の研究成果や技術的な知見を取り入れながら、LLMの最適なモデル構造、ハイパーパラメータの実用的かつ効率的な手法の探索を行います。最優秀に選ばれたチームは、500億パラメータサイズのLLM開発に取り組む予定です。
本活動を通じて開発されたモデル・ソースコード・開発過程・ノウハウは、松尾・岩澤研究室のホームページ等で、広く公開されます。これらの透明性の高いアプローチを通じ、社会全体の技術リテラシーの向上、産業界やアカデミアにおける応用の促進を目指します。
成果報告会 自社開発モデルプレゼンテーション
200人以上の生成AIエンジニアを育成、アップサイクリング手法で8×8Bのモデルを開発
基盤モデルの研究・開発・販売を行う、株式会社Preferred Elements(以下、PFE)。同社では、基盤モデルに関する特許権、商標権、実用新案登録、意匠権の取得及びそれに基づいたソフトウェアの開発、サービス提供、経営改善・業務改善のコンサルティングも行っています。また、大規模で日本語性能の高い言語モデルや、テキスト、画像、音声、センサ値など様々な種類のデータを扱えるマルチモーダル基盤モデルも開発。2024年度中の実用化・商用化を目指しています。
今回の採択を受け、日本語性能に優れ、言語・画像・音声に対応した1000億パラメータのマルチモーダル基盤モデルの開発、1兆パラメータの言語モデルの事前学習の検証に取り組みます。最先端の生成AI基盤モデルを開発する技術を日本国内に確保し、日本の言語、文化、倫理観、商習慣に対応した生成AIソリューションの提供、かつ多様化・高度化を実現することが目的です。
開発期間終了後には安全性などを考慮したうえで、本開発事業で得られたモデルや開発ノウハウの一部を公開する予定です。基盤モデルの学習効率を世界最高水準に高め、日本の産業競争力の強化に貢献できるモデルの開発を目指します。
報告資料
- 2024/5/21: GENIAC 中間報告
- GENIAC 中間報告(PDF/678KB)
成果報告会 自社開発モデルプレゼンテーション
スクラッチ開発の100BモデルでGPT3.5を超える性能を達成。マルチモーダル(画像・音声)開発、1Tモデル開発検証も実施
最終更新日:2024年12月20日