
2025/07/04
国産生成AIの研究開発に挑む、GENIACの採択事業者たち。そのキーパーソンとは、どのような人物なのでしょうか。今回紹介するのは、リアルな都市スケールで「時間」と「空間」の理解を目指す基盤モデル「City-LLM」の構築を担う、ウーブン・バイ・トヨタ株式会社の孔 全氏。故郷・中国から遠く離れた日本で、人々の日常生活に寄り添うAIを開発したいと語る孔氏に、その歩みと今後の展望を伺いました。
<プロフィール>
孔 全(こう・ぜん)
1987年生まれ、中国・西安出身。ウーブン・バイ・トヨタ株式会社 staff research scientist。2011年に西安交通大学卒業後、大阪大学大学院 情報科学研究科で博士の学位を取得。2016年に日立製作所・中央研究所のメディア情報処理関連の部署に配属。2022年より現職、コンピュータビジョンやマルチモーダル理解の研究に従事。
日本製のガジェット文化に憧れて開発者の道へ

──孔さんは中国ご出身とのことですが、情報科学に興味を持たれたきっかけを教えてください。
孔:はい。私は中国・陝西省の西安という街で生まれ育ち、大学の学部までは中国で過ごしました。子どもの頃からSFやガジェットが好きで、小学生の時に親から「ウォークマン」をプレゼントされたことをきっかけに、機械や工学に関心を持つようになりました。地元にも秋葉原のような雰囲気の商店街があり、様々なモデルを買い集めて楽しんでいました。
進学した西安交通大学は通信や電子系の分野に強みがありましたが、当時は情報系分野への関心が高まりつつありました。私自身もWebアプリケーション開発やデータマイニングといった情報科学に惹かれ、その仕組みを深く理解したいと思うようになり、情報系の学部を選びました。
在学中は、ソフトウェアだけでなくハードウェアと組み合わせた開発にも取り組んでいました。例えば、2010年頃に登場したマイクロソフトの「Kinect」をいち早く友人と入手し、プロジェクターと組み合わせてスクリーン上でタッチ操作ができるようなアプリケーションを開発したこともあります。その成果が評価され、学内で最優秀賞をいただいた経験もあります。
──その後、大阪大学の大学院に進学し、博士号を取得されています。なぜ日本、そして大阪大学を選ばれたのでしょうか?
孔:日本の大学では、ヒューマンコンピュータインタラクション(HCI)など、私が興味を持っていた分野において面白い研究が数多く行われていました。それを自分の目で確かめ、実際に体験したいと思ったのがきっかけです。
当時は日本の大学についてあまり情報がなかったのですが、「マルチメディア」や「データマイニング」といったキーワードで大学を検索し、関連分野の研究が盛んだった大阪大学の大学院への進学を決めました。
──博士課程での研究テーマについて、簡単に教えていただけますか。
孔:前川卓也先生と松下康之先生の研究室に所属し、主にウェアラブルコンピューティングやユビキタスコンピューティングに関する研究に取り組みました。例えば、スマートウォッチやスマートグラスのようなセンサーを身につけることで、人の行動や位置情報を取得し、それに基づいて生活環境における自然なサービス提供を目指すというものです。
重要なポイントは、ユーザーが意識して操作しなくても「パッシブ(受動的)」な状態で、適切なサービスが自動的に提供されることです。行動パターンや位置情報をもとに、最適な体験をユーザーに届けるためのシステムの設計と評価の研究を進め、「「Ubicomp」などのトップカンファレンスに連続して論文を投稿するなど着実に実績を積むことができました。
──博士号取得後、日立製作所の研究所に就職されたと伺いました。メーカーを選ばれた理由はどのようなものだったのでしょうか。
孔:先ほどお話ししたように、90年代から2000年代にかけて日本で生まれた数々の製品──「ウォークマン」や「プレイステーション」、「ボーカロイド」など──は、中国の若者たちを魅了してきました。私は、その背景にある「発明の源泉」、つまり日本独自の文化や開発現場そのものに強く関心を持っていました。
研究の中でもある程度そうした文化に触れることはできましたが、実際に企業の現場に入って、どのように考え、どのように製品づくりが行われているのかを知りたいと思ったのです。その延長として日立の研究開発部門に入社し、これまでの研究経験を生かしてマルチメディア技術の開発に取り組むことにしました。
──日立で担当されていたプロジェクトについて、可能な範囲で教えてください。
孔:博士課程の後半には、「Google Glass」を使って家電を操作する研究を行っていました。これはGlassにつけたカメラで家電を認識し、それに基づいてユーザーの視線で家電を操作するという仕組みです。この研究の中で、画像認識にディープラーニングを活用し、その精度に驚かされ、ディープラーニングの持つ可能性に大きな魅力を感じました。
日立では、画像・音声・言語といったマルチモーダルなデータを扱う研究部門に所属し、ディープラーニングを応用した動画像の理解やセキュリティ分野への応用、自己教師あり学習などの最先端技術の研究に携わっていました。
都市の時空間理解のための基盤モデルを開発
──2022年にウーブン・バイ・トヨタに転職されたきっかけは何だったのでしょうか。
孔:日立では動画像理解関連の研究に幅広く取り組ませていただきましたが、基本的にはB2B型の研究が多く、次第にエンドユーザーにより近い場所で成果を届けたいという思いが強くなっていきました。
ちょうどその頃、CESで「ウーブン・シティ」の構想が発表され、これはまさにユーザーの日常生活と密接に関わるプロジェクトだと感じたのです。リアルな生活環境の中でデータを活用できる機会があると思い、強く惹かれたのがきっかけです。
──ウーブン・シティは、当時はまだ構想段階だったかと思います。それでも惹かれたのは、モビリティへの興味もあったからでしょうか?
孔:はい。モビリティも、私にとっては「環境」の一部と捉えています。大学時代から一貫してスマートホームやスマート環境に関する研究をしてきましたが、モビリティもその延長線上にあると考えています。
自動運転だけでなく、車内空間での体験や情報連携も含め、モビリティの進化にはまだまだ多くの可能性があると感じています。都市という大きなスケールの中で、生活とテクノロジーの融合を追求できる環境は私にとって非常に魅力的でした。
──現在取り組まれているプロジェクトについて教えてください。
孔:所属する部署では、基盤モデルの開発に加えて、将来AIを簡単に街のクラウドでサービスの提供するチームや機械学習やコンピュータービジョンの技術に関する応用研究のチーム、など、研究開発からエンジニアリングまで多様なチームが連携して取り組んでいます。
その中で私は「City-LLM(City Large Language Model)」と呼ばれる、都市の時空間理解のためのマルチモーダル基盤モデルの開発に取り組んでいて、このプロジェクトの研究開発のリードを担当しています。
具体的には、映像・画像・言語といった複数のモダリティを統合し、都市環境における時空間的な情報を理解するモデルを構築しています。例えば、交通状況や歩行者の動き、空間の利用状況などを、カメラや各種センサーからリアルタイムで把握し、それに応じたサービスを提供できるようにすることが目標です。

──車のことだけでなく、インフラ全体を視野に入れたAI研究開発を行っているのですね。
孔:はい。例えば「交通安全」を実現するには、車とインフラが密接に連携して動作することが重要です。車両に搭載されたカメラやセンサーだけでなく、交差点上のカメラなどインフラ側とも連携し、歩行者中心の行動を分析して適切な情報をドライバーにリアルタイムで提供する必要があります。
現在開発している基盤モデルは、そうしたモビリティとインフラの連携を支える「原点」となる役割を果たすことを目指しています。
──それはいわゆる「世界モデル」のようなものと考えてよいのでしょうか?
孔:少し異なりますね。一般的な世界モデルのように「すべてを理解する」ことを目指すのではなく、私たちは都市というリアルなドメインに即したモデルの構築を重視しています。
特に重要なのは、「時空間の理解」です。多くの大規模言語モデル(LLM)やマルチモーダルモデルは空間的な理解には優れていますが、時間の流れや変化を正確に扱うのはまだ難しいのが現状です。例えば、車が左折するのか右折するのかといった動きは、1フレームの画像だけでは判断が困難なときがあります。連続する動画から時系列的な文脈を理解する必要があります。
──確かに、「時間」をどう扱うかは生成AIにとって大きな課題ですね。
孔:おっしゃるとおりです。そのため私たちは、データの収集段階から「時間」の情報を意識して設計しています。静止画だけでなく、動画データや、将来時系列のセンサーデータを活用できるようなアーキテクチャを最初から導入しています。
また、モデル自体も7から8B(70から80億パラメータ)レベルという比較的扱いやすい規模からスタートし、トライアンドエラーを短期間で繰り返せるようにしています。これにより、将来的にはエッジデバイスやクラウドへの柔軟な展開も視野に入れています。
都市スケールのAI実証で社会課題解決に挑む
──AI開発者の視点から、ウーブン・バイ・トヨタの強みはどこにあるとお考えですか?
孔:最大の強みは、デジタルツールだけでなく、「ウーブン・シティ」といったリアルな都市環境を“テストコース”として活用できる点だと思います。つまり、インターネット上の情報だけでなく、実際の世界におけるデータ——例えば、人の動線や車の挙動、環境の変化など——をもとに研究開発ができるのです。
さらに、データを収集するだけでなく、それを活用してテクノロジーを実装・検証するためのインフラも整備されています。加えて、社内外のパートナーとの連携によるオープンイノベーションを進めている点も大きな特徴です。
──GENIACへの参加も、その一環ということですね。
孔:はい。私たちはGENIACで「City-LLM」という基盤モデルの構築プロジェクトを進めていますが、国内でも有数の規模を持つGENIACの開発コミュニティを通じて先進的なAI開発事業者の方々と連携し、ノウハウを共有できることも非常に意義深いことだと感じています。
例えば、自動運転へマルチモーダルLLMの応用やゼロから大規模言語モデルを構築するなど、各社が異なる強みを持っており、私たちもその取り組みに刺激を受けながら、自分たちの方向性でチャレンジを続けています。

──海外と比べて、日本のAI開発コミュニティをどのように見ていますか?
孔:あくまで個人的な印象ですが、日本の開発コミュニティにはスピード感があると感じています。よく、「海外の方が新しい動きへの投資が活発で、日本は成熟している市場」と言われますよね。
しかし、私の視点では、日本という独特な 文化と環境 だからこそ開発者の皆さんが異なる観点からチャレンジしているように思います。すでに海外のビッグテックが試したアプローチをなぞるのではなく、日本ならではのデータや文化を土台に開発することでユニークな生成AIが生まれる可能性があります。そうしたチャレンジには、大きな意義と面白さがあると感じています。
おそらく海外のビッグテックも、日本のデータから生まれる生成AIには関心を持つはずです。だからこそ、国内のAI開発事業者には、それぞれの独自性や視点をもっと大切にしてほしいと考えています。
──City-LLMは都市スケールでのデータ活用を目指しているとのことですが、具体的にはどのような未来像を描いていますか?
孔:私たちが目指しているのは、リアルな都市空間において「検索可能な世界」を実現することです。例えば「今、空いているカフェはどこですか?」という問いに対して、街中のカメラやセンサーデータをもとに、AIがリアルタイムで答えを導き出せるようになる。これは、従来のWeb検索では実現が難しかった領域です。
もちろん、そのような未来のAIを実現するには、プライバシーや安全性に十分配慮したセンサー設計やインフラ整備が不可欠です。私たちのプロジェクトでは、単なる技術開発にとどまらず、街そのものをテストベッドとして活用し、機能やビジネスモデルの実証を行える点が大きな強みになっています。
都市スケールでのデータ活用やアルゴリズムの検証を行える環境は、世界的にも非常に貴重です。交通安全の向上やインフラと連係したサービスの最適化といった、現実の課題に直結する成果も目指しています。
──最後に、個人として、またウーブン・バイ・トヨタの一員として、今後AIでどのようなチャレンジを続けていきたいですか?
孔:これまで生成AIは、人間の作業を効率化するツールとして活用されることが多かったと思います。しかし、私たちが本当に目指しているのは「新しい価値を創造すること」です。既存の市場の中でパイを奪い合うのではなく、まったく新しい市場や生活スタイルを生み出す。そうした意味で、AIは「開拓の道具」であるべきだと考えています。 そのためにも、都市というスケールでリアルなデータを扱いながら、新たな体験を生み出していく。その先にある未来を信じて、これからもチャレンジを続けていきたいと思っています。
GENIACトップへ
最終更新日:2025年7月9日