2026/05/28
国際共同研究や海外への情報発信が日常となった今、研究現場では言語の壁をどう越えるかが大きな課題になっています。今回紹介するのは、株式会社Kotoba Technologies Japan(以下、Kotoba Technologies)が開発する音声同時通訳技術を、理化学研究所(以下、理研)が実際の記者会見で活用した事例です。日本語で行われた発表を、そのまま英語の音声としてリアルタイムに世界へ発信する取り組みから、どのような手応えが得られたのでしょうか。理研の嶋田氏とKotoba Technologiesの小島氏に話を伺いました。
<プロフィール>
小島 熙之(こじま のりゆき)
Kotoba Technologies共同創業者・CEO。米コーネル大学でコンピュータサイエンスの博士号を取得し、2023年7月にKotoba Technologiesを共同創業。「富岳」を活用した日本語生成AIプロジェクト「Fugaku-LLM」の開発にも関わる。EMNLP 2022 Best Paper Award受賞。
嶋田 庸嗣(しまだ ようじ)
理化学研究所 計算科学研究推進室 室長代理。1997年、京都大学大学院理学研究科修了。新聞記者を経て1999年に理化学研究所に入所。リサーチアドミニストレーターとして広報や研究プロジェクトの立案、推進などに携わる。2012年より神戸に在住し、神戸発のムーブメントを下支えするべく活動している。
「富岳」を通じた接点から始まった音声同時通訳の協業
──まず、今回の理研との協業は、どのような経緯で始まったのでしょうか。
小島: もともと私たちKotoba Technologiesは、スーパーコンピュータ「富岳」を活用して日本語に特化した生成AIモデルを開発する「Fugaku-LLM」の立ち上げに関わっていました。そうした背景もあって、理研の松岡 聡先生(計算科学研究センター センター長)をはじめ、ハイパフォーマンスコンピューティングに関わる神戸のチームの皆さんとは、比較的近い距離でやり取りをしてきました。そうした関わりの中で理研の方々に認知されていたことが、今回につながった大きな要因だったと思います。
嶋田: 理研側としては、富岳を活用した大規模言語モデル(LLM)の取り組みを進める中で、その成果や体制を国内外にしっかり発信したいという考えがありました。2025年8月の記者会見は、次世代型の「富岳NEXT」の開発体制が決まり、国際連携で進めていくことを示す重要な場でした。富士通に加えてNVIDIAとの連携も注目されていましたので、日本語の発表内容を適切に英語化して伝える必要があったのです。そこで、Fugaku-LLMでご縁のあった小島社長にご相談した、という経緯です。
──研究プロジェクトの関係性が、対外発信の実装にまで自然につながったわけですね。
嶋田: そうですね。今回は単に翻訳の外注先を探したという話ではなく、富岳に関連する取り組みの延長線上で、国産の音声AI技術を実際の発信の場で使えないか、という発想でした。その意味で、理研としても非常に意義のある協業だったと思います。
小島: 私たちにとっても、研究開発の文脈で培ってきたものが、実際の場面で必要とされる形でつながったことは大きかったですね。研究と実装の間に段差を作らず、そのまま現場で試せたことに価値がありました。
──当時は、音声基盤モデル自体がまだ開発途上の段階だったと伺っています。実戦投入にあたって、不安はありませんでしたか。
嶋田: もちろん、何の確認もせずに本番に投入したわけではありません。事前にご相談に伺った際にデモを見せていただき、かなり精度が高いと感じました。こちらから松岡のプレゼン映像などもお渡しして、翻訳の精度を確認した上で導入を決めています。開発段階で懸念がある点についても、小島さんから事前に共有いただいていましたので、その中で安定してパフォーマンスが出せる形を一緒に探っていきました。
小島: 私たちとしても、初めて公式の大きな場で音声から音声への同時通訳を運用するタイミングでしたので、当然緊張感はありました。ただ、ご相談をいただいてから本番までに少し時間がありましたので、その会見向けのチューニングを行い、できるだけ条件を合わせた形で精度を高めていきました。開発途上ではありましたが、表に出せるところまで持っていけたという感触はありました。
──記者会見の内容はかなり専門的だったと思います。技術的な用語への対応はいかがでしたか。
嶋田: 通常であれば、同時通訳者を入れる方法もあれば、テキスト翻訳で対応する方法もあります。ただ、専門用語という点では、どちらにも難しさがあります。その点、Kotoba Technologiesのモデルについては過去の実績もあり、かなり高度にチューニングされているだろうという印象がありました。
小島: 私たちのモデルの特徴の一つは、専門用語を含めて、様々な分野の単語の翻訳に強いことです。今回も、会見の内容に合わせた追加のチューニングを行いました。その結果、専門用語だから極端に精度が崩れるという挙動は特になく、事前にお約束した程度のパフォーマンスは出せたのではないかと思っています。
特に今回は理研の五神 真理事長、NVIDIA バイスプレジデントのIan Buckさん、富士通 CTO(最高技術責任者)のVivek Mahajanさん、文部科学省 研究振興局 局長の淵上 孝さんがいる中で、長時間にわたってAIモデルを安定稼働させる必要がありました。技術的には非常に高いハードルでしたが、それを乗り越えられたことは大変意義深かったです。
──理研側として、記者会見での翻訳精度の印象はいかがでしたか。
嶋田: 違和感はほとんどありませんでした。翻訳精度の高さに加え、音声から音声へのダイレクト翻訳であることが大きかったと思います。テキスト化を挟むとどうしても遅れが出てしまいますが、今回はかなりリアルタイムに、しかも臨場感を保った形で伝えることができました。
同時通訳AIは研究開発の現場にどのような効果をもたらすのか
──今回の活用は記者会見の場でしたが、研究開発の現場でも応用できる可能性を感じましたか。
嶋田: はい、非常に感じました。私たちもNVIDIAや富士通と日常的に打ち合わせをしていて、研究者や開発者の中には英語で問題なくやり取りできる方もいます。ただ、関係者全員がそうではありません。現在も様々な翻訳手段を使って理解を補っていますが、そこにKotoba Technologiesの技術が加われば、単なる補助ではなく、もっと密度の高いコミュニケーションにつながるのではないかと思っています。
──研究の世界では英語が共通語だと言われますが、それでも支援技術の意義は大きいのでしょうか。
嶋田: 研究そのものは、研究者だけで進むわけではありません。運営や広報、各種調整など、多くの支援者が関わっています。そうした方々も含めて、プロジェクト全体の生産性を高めていくには、言語の壁が低いに越したことはありません。たとえるなら、ドラえもんのひみつ道具である「ほんやくコンニャク」のようなものが現実に近づいている感覚ですね。これは研究者だけでなく、それを支える人たちにとっても大きな意味がある技術だと思います。
小島: 私たちも、まさにそこに価値があると思っています。日常会話の翻訳だけではなく、専門的な会議や国際共同研究の場で、言語の違いが原因で参加しにくかった人が気軽に入ってこられるようになる。それによって議論そのものの質が上がるのであれば、音声同時通訳の意義は非常に大きいです。
──特に日本語と英語の同時通訳は難しいと聞きますが、具体的にはどこが難しいのでしょうか。
小島: 一番大きいのは語順の違いです。日本語と英語では、主語、動詞、目的語の並び方が大きく異なるため、低遅延と高精度を両立させるのが難しいんです。例えば、英語とスペイン語のように語順が近い言語なら、かなり短い遅延でも成立しやすいのですが、日英ではそうはいきません。しかも、音声から音声への同時通訳では、一度出した音声をあとから修正できないので、テキスト翻訳以上に難易度が上がります。
──それでも、かなり実用段階に近づいているのでしょうか。
小島: かなり近いところまで来ています。例えば、一人がまとまって話すパネルセッションのような場では、すでにかなり高い精度が出ています。もちろん、複数人が重なって話す場面や雑談のような複雑な状況では難しさが増しますが、それでもあと一歩というところまできているという認識です。
──モバイル向けの「同時通訳」アプリとしても提供していますが、そこにはどんな狙いがありますか。
小島: 一言で言えば、できるだけ多くの人を巻き込みたいからです。生成AIの会社は、モデルを作ること自体も重要ですが、それを社会の中で大きな流れにしていくことが同じくらい重要です。使ってくださる方が増えれば、会社のことも技術のことも広く知っていただけますし、採用や新たな事業機会にもつながります。アプリは、その入り口として非常にわかりやすい形だと思っています。
──無料でもかなりの機能を使えるそうですね。
小島: はい。無料ユーザーでも、有料ユーザーとほぼ同じ機能を使えます。違うのは利用時間の上限だけです。まずはフルスペックで触っていただき、その上で多く使う方には料金をいただく、という考え方です。
──有料版の価格は高めですが、需要はあるのでしょうか。
小島: あります。一般的なアプリの価格感とはかなり違いますが、AIツール全体を見ると、価値があれば相応の価格でも使っていただける時代になっています。実際、これまでは個人契約が中心でしたが、その中でもビジネス用途で使っている方は多いです。最近、エンタープライズ向けのチームプランも出しましたので、今後は法人利用も増えていくと思います。
──競合としては、どのあたりを意識していますか。
小島: よく比較されるのは「DeepL」ですね。最近では、Appleの同時通訳機能と比べられることも増えています。ただ、少なくとも日英に関していえば、精度と遅延の両面で私たちの方が優位だと考えています。これは、研究開発資源をかなり集中的にこの領域へ投じているからです。
──Appleの「ライブ翻訳」の話が出ましたが、オンデバイス化の流れについてはどう見ていますか。
小島: オンデバイスは非常に重要です。特にセキュリティが重視される場面では、今後ますます必要になります。私たちも、将来的にはオンデバイスでの展開を強く意識しています。実際、GENIACの採択内容でも、モデルを蒸留して軽量化し、エッジ環境での運用可能性を示すことを視野に入れています。
GENIACの支援が持つ意味と日英同時通訳の完成
──GENIAC 生成AI基盤モデルの開発事業には第1.5期から参加されています。支援の意義をどう感じていますか。
小島: 圧倒的に大きいですね。私たちも、このステージの企業としては比較的大きな資金調達をしていますが、それでもGPUにかかる支出は非常に重いです。そこを直接支援いただけることで、研究開発の進め方そのものが変わります。体感としては、GENIACがある場合とない場合では、研究開発の積極性が5倍から10倍違うくらいの感覚があります。
──計算資源だけでなく、コミュニティとしての価値もありますか。
小島: はい。最初は同じ分野の企業同士なので、少し距離感があるかもしれないと思っていましたが、実際には皆さん非常にフレンドリーで一体感も出てきています。日本では、こうした形で企業同士が同じ補助の枠組みで集まること自体がかなり独特だと思いますし、そこはとても興味深いですね。
──今後はどのような展望を持たれているのでしょうか。
小島: はい。基盤モデル開発事業の第3期では多言語化に注力していましたが、今後はターゲットを日英に絞り、日英同時通訳を完成させることを目指しています。ここでいう「完成」とは、言語の壁がなくなったと言える水準まで持っていく、という意味です。
かなり大胆に見えるかもしれませんが、実際にアプリを触っていただくと、あと一歩のところまで来ていることは感じていただけると思います。
──そうしますと、理研としても今後への期待は大きいのでしょうか。
嶋田: もちろんです。国際会議や日常の打ち合わせを含めて、活躍の場はこれからさらに広がっていくと思います。私たちとしても、モデルの高度化に協力しながら、できあがった技術は積極的に活用していきたいと考えています。言葉の壁が下がれば、情報発信だけでなく、対話そのものの質も変わります。そこに大きな期待があります。
音声同時通訳AIが社会のあり方を変えていく
──「日英同時通訳の完成」という刺激的なフレーズも出ましたが、少し先の将来像についても教えてください。
小島:まず、私たちが今注力している言語については、かなり短い期間で、言語の壁をほとんど感じなくなるところまで持っていけると思っています。そして精度だけでなく、遅延も詰められるところまで詰めて、しかも話者の声でそのまま翻訳できるようになります。
さらに、それがデータセンター側だけでなく、端末側でも安全に動くようになるといった方向へ、数年以内に一気に進んでいくと見ています。その先は、同時通訳だけでなく、人と自然に対話できる音声エージェントへと広がっていくはずです。音声AIが単なる補助機能ではなく、対話の基盤そのものになっていくイメージですね。
嶋田:私も、今回の記者会見での経験を通じて、そうした変化がかなり現実味を帯びてきたと感じています。英語だけでなく、様々な言語に対して同じようなことが起これば、これまでとは違う世界が見えてくるでしょう。研究の世界でも、ビジネスの世界でも、その影響は大きいと思います。
──研究開発の現場から始まった取り組みが、社会全体の対話のあり方まで変えていくかもしれないわけですね。
小島:そうですね。生成AIによって、人類が長く思い描いてきたことがようやく実現に近づいています。これを実感するためには、自分がすごいと思った技術は、まず使ってみることが大事だと思います。私たちの同時通訳も、その一つとして広く体験していただけたらうれしいです。
GENIACトップへ最終更新日:2026年5月28日