Googleの「ライブ翻訳」、Geminiで70言語以上のリアルタイム会話に対応

Googleは、生成AIモデル「Gemini」を活用した新機能「ライブ翻訳」を、日本を含む各国の「Google翻訳」アプリで提供開始しました。対応OSはAndroidとiOSで、ユーザーはスマートフォンに接続したヘッドホンを通じて、70以上の言語の会話をリアルタイムに翻訳音声として聞くことができるようになりました。ライブ翻訳は、英語や日本語、ドイツ語など多言語間での会話を想定しており、海外出張や旅行先でのコミュニケーション支援、国際会議や講義の聴講といったシーンでの利用が見込まれます。

最大の特徴は、Geminiの音声対訳機能により、話し手ごとの声のトーンや強調、リズムといった特徴を可能な限り維持したまま翻訳音声を生成する点です。従来の機械的な合成音声と比べ、より自然で「誰が何を話しているのか」を把握しやすい音声出力を目指しており、会議やグループディスカッションなど複数人が話す場面でも理解しやすさの向上が期待されます。背景には、ライブ音声エージェント向けに最適化された音声生成モデル「Gemini 2.5 Flash Native Audio」などの導入があり、単一のモデルで音声認識・翻訳・音声合成までを処理することで、文脈を加味した翻訳と処理遅延の短縮を両立したとしています。

ユーザーインターフェース面では、Google翻訳アプリ内で「ライブ翻訳」ボタンをタップし、ヘッドホンやイヤホンを接続するだけで利用を開始できます。画面上には翻訳結果のテキスト表示も用意されており、対面モードを使うと画面が上下に分割され、それぞれの話者の言語で文字起こしされた内容を同時に確認できます。騒音のある場所や、音声を聞き逃した場合でも、テキストを補助的に確認しながら意思疎通できる設計です。

加えて、マイクは話者の言語を自動検出する仕組みを採用し、会話のたびに手動で入力言語を切り替える必要はありません。相手の発話が一区切りついたタイミングで自動的に翻訳音声を再生する設定も可能で、人間同士の会話に近いテンポを保ちながら通訳を挟めるよう工夫されています。 Googleは、今回の正式提供に先立ち、2025年末から米国やインド、メキシコなどでベータ版を展開してきましたが、このたび日本やフランス、ドイツ、イタリア、スペイン、タイ、英国などにも提供範囲を広げ、より多くのユーザーが「ヘッドホンでの同時通訳」に近い体験を享受できる環境を整えました。

音声生成AIが変える翻訳体験と今後の活用シーン

ライブ翻訳は、単なる利便性の向上にとどまらず、「音声での言語体験」そのものを変える可能性があります。話し手本人に近い声質で翻訳が返ってくることで、たとえば海外とのオンライン会議や講演配信において、登壇者の個性やニュアンスをより保ったまま内容を理解しやすくなります。また、海外旅行では、駅や空港のアナウンスをヘッドホン越しに自国語で即座に聞き取ったり、現地の人におすすめの店を尋ねながら会話を継続したりといった利用も想定されており、従来のテキスト中心の翻訳アプリとは異なる「聞いて理解する」スタイルの普及を後押ししそうです。

他方で、リアルタイム翻訳の精度や遅延は、実際の利用体験を左右する重要な要素です。 Geminiでは、慣用句や口語表現の取り扱い精度向上が進められているものの、専門用語や固有名詞が多い会話、騒音の大きい環境では誤認識の可能性も残ります。プライバシー面では、音声データの扱いや保存方法への透明性がユーザー側から一層求められる段階に入るといえます。今後は、70以上の言語対応を生かした多言語イベントでの実証や、教育現場・医療現場での活用、他社の音声通訳サービスとの競争を通じて、翻訳の品質とユーザー体験の両面でどこまで成熟させられるかが注目されます。