OpenAI、本人そっくりな音声を作り出す「Voice Engine」を発表悪用リスクを懸念

OpenAIは現地時間3月29日、人の声を再現できる画期的な生成AIモデル「Voice Engine」を発表しました。このモデルは、単にテキストから音声を生成するだけでなく、15秒の音声サンプルを用いることで、話者の声質や感情を捉えた自然な音声を作り出す能力を持っています。また、母国語以外の言語での発話も可能です。

この技術はすでに、OpenAIの「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能、テキスト読み上げ機能「Read Aloud」などで利用されています。特に注目すべきは、非営利の医療研究機関で行われたテストで、発話に困難を抱える人々の声を復元することに成功した事例です。これにより、病気や事故で声を失った人々にとって、新たな希望が見えてきました。

しかし、OpenAIはこの技術が悪用されるリスクも認識しており、広範囲にリリースする前に慎重なテストを実施しています。OpenAIは、音声合成技術の悪用について「重大なリスクがあり、特に選挙の年には最優先事項であることを認識している。われわれは、政府やメディアなど米国および国際的なパートナーと連携してフィードバックを取り入れている」とコメントしました。

今後の展開として、音声認証システムの廃止や、個人の声を保護するためのポリシー確立、AI技術の理解促進などが必要とされています。OpenAIはこの技術を広く利用可能にするために、社会全体での理解と協力を求めています。

ネット上では、「すぐに悪用されそうで怖い」「声を失った人の声を復活させるのに使うのはとても良いことだと思う」「人間は自分で自分の首を絞め始めている」などの意見が寄せられています。

「Voice Engine」の技術は一部企業のみアクセス可能

OpenAIは、2022年後半から音声AIモデル「Voice Engine」の開発を進めており、この先進的な技術はすでにChatGPTの機能向上に役立てられています。海外メディアのTechCrunchとのインタビューにて、OpenAIの製品チームメンバーJeff Harris氏は「ライセンスされたデータと、公開されているデータの組み合わせでトレーニングしている」と、「Voice Engine」の技術について明らかにしました。

この技術へのアクセスは、教育テクノロジー企業やヘルスケアソフトウェアメーカーなど、一部の企業に限定されています。OpenAIは合成音声の悪用リスクを鑑み、「Voice Engineにアクセスできるのは約10人の開発者のみ」と述べています。

この技術に関連するものとして、2024年1月にAIで作成された偽のジョー・バイデン大統領の音声を使用したスパム電話が有権者にかけられた事件がありました。これを受け、米国政府はAI音声技術の非倫理的な使用に対処するための取り組みを強化しています。