AIアナウンサーはアイドルや声優・アナウンサー・ナレーターの声の仕事を奪うのか?

これは簡単明瞭な答えで「いいえ」でしょう。

ただ、それは今すぐってわけではない。

[blogcard url=https://www.itmedia.co.jp/news/articles/1805/11/news036.html title=音声合成はアナウンサーや声優の仕事を奪うのか? content=特別な訓練を受けたプロフェッショナルによる職業というイメージが強いアナウンサーや声優の仕事を、音声合成で代替できるようになってきた。]

この記事にあるとおり、

NHKのニュース番組「ニュースチェック11」では、“AIアナウンサー”の3D CGキャラクター「ニュースのヨミ子」さんが、音声合成でニュースを読み上げている。

NHKに”AIアナウンサー”が登場 「ヨミ子さん」がニュース読みます TechCrunch Japan
NHKに”AIアナウンサー”が登場 「ヨミ子さん」がニュース読みます

ニュースのヨミ子さんってコップのフチ子さんが元ネタなのね。

このあたりIPになるのかしら?

 

ラジオ放送では、エフエム和歌山(和歌山市)が2017年7月から米Amazon.comのテキスト読み上げ機能「Amazon Polly」を使ったAIアナウンサーを活用して話題になった。

この辺りも話題になっているし以前の記事でも紹介している。

実際WordPressのプラグインでこのPollyによる自動読み上げ機能を使って記事を音声化するなんて事も出来る。

その音声をポッドキャストで配信って具合に、テキスト→音声化というのは容易に出来るようになっています。

どのくらいの精度かと言えば

とこの位の精度。

 

AIアナウンサー「荒木ゆい」なども、約10万件の実際にアナウンサーが読んでいるニュース音声を当社が開発した人工知能エンジン「Spectee AI」で機械学習し、様々なニュースのシーンにおけるより人に近い自然な発音、アクセントやイントネーションを習得し、自動で原稿を読み上げるバーチャル・アナウンサー

https://youtu.be/cTsHNX8LWb8

こんな比較をして自然発話をアピール。

そうなって来ると、これを聞いてどうか?と言う事なんだけど、この辺りってどう聞いても私には「ゆっくり」のAquesTalkと何が違うの?って品質。

AquesTalkは、数100万台の製品に実装されている日本語音声合成エンジンです。また、PC用の音声合成アプリにも多数実装されています。その合成音はYouTubeなどの実況動画でも広く使われ、一般の方々におなじみの声となっています。

テキストからの音声合成
テキスト情報からリアルタイムに音声を生成します。録音タイプの音声合成と違い、その都度ナレーターの声を収録する必要がありません。
超小型・最軽量
他に類を見ない小ささの音声合成エンジン。8bit CPU, RAM 500byte, ROM 23KB から動作します。
耳なじみの良い声
聴きやすさや明瞭性を重視し、人の声にこだわらない高品質な音声を合成します。
実装が簡単
ANSI C言語準拠のコードで記述されています。外部ライブラリやファイルシステムを使わないため、OSを持たない環境へも簡単に移植・実装できます。また、さまざまな要望にも柔軟にカスタマイズできます。

といったライブラリを使って作っているから似ているのかも。

このあたり、サーバーサイドでも簡単に動作させることできるし、商用で出ている東芝のやつとか、先の荒木ゆいとかわざわざ使う必要があるのか?ってね。

こうした技術は、どう使うかで、AIであるとか声優やアナウンサー・ナレーターがやっているということが重要なのではなく、必要な発話でそれを人が認識できれば良いだけなんだよね。

だから、実は、俎上に上がってきて比較された時にAIと声優・アナウンサー・ナレーターは同列に比較されて、どちらが話題になるか?という事が大事になってくる。

まあ、音声合成の声は長時間聞いていると、なじんで聞いていても声が音になって耳に入りにくくなってくるんだけどね。

※この辺りは、個人の主観だけど。

地方のローカル局ではアナウンサーが足りていない所もある。働き方改革の取り組みとして、深夜の地震速報などを機械で代替したいという需要はある

アナウンサーを常駐させておいて緊急速報に対応するといった予算もないだろうし、これから電波の再編が現実化して地方とキー局がフラットに争う様になれば、チャンネル数も増えると共に、高給でアナウンサー・ナレーターを雇うより、AIに代替をさせた方がよいというニーズは確実に高まる。

撮って出しとは言え、原稿を作成する過程を省略して、原稿=即配信って具合になるAIの方が運用コストは圧倒的に低いしね。

上で紹介した記事の梶裕貴さんの声を際限と言っても実際にはこの程度なわけだし。

CGの不気味の谷を乗り越えられないように、音声も不気味の谷があって、人間の持っている癖みたいなものがあるのでそうした谷を乗り越えるのはおそらく10年くらいはかかるだろう。

だから、こそ、このニュースの価値としては梶裕貴さんの声を元に作ったということで、この元になる声のデータを事務所なりが作り、それを各そうしったエンジンを作っている会社にリースするようなサブスクリプションモデルといったモノが出来る必要はある。

アナウンサーにクリエイティブな業務に専念させ、働き方改革の取り組みとして深夜業務になる可能性がある地震速報などの緊急情報を機械で代替したいという需要はある。また、声優さんの音声データがあれば、サービスに応じて好きな声優さんの声を聞けるようになるかもしれない。癒やし系の声をVR(仮想現実)と組み合わせたり、ロボットに相談役になってもらったりという可能性もあるだろう。声優事務所からはビジネスを拡大できる手段として、前向きに音声合成を活用したいという話をいただいている」(鳥居マネージャー)

https://www.itmedia.co.jp/news/articles/1805/11/news036_2.html

といったように、声優の事務所でも興味を持っているところはあるみたいだけど、こうした事業モデルって実はファーストペンギンが大事で、そうした事を先にやった方がメリットがある。

その辺りも、考えていかないとね。



一番上へスクロールするボタンを有効または無効にする