WaveNet2

2017-10-05 15:40
[tag:]

WaveNet launches in the Google Assistant

一年ぶりにWaveNetの続報である。
1000倍速くなった上に、より人間っぽくなったらしい。

日本語のデモを聴いてみると、録音された音声としてはもう十分な品質に達しているように思う。
話し方が均一なのは訓練を受けてるんだろうなとか、録音の過程で音源が圧縮されているのだろうなとかを補完すれば、人間の声として受け入れられるレベルというか。

Non-WaveNet版は機械だと思えるのに、WaveNet版は人間だと思える。
人によっては両方とも機械だと思えるかもしれないが、いずれにせよ、ここでは不気味の谷現象が起こらないように思う。
それはたぶん、評価軸が聴覚の一つしかないからだろう。
不気味の谷が現れるには、二つ以上の尺度が要るはずだ。

距離空間の取り方によらず、何らかの尺度で近いのに遠く感じられるものは不気味になり得る。
An At a NOA 2017-07-14 “不気味”

人型ロボットの口からWaveNet版の音声を流したら、おそらく人間の声を録音したものを流しているように感じられるだろう。
では、人間の口からだとどう感じられるだろうか。
口と音声が同期していなかったら、吹き替え版の映像のようだろうか。
ちゃんと同期していたら、本当にしゃべっているように聴こえるだろうか。

さすがに、あまりに音声がきれい過ぎて、目の前でそれをやられたらしゃべっているようには聴こえない気がするが、それは視覚にとってのフォトショ加工も同じことだろう。
Phonoshop加工された声が作れるようなものだと思えば、画面の向こう側なら、もしかするともしかするかもしれない。

あと、この技術って逆に音声からテキストへの変換にも使えるのだろうか。
そうだとすれば、文字起こしの精度向上にも貢献できるだろうし、昨日発表されたPixel Budsのような製品での言語の自動判定にも役立つだろう。
もう使われてるかもしれないけど。