WaveNet2


[tag:]

WaveNet launches in the Google Assistant

一年ぶりにWaveNetの続報である。
1000倍速くなった上に、より人間っぽくなったらしい。

日本語のデモを聴いてみると、録音された音声としては もう十分な品質に達しているように思う。
話し方が均一なのは訓練を受けてるんだろうなとか、 録音の過程で音源が圧縮されているのだろうなとかを 補完すれば、人間の声として受け入れられるレベルというか。

Non-WaveNet版は機械だと思えるのに、WaveNet版は 人間だと思える。
人によっては両方とも機械だと思えるかもしれないが、 いずれにせよ、ここでは不気味の谷現象が起こらない ように思う。
それはたぶん、評価軸が聴覚の一つしかないからだろう。
不気味の谷が現れるには、二つ以上の尺度が要るはずだ。

距離空間の取り方によらず、何らかの尺度で近い のに遠く感じられるものは不気味になり得る。
An At a NOA 2017-07-14 “不気味

人型ロボットの口からWaveNet版の音声を流したら、 おそらく人間の声を録音したものを流しているように 感じられるだろう。
では、人間の口からだとどう感じられるだろうか。
口と音声が同期していなかったら、吹き替え版の映像 のようだろうか。
ちゃんと同期していたら、本当にしゃべっているように 聴こえるだろうか。

さすがに、あまりに音声がきれい過ぎて、目の前で それをやられたらしゃべっているようには聴こえない 気がするが、それは視覚にとってのフォトショ加工も 同じことだろう。
Phonoshop加工された声が作れるようなものだと思えば、 画面の向こう側なら、もしかするともしかするかもしれない。

あと、この技術って逆に音声からテキストへの変換にも 使えるのだろうか。
そうだとすれば、文字起こしの精度向上にも貢献できる だろうし、昨日発表されたPixel Budsのような製品での 言語の自動判定にも役立つだろう。
もう使われてるかもしれないけど。