WaveNet2
[tag:]
WaveNet launches in the Google Assistant
一年ぶりにWaveNetの続報である。
1000倍速くなった上に、より人間っぽくなったらしい。
日本語のデモを聴いてみると、録音された音声としては
もう十分な品質に達しているように思う。
話し方が均一なのは訓練を受けてるんだろうなとか、
録音の過程で音源が圧縮されているのだろうなとかを
補完すれば、人間の声として受け入れられるレベルというか。
Non-WaveNet版は機械だと思えるのに、WaveNet版は
人間だと思える。
人によっては両方とも機械だと思えるかもしれないが、
いずれにせよ、ここでは不気味の谷現象が起こらない
ように思う。
それはたぶん、評価軸が聴覚の一つしかないからだろう。
不気味の谷が現れるには、二つ以上の尺度が要るはずだ。
距離空間の取り方によらず、何らかの尺度で近い のに遠く感じられるものは不気味になり得る。
An At a NOA 2017-07-14 “不気味”
人型ロボットの口からWaveNet版の音声を流したら、
おそらく人間の声を録音したものを流しているように
感じられるだろう。
では、人間の口からだとどう感じられるだろうか。
口と音声が同期していなかったら、吹き替え版の映像
のようだろうか。
ちゃんと同期していたら、本当にしゃべっているように
聴こえるだろうか。
さすがに、あまりに音声がきれい過ぎて、目の前で
それをやられたらしゃべっているようには聴こえない
気がするが、それは視覚にとってのフォトショ加工も
同じことだろう。
Phonoshop加工された声が作れるようなものだと思えば、
画面の向こう側なら、もしかするともしかするかもしれない。
あと、この技術って逆に音声からテキストへの変換にも
使えるのだろうか。
そうだとすれば、文字起こしの精度向上にも貢献できる
だろうし、昨日発表されたPixel Budsのような製品での
言語の自動判定にも役立つだろう。
もう使われてるかもしれないけど。