WaveNet


[tag:]

WaveNetという音声合成システムがDeepMindから発表された。

これ、すごいな。

ParametricやConcatenativeと比較したサンプルの 自然さもさることながら、Knowing What to Sayの節で、 text sequenceなしで学習させた場合のサンプルが衝撃的だ。
おそらく、ほぼすべての人間はリスニングから言語習得を 開始すると思われるが、原初のリスニングはこうだった だろうな、という感覚を呼び起こされる思いだ。

耳を介して取得した情報を意味付けすることで人間の声を 認識できるようなセンサ特性をもつ神経系を構築し、逆に そのセンサを使って人間の声と認識できるような音を選択し、 CNNという意味付けシステムに与えることで、人間の声を生成する。
人間の声に限らず、楽器の音もやることは同じだ。

その上に付与される、言語や音楽という理由付けが絡む要素には、 どこまで踏み込めるだろうか。
例えば、レンブラント風の絵を描いたりする実例は出てきているが、 それはどちらかというと、見る側の意味付け機構に依存した例だ。
新しい言語体系や音楽理論を構築することも可能だろうか。
あるいは、大量のデータを取得できているうちは、理由付け なんていうものに必要性を見出さないのかもしれない。