WaveNet

2016-09-09 15:12
[tag:]

WaveNetという音声合成システムがDeepMindから発表された。

これ、すごいな。

ParametricやConcatenativeと比較したサンプルの自然さもさることながら、Knowing What to Sayの節で、 text sequenceなしで学習させた場合のサンプルが衝撃的だ。
おそらく、ほぼすべての人間はリスニングから言語習得を開始すると思われるが、原初のリスニングはこうだっただろうな、という感覚を呼び起こされる思いだ。

耳を介して取得した情報を意味付けすることで人間の声を認識できるようなセンサ特性をもつ神経系を構築し、逆にそのセンサを使って人間の声と認識できるような音を選択し、 CNNという意味付けシステムに与えることで、人間の声を生成する。
人間の声に限らず、楽器の音もやることは同じだ。

その上に付与される、言語や音楽という理由付けが絡む要素には、どこまで踏み込めるだろうか。
例えば、レンブラント風の絵を描いたりする実例は出てきているが、それはどちらかというと、見る側の意味付け機構に依存した例だ。
新しい言語体系や音楽理論を構築することも可能だろうか。
あるいは、大量のデータを取得できているうちは、理由付けなんていうものに必要性を見出さないのかもしれない。