Looking to Listen


[tag:]

Looking to Listen: Audio-Visual Speech Separation

視覚と聴覚を組み合わせることで話し声を分離できる というのは、多様な情報の流れの中に何らかの一致を 見出すことが、個を認識することにつながっている ことを示唆しているようで興味深い。

センサの種類や数を増やすと、個の特定の精度は 上がっていくが、精度を上げ過ぎると、人間が 同一個体と判定する対象を別個体として判定する ようになり、「精度の悪化」と表現されることに なるだろう。
精度の頭打ちを決めるのは、人間のセンサの仕様だ。

複数の情報の間での齟齬を察知して、個の同一性を チェックする仕組みも作れるだろう。
「今日は風邪を引いているから聴覚情報がずれて いる」というように、理由付けによる一時的な パッチも当てられるようになるだろうか。
その過程がブラックボックス化したものは、 マガーク効果と同じであるように思う。