研究デモ　－　感情を含んだ声を作る！

テーマ名：　感情を含んだ声を作る！
　　　　　　　－韻律の部分空間を用いた感情音声の合成－

発表論文

森山剛，森真也，小沢慎治：韻律の部分空間を用いた感情音声合成，情報処理学会論文誌，pp.1181-1191, Vol.50, No.3, 2009. (PDF 5.49MB)
森真也，「韻律の部分空間の制約を用いた感情音声合成」，慶應義塾大学大学院理工学研究科修士論文，2005．
ICME2006 (予稿 (PDF 146KB)，ポスター１枚目 (PDF 538KB, PNG 158KB)，ポスター２枚目 (PDF 12.6MB, PNG 148KB))

合成した感情音声の例

本方式は、学習音声に含まれない感情、例えば徐々に強くなる感情が合成できる。

合成する感情	文節語（アクセント型、モーラ数）	与えた感情の強度
怒り	/amamizu/ （LHLL、４モーラ）	０（平静）　→　３　→　６（最大）***
退屈	/aomori/ （LHLL、４モーラ）	０（平静）　→　３　→　６（最大）
喜び	/arawani/ （HLLL、４モーラ）	０（平静）　→　３　→　６（最大）
悲しみ	/omoumamani/ （LHLLLL、６モーラ）	０（平静）　→　３　→　６（最大）
嫌悪	/naname/ （LHL、３モーラ）	０（平静）　→　３　→　６（最大）
落胆	/oborozukiyo/ （LHHHHL、６モーラ）	０（平静）　→　３　→　６（最大）

*** 感情ベクトルeとして、[6 0 0 0 0 0 0 0 0 0 0 0]^T を与えた。

研究の目的と着想

任意のテキスト（単語、文、文章）に対して、データベースに格納した音韻ごとの音声波形を接続して合成音声を得る方法を波形接続方式と言う。これは実際に人が話した声を接続するので、一般に自然性が高い。しかし、データベースに格納されている音声しか合成できないため、様々な感情を含んだ音声を合成するためには大量の音声を用意しなくてはならなかった。本方式では、ある言葉が様々な感情を含んで話される音声の集合が、『平均的な話し方を中心とするばらつき』として表現できると仮定し、学習音声群から主成分分析を使って「感情音声空間」を構築することにより、学習音声には含まれない感情音声も合成することを可能にした。

本手法は、Active Shape Models (ASM)の音声版と見ることもできる。

言葉の“型”ごとに感情音声空間を作る

中高型のアクセントを持つ/naname/に「怒り」を含んだ場合を考えると、第２モーラの/na/によりストレスが置かれる。同じアクセント型を持つ/erabu/や/kowai/も同じ傾向があると考えられる。それに対して頭高型の/naniyorimo/では、第１モーラの/na/によりストレスが置かれ、中高型とは異なる韻律パターン（話し方＝声の高さと大きさ、それぞれの軌跡、各モーラの長さ）の変化が観察される。そこで本方式では、モーラ数とアクセント型の組み合わせ（言葉の“型”と呼ぶ）が、感情を含んだ時に生ずる韻律パターンの変化を決めると仮定する。

すなわち、下表に挙げる２０通りの言葉の“型”それぞれについて、代表として１語（例：　２モーラHL型については/nama/）ずつ選び、各々様々な感情を含んで話した音声を集める。

モーラ数	アクセント型	文節語
２	HL	/nama/
２	LH	/nami/
３	HLL	/midori/
	LHL	/naname/
	LHH	/nagame/
４	HLLL	/arawani/
	LHLL	/amamizu/
	LHHL	/arayuru/
	LHHH	/omonaga/
５	HLLLL	/naniyorimo/
	LHLLL	/amamizuwa/
	LHHLL	/amanogawa/
	LHHHL	/yawarageru/
	LHHHH	/amarimono/
６	HLLLLL	/emoiwarenu/
	LHLLLL	/omoumamani/
	LHHLLL	/amagaeruwa/
	LHHHLL	/iwazumogana/
	LHHHHL	/oborozukiyo/
	LHHHHH	/warawaremono/

韻律の部分空間を用いた感情音声合成法

韻律パラメータ p_i = [f_i1, f_i2, ..., f_iL, a_i1, a_i2, ..., a_iL, l_i1, l_i2, ..., l_in] （i: i番目の学習音声、f: F₀、a: 短時間平均パワー、l: モーラ長、L: 音声のサンプル数、n: モーラ数）を全ての学習音声について求め、主成分分析により、韻律を平均韻律とそこからの分散の形（次式）で表現する。

：平均韻律、

c_ij

： j番目の主成分得点、

v_j

： j番目の固有ベクトル

c_iを与えることで、感情音声の韻律パターンpを合成することができる。文節語を合成する際は、平静音声から作成した音韻データベースから当該素片を取り出し、pを使ってTD-PSOLA法で音声波形を合成する。固有ベクトルv_jの張る空間が韻律の部分空間、すなわち感情音声空間である。

同じ学習音声を被験者に聴かせ、Ｋ個の感情語の強度に関する主観評価ベクトルe_iを得る。今回の実験では、「怒り」「喜び」「嫌悪」「驚き」「侮り」「誇り」「落胆」「おかしい」「悲しい」「退屈」「苦しい」「羞恥」の１２感情語について行った（Ｋ＝１２）。

次に、主観評価ベクトルeを説明変数、主成分得点ベクトルcを目的変数として重回帰分析を行うことで、これらが次の線形式で結合できる。Rは偏回帰係数行列である。これで感情ベクトルeを与えれば、合成すべき韻律パターンpが求められる。

学習に用いた音声^*の例

学習音声はモーラ数とアクセント型の組合せ（上記）２０通り×４７感情の計９４０音声収録した。下表に、４モーラでLHHL型の文節語/arayuru/の４７感情音声を示す。

平静**	憧れ	軽蔑	期待
怒り	苛立ち	嬉しい	幸福
喜び	不平	皮肉	好き
嫌悪	切望	無関心	嫌い
侮り	気の毒な	賞賛	いや
おかしい	寛容	誇り	落胆
心配	ほくそえむ	愛	非難
優しい	失望	嘆き	不安
安堵	叱責	媚び	驚き
憤慨	悲しい	満足	慌て
羞恥	恐れ	退屈	呆れ
穏やか	憎い	苦しい

* 全データセットは、国立情報学研究所音声資源コンソーシアムにて「慶應義塾大学研究用感情音声データベース (Keio-ESD) 」として公開されています。

** 話者が表現しようと試みた感情語。（手法上できるだけバラィエティーに富んだ韻律パターンが収集できれば良いので、正しくその感情が表現されている必要はない。各学習音声に含まれる感情は、上記１２感情それぞれについて７段階評価を行う主観評価実験によって聴き手の知覚する感情を抽出する。）