スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Project-NAIP2 α版 リリース

【Project-NAIP2 α版 リリース】
先日Twitterの方で先行公開したのですがNAIP2のα版を公開します。今回のα版はブラックジャックやPC-OP-RS1を使った擬似家電操作など新機能を実装しています。ただし、既存の機能はオミットしています。
今回からYahoo!ボックスを利用してみます。
使い方はα版ということで省略。分からないときはコメントまで。

MMDAgent 1.1準拠 : NAIP2 α版

【音響モデル構築 その3】
ようやく503個のwavファイルを用意できまして、なんとか音響モデルが構築できました。デキは過去作ったモデルの中では一番マシ。でもまだ滑舌はいまいち。これは学習データに依存するので仕方がない。V3とぼかりすに期待しておこう。

本来どんな学習データからでも音響モデルを構築出来ます。極端な話アニメやゲームの音声からでも構築できます。しかしフルコンテキストのラベル付け法則がわからないためラベルの自作が困難なため、予めラベルが用意されている503文章でしかモデル構築できないのが現状です。情報求む。
スポンサーサイト

テーマ : プログラミング
ジャンル : コンピュータ

コメントの投稿

非公開コメント

話者適応プログラム

話者適応プログラムというのを見つけました。

この第6章にマニュアルがあります。一般に公開されているものなのかどうか問い合わせ中。
http://www.ar.media.kyoto-u.ac.jp/dictation/doc/phone_m.pdf

問い合わせの返事が来ました。マニュアルもプログラムもわからないそうです。しかし、自分で見つけました。

http://www.ar.media.kyoto-u.ac.jp/dictation/

にアクセスして、

CD-ROM配布終了のお知らせ
IPA版日本語ディクテーション基本ソフトウェアCD-ROMの配布は
終了しています。
同ソフトのIPA最終版(1999年度版より新しいもの)は、オーム社から
出版されている
IT Text 音声認識システム
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄
ISBN4-274-13228-5
定価: 3,500円
の付録についています。
また、本ソフトの開発は、 情報処理学会連続音声認識コンソーシアム
で引き続き行なわれています。

だそうです。手元の本のCD-ROMに話者適応プログラム(phone_m)が
あるのを確認しました。

嵯峨山先生からまたメールが来ました。話者適応を20年間研究しているそうです。わからなくなったら聞いてみるのもいいかも。

http://www.ar.media.kyoto-u.ac.jp/seminar/onsei1108.html
紹介して頂きましたが、こんなセミナーもあるんですね。もう今年は
終わっていますが。

VFSは嵯峨山先生の提唱した話者適応法だそうです。

連絡先はこちら

http://hil.t.u-tokyo.ac.jp/~sagayama/

ラベル付けについて

ラベル付けは日本語の43音素表記で表記されるようです。これは日本音響学会の音声データベース委員会で策定されたものに基づいており、a:~o:は長母音を、qは促音を表すそうです。ポーズに関しては、silB、silE、spの3種類のモデルがあり、これらはそれぞれ、文頭・文末・文中のポーズに対応しているそうです。ポーズのモデル自身はコンテキスト独立であるが、spモデルは他の音素のコンテキストになり得るだそうです。

音素一覧

a i u e o a: i: u: e: o: N w y
p py t k ky b by d dy g gy ts ch
m my n ny h hy f s sh z j r ry
q sp silB silE

ラベル付けの実際

ラベルファイルは単純なテキストファイルです。だそうです。

0 6350000 sil
6350000 8500000 hai
8500000 121250000 sil

数字はラベルの開始時間と終了時間を表しており、0.635秒までと0.85秒以降がsil(無音区間をここではこう名付けている。)この間がhaiになります。(はいを録音)だそうです。

Re: ラベル付けの実際

> ブリスター さん

はじめまして、いろいろな情報ありがとうございます。
なるほど、トライフォンラベルですか。今度詳しく調べてみます。

せっかくですので、私の分かる範囲で実際のHTSの音響モデル構築についていくつか。
ブリスターさんからの情報の音素は自動ラベル付け時に使用するJuliusで実際に使用します。予め、ラベル付けしたい音声データに含まれる音素をファイルに指定しておき、それを元にJuliusがラベル付けをしてくれます。
デモを利用してラベル付けすると以下のようになります。

[ 0 2] -30.963865 silB
[ 3 8] -28.150524 a
[ 9 13] -26.995672 r
[ 14 22] -29.996647 a
[ 23 29] -25.814732 y
[ 30 34] -25.186621 u
[ 35 41] -25.067732 r
[ 42 47] -26.457541 u
[ 48 50] -27.571777 g
[ 51 62] -26.361643 e

ここで問題となるのが、JuliusとHTSでは一部音素記号が違うということです。実際は置き換えで対処できる程度の違いですが、私は最初ここで躓きました。で、自作プログラムを組んでHTS用にラベルを書き換えると以下のようになります。

0 200000 sil
300000 800000 a
900000 1300000 r
1400000 2200000 a
2300000 2900000 y
3000000 3400000 u
3500000 4100000 r
4200000 4700000 u
4800000 5000000 g
5100000 6200000 e

ちなみに、これをモノフォンラベルとしてHTSは学習します。HTSのデモの場合音声データと上記のモノフォンラベルと以下に示すようなフルコンテキストラベルの3つのデータからモデルを構築します。

0 200000 xx^xx-sil+a=r/A:xx+xx+xx/B:xx-xx_xx/C:xx_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:xx_xx#xx_xx@xx_xx|xx_xx/G:4_3%xx_xx-xx/H:xx_xx/I:xx-xx@xx+xx&xx-xx|xx+xx/J:2_9/K:2+5-26
300000 800000 xx^sil-a+r=a/A:-2+1+4/B:xx-xx_xx/C:07_xx+xx/D:02+xx_xx/E:xx_xx!xx_xx-xx/F:4_3#xx_xx@1_2|1_9/G:5_5%xx_xx-1/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26
900000 1300000 sil^a-r+a=y/A:-1+2+3/B:xx-xx_xx/C:07_xx+xx/D:02+xx_xx/E:xx_xx!xx_xx-xx/F:4_3#xx_xx@1_2|1_9/G:5_5%xx_xx-1/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26
1400000 2200000 a^r-a+y=u/A:-1+2+3/B:xx-xx_xx/C:07_xx+xx/D:02+xx_xx/E:xx_xx!xx_xx-xx/F:4_3#xx_xx@1_2|1_9/G:5_5%xx_xx-1/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26
2300000 2900000 r^a-y+u=r/A:0+3+2/B:xx-xx_xx/C:07_xx+xx/D:02+xx_xx/E:xx_xx!xx_xx-xx/F:4_3#xx_xx@1_2|1_9/G:5_5%xx_xx-1/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26
3000000 3400000 a^y-u+r=u/A:0+3+2/B:xx-xx_xx/C:07_xx+xx/D:02+xx_xx/E:xx_xx!xx_xx-xx/F:4_3#xx_xx@1_2|1_9/G:5_5%xx_xx-1/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26
3500000 4100000 y^u-r+u=g/A:1+4+1/B:xx-xx_xx/C:07_xx+xx/D:02+xx_xx/E:xx_xx!xx_xx-xx/F:4_3#xx_xx@1_2|1_9/G:5_5%xx_xx-1/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26
4200000 4700000 u^r-u+g=e/A:1+4+1/B:xx-xx_xx/C:07_xx+xx/D:02+xx_xx/E:xx_xx!xx_xx-xx/F:4_3#xx_xx@1_2|1_9/G:5_5%xx_xx-1/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26
4800000 5000000 r^u-g+e=N/A:-4+1+5/B:07-xx_xx/C:02_xx+xx/D:13+xx_xx/E:4_3!xx_xx-1/F:5_5#xx_xx@2_1|5_5/G:3_1%xx_xx-0/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26
5100000 6200000 u^g-e+N=j/A:-4+1+5/B:07-xx_xx/C:02_xx+xx/D:13+xx_xx/E:4_3!xx_xx-1/F:5_5#xx_xx@2_1|5_5/G:3_1%xx_xx-0/H:xx_xx/I:2-9@1+2&1-5|1+26/J:3_17/K:2+5-26

このフルコンテキストラベルが曲者で、英語のマニュアルはあるんですけどイマイチ法則が分からないんですよね。まあ、現状ではHTSデモのラベルのフレーム数値と音声データを差し替えることでなんとか音響モデルの構築が出来るようになっています。

音響モデルの構築に興味をお持ちでしたら、一度実際にHTSのデモを動かしてみるといいと思います。
新しい情報やわからないところなどありましたら気軽にコメントしてください。

No title

ご存じだとは思うのですが、HTSをはじめとするツールでの音響モデルの
日本語構築マニュアルに以下のものがあります。音素セグメンテーションにJuliusを使用して、初期モデル(モノフォン)の学習を行うのは一緒ですね。

これはキットに含まれるsegment.plによって決められているそうです。

sil(silent・無音・ポーズ)ですが、日本ではsilB(文頭)になっているようですね。

wavesurfer(http://www.speerch.kth.se/wavesurfer)が便利なようです。

次にモノフォンHMMから、コンテキスト依存型HMMに変換するようですね。
お、マニュアルにフォーマットありました。長いので転記はしませんが。

ftp://ftp.iij.ad.jp/pub/sourceforge.jp/galateatalk/22209/VoiceMaker-doc-1.0.pdf

ftp://ftp.iij.ad.jp/pub/sourceforge.jp/galateatalk/26798/VoiceMaker-doc-1.1.pdf

http://sourceforge.jp/projects/galateatalk/

のマニュアルみたいです。


わからないところ

デモを利用してラベル付けすると以下のようになります。

[ 0 2] -30.963865 silB
[ 3 8] -28.150524 a
[ 9 13] -26.995672 r
[ 14 22] -29.996647 a
[ 23 29] -25.814732 y
[ 30 34] -25.186621 u
[ 35 41] -25.067732 r
[ 42 47] -26.457541 u
[ 48 50] -27.571777 g
[ 51 62] -26.361643 e

ここで問題となるのが、JuliusとHTSでは一部音素記号が違うということです。実際は置き換えで対処できる程度の違いですが、私は最初ここで躓きました。で、自作プログラムを組んでHTS用にラベルを書き換えると以下のようになります。

0 200000 sil
300000 800000 a
900000 1300000 r
1400000 2200000 a
2300000 2900000 y
3000000 3400000 u
3500000 4100000 r
4200000 4700000 u
4800000 5000000 g
5100000 6200000 e

引用終わり

 juliusのはき出すラベルデータの見方がわからないですね。
[ 0 2] -30.963865 silB が0.2秒まで無音、silBをsilに置換、
はいいとして-の数値は何でしょうか?

プロクラムはPerlかなんかで組んだんですか?

それより、UNIX環境を整えることが自分は先決です。秀和システムの
『Ubundu入門キット』とインプレスジャパンのできる『Fedora12』を買い
ました。

『Fedora』は聞き慣れない名前ですが、あの『Redhat』の後継OSなの
ですね。『Ubundu』が『KNOPIX』みたいなものですか。

UNIXコマンドはある程度使えます。マックをコマンドラインで2ヶ月ほど
いじってたり、cygwinいじったりしたことはありますので。lsが
ディレクトリ移動なのに最初戸惑いましたが。

初音ミクも買いました。でも使い方よくわからないです。vokatalk(http://vocatalk.web.fc2.com/)なるソフトでデモ音声は
発話させることに成功しました。また、ニコの動画にあったUTAU
並びに発話プラグイン花篭(http://monopole.jimdo.com/)ですが、
これもうまくいっていますが、UTAUで作成したVSQファイルは
あくまでもリップシンク用の参考データらしいので、先のvocatalk
の方が発話データを集めるにはいいような気がします。

それでATR503なのですが、正式名称をATR音素バランス503文と
いい、約50文からなる10個のサブセットに分かれるそうです。
新聞・雑誌・小説・手紙・教科書のなどの文献から無作為に抽出した
約1万の文をもとに、音素環境をバランス下503文を選定している
そうです。

このATR503がどこにあるのかわからないです。
HTS-demo_NIT-ATR503-M001
はダウンロードして解凍しました。

あとubunduは仮想マシンでうごかしたことありますが、Fedoraも
同じですかね。Cドライブの容量足りなくて、初音ミクがインストール
できなかったので、クリーンインストールしてますが、大丈夫ですかね。

インストールできなかったら、PEN4マシンを安く買ってきてLINUX専用
マシンにしてしまおうかと計画中です。1万くらいで買えますからね。
それよりG620とかいう安い4万くらいのパソコンの方がいいですかね。G620は廉価版の軽い作業用のようです。調べたら。無理かなあ。

またスペック的にも気になります。私の持ってるパソコンはCORE2の
4GBです。速いにこしたことはないが、CPUスピードよりもメモリが
重要ってある文書に書いてあったのですが。

以上よろしくお願いします。

Re: わからないところ

> ブリスター さん

> juliusのはき出すラベルデータの見方がわからないですね。
> [ 0 2] -30.963865 silB が0.2秒まで無音、silBをsilに置換、
> はいいとして-の数値は何でしょうか?
> プロクラムはPerlかなんかで組んだんですか?

先のラベルデータはJuliusのHPで配布されている「音素セグメンテーションキット」を使用して得られた結果です。キットそのものはPerlスクリプトで組まれています。
で、-の数値は「フレーム平均の音響スコア」だそうです。簡単に言えば「フレーム平均内の音量」かと。たぶん単位はdB(デシベル)だと思います。


> 初音ミクも買いました。でも使い方よくわからないです。vokatalk(http://vocatalk.web.fc2.com/)なるソフトでデモ音声は
> 発話させることに成功しました。また、ニコの動画にあったUTAU
> 並びに発話プラグイン花篭(http://monopole.jimdo.com/)ですが、
> これもうまくいっていますが、UTAUで作成したVSQファイルは
> あくまでもリップシンク用の参考データらしいので、先のvocatalk
> の方が発話データを集めるにはいいような気がします。

正直私のほうもVocaloid2の使い方はあまり分かっていません。使用目的が特殊なので最低限wavへの書き出しさえ分かればよいかと。
発話データの集め方ですが、私が試した限りでは以下のようなものがあります。

1. vokatalkでwavファイルを作る。
2. 発話プラグイン花篭でvsqファイル作成後、Vocaloid2でwavファイルへ書き出す。
3. MIKU_TALK WEBアプリケーション(http://homepage3.nifty.com/akira-izumi/index.html)でvsqファイル作成後、Vocaloid2でwavファイルへ書き出す。
4. MikuMikuVoiceでvsqファイルを作成後、Vocaloid2でwavファイルへ書き出す。

今回私は3.の方式で発話データを揃えました。10個程度のファイルで試した限りだと、4.がもっとも質が良いですが手間がかかります。1.や2.はマスク処理できるので大量の発話データを作成するには向いていますが、反面質が低いです。質もそこそこで手間を考えた結果、3.の方法が良いかと。まあテストでそれぞれの方法で50ファイル程度用意してみて比較してみるのも面白いかも知れません。もし要望があれば今回使用したvsqファイルの一部を公開しますが。


> このATR503がどこにあるのかわからないです。
> HTS-demo_NIT-ATR503-M001
> はダウンロードして解凍しました。

ATR503文章は以下のHPからダウンロードできる「atr_503_v1.0.tar.gz」の中に「sentence.txt」があるのでこれを参考にしてもらえばよいかと。
HTS-demo_NIT-ATR503-M001に含まれる発話データはrawフォルダに「.raw」という変わった拡張子のものです。rawファイルとwavファイルの相互変換は、私の場合「Switch Sound File Converter」というソフトを使用しています。

HP http://sourceforge.jp/projects/galateatalk/releases/22207


> あとubunduは仮想マシンでうごかしたことありますが、Fedoraも
> 同じですかね。Cドライブの容量足りなくて、初音ミクがインストール
> できなかったので、クリーンインストールしてますが、大丈夫ですかね。

私の場合Fedoraも仮想マシンで動かしてます。基本的にどのLinuxでもできます。ubuntuでもできると思います。私の場合は過去にFedoraをいじったことがあったのでその名残でFedoraを使用しているだけです。
初音ミクをインストールするPCはできるだけスペックが高いほうが良いと思います。アクティベートの関係で後から別のPCへインストールすることが難しいので。まあ、無理に買い換えるほどでは無いと思います。
Linuxにしてもスペックが高ければモデル構築の時間が短くなりますが、どちらにしろ学習に長時間(6~12時間)かかります。とりあえず現状のまま仮想マシンで試してみて、動作に不満が出るようなら購入を検討してみるのが良いではないでしょうか。

mikumikuvoiceの元データのヒント&話者適応プログラム

早速のお返事ありがとうございます。

mikumikuvoiceでのwaveファイル生成が一番質が高いそうですが、
元となる読み上げwaveデータを用意するのが一苦労ですね。

ATR503文章をアナウンサーが読み上げた音声ファイルが無償で
配布されているそうです。rawファイルですが。

http://research.nii.ac.jp/src/list/detail.html#RWCP-SP99

今みたらATR503のAセット50文だけですが、評価には十分かと。

個人でも入手できるのかどうか問い合わせ中。

また先の話者適応プログラムですが、先の文章に加筆しましたが、
オーム社の本についてくるようです。また話者適応の第一人者とも
連絡が取れました。詳しくは先の文章にまとめましたので。

初音ミクはXPをクリーンインストールした、コア2のマシンに入れました。
とりあえずFedoraをバーチャルマシンで動かしてみます。

音響モデルの構築はそれからだなあ。



発話データとLINUXのインストール

> 発話データの集め方ですが、私が試した限りでは以下のようなものがあります。
>
> 1. vokatalkでwavファイルを作る。
> 2. 発話プラグイン花篭でvsqファイル作成後、Vocaloid2でwavファイルへ書き出す。
> 3. MIKU_TALK WEBアプリケーション(http://homepage3.nifty.com/akira-izumi/index.html)でvsqファイル作成後、Vocaloid2でwavファイルへ書き出す。
> 4. MikuMikuVoiceでvsqファイルを作成後、Vocaloid2でwavファイルへ書き出す。
>
> 今回私は3.の方式で発話データを揃えました。10個程度のファイルで試した限りだと、4.がもっとも質が良いですが手間がかかります。1.や2.はマスク処理できるので大量の発話データを作成するには向いていますが、反面質が低いです。質もそこそこで手間を考えた結果、3.の方法が良いかと。まあテストでそれぞれの方法で50ファイル程度用意してみて比較してみるのも面白いかも知れません。もし要望があれば今回使用したvsqファイルの一部を公開しますが。

マスク処理といいますと、自動バッチ処理のようなものでしょうか。それができるのは、
1.だけかと思います。1.は1パス、2.3.はVSQファイル生成後のWAVEファイル生成なので、
2パスになりますね。しかも、2.3.は形態素分析してくれるので漢字仮名交じりでいいもののボックスに手入力になりますね。UTAUのVSQファイル書き出しがわからない。というか花篭が動作しなくなってしまいました。3.はVSQファイルの名前がよくわからないのがネックです。4.は生声waveファイルをミク声に変換するものなので、生声データを用意する必要がありますね。私は1.の方法でATR503Aグループ50個をミク声WAVEファイルに
変換することに成功しました。「sentence.txt」の冒頭に◆をつけ、改行して、漢字文を
削除、ひらがな文のみにするのを50個手作業で行いましたが、何かスクリプトで自動化
できそうですね。文章の用意に20分、WAVEデータの生成に40分くらいでしょうか。

> 私の場合Fedoraも仮想マシンで動かしてます。基本的にどのLinuxでもできます。ubuntuでもできると思います。私の場合は過去にFedoraをいじったことがあったのでその名残でFedoraを使用しているだけです。
> Linuxにしてもスペックが高ければモデル構築の時間が短くなりますが、どちらにしろ学習に長時間(6~12時間)かかります。とりあえず現状のまま仮想マシンで試してみて、動作に不満が出るようなら購入を検討してみるのが良いではないでしょうか。

 仮想マシンをインストールしようとしましたが、VirtualBOXは一時フォルダに入るものの実行を押すと、フォルダが見つかりませんだったかのエラーが出て、インストールできません。VMwarePlayerはインストールできたのですが、Fedoraのインストールでディレクトリのところでインストールがエラーが出て止まります。

Ubunduで試してみて、だめだったら、中古のLINUX専用機を購入を検討したいと思います。

Ubuntuのインストール

VMwareplayerにUbuntuのインストール簡単にできました。

コマンドラインももちろん使えるようですが、ダウンロードとインストールで
つまっています。ダウンロードとかインストールも仮想マシンのLINUX上で
行わなくてはならないのでしょうか。

仮想マシンのLINUXからはインターネットにアクセスできないようですね。

インターネット接続できました。

あれこれいじっていたら、インターネット接続できました。また、必要なソフトのダウンロードおよびインストールもできました。

後はコンパイルだなあ。gccが標準でubuntuには入っているようですが、
それでうまくいくかどうかです。

Re: インターネット接続できました。

> ブリスター さん

私の方でもUbuntuで試してみましたが、問題なく音響モデルは構築できました。
vokatalkですが、確か「わ」と「は」、「へ」と「え」の変換設定が甘かったような気がします。あと、歌詞の流し込み処理時に文字数限界に達したことがあったので今回は使用しませんでした。
因みにMIKU_TALK WEBアプリケーションを使用して503個のwavファイルの作成は大体12時間くらいで出来ます。

UbuntuとvokatalkとアナウンサーATR503Aグループ発話データ

> 私の方でもUbuntuで試してみましたが、問題なく音響モデルは構築できました。

またご教示願いたいんですが、コンパイル(最近はビルドって言うんですか)の方法を以前MMDagentNAIP版のVC2008によるコンパイルの記事があったみたいにまとめてもらえませんか。プログラムは泥史郎縄田氏には難しすぎる。Juliusだけはバイナリパッケージありましたので、そのまま解凍しましたが、あとは解凍したのみです。基本的にmakeコマンドを使うだけだと思うのですが、エラーが出てうまくいかない。

> vokatalkですが、確か「わ」と「は」、「へ」と「え」の変換設定が甘かったような気がします。あと、歌詞の流し込み処理時に文字数限界に達したことがあったので今回は使用しませんでした。

「わたしのなまえははつねみくです。」としゃべらせたときの「わ」と「は」が同じ発音になっている(わたしのなまえわはつねみくです)でしょうか。

これは話し言葉では「は」は「わ」と発音しているので私は違和感感じませんでしたが人によるのでしょうね。

また文字数限界ですが現在ATR503CセットまでWAVEファイル生成がおわっていますが、いままでありませんでしたね。これも環境によるのかな。

TIPSですが、ATR503文の整形(文頭に◆を付加、;で改行)は
その名もずばり「テキスト
整形(http://www.vector.co.jp/soft/winnt/util/se161119.html)
が便利でした。

漢字文の削除にはワード2007を使用しました。ワードの欄外でクリックで一行選択、ダブルクリックで段落選択という便利な機能がありますので。

> 因みにMIKU_TALK WEBアプリケーションを使用して503個のwavファイルの作成は大体12時間くらいで出来ます。

先のTIPSでテキスト整備して、短文登録アプリでも使えば、もっと短縮できそうですね。試してみます。

あと、アナウンサーのATR503発話データですが、「音声合成システムの性能評価のため」ということであれば、誓約書の提出で一般にも無償で頒布していただけるそうです。ただしあくまでも研究用で2次利用はできないとのことでした。毎年度簡単な活動報告書を提出する必要もあるそうです。今日誓約書提出してきました。

他に使えそうな音声データベースとしては、日本音響学会の音声データベースがあります。これりにATR音素バランス文連続音声コーパスというのがあり、15機関の協力で64名の話者(成人男性30名 成人女性34名)による、のべ9600文のデータだそうです。ATR音素バランス文は約50文からなる10個のサブセット(a~j)にわかれますが、各話者は全話者共通のサブセット一つと、残りの9つのサブセットのうちの中から指定された2つのサブセット(約150文)を発話したというもので、これも研究利用目的のためにCDROM8巻で頒布されているそうです。連絡とってみます。
ちなみに連絡先は同じところでした。有償音声コーパスになるので、CD3巻に送料で2500円くらいですね。これも問い合わせ中。


Re: UbuntuとvokatalkとアナウンサーATR503Aグループ発話データ

> ブリスター さん

> またご教示願いたいんですが、コンパイル(最近はビルドって言うんですか)の方法を以前MMDagentNAIP版のVC2008によるコンパイルの記事があったみたいにまとめてもらえませんか。

 基本的には以前紹介したHP(http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/108.html)を参考にしてもらえればなんとかなると思いますが、こちらでも最新バージョンのものでまとめてみます。ブログにまとめるには文量が多いので、専用wikiの「音響モデルの作成」のページにまとめてます。

 ちなみに私はUbuntu8.04で試したのですが、「sox」というソフトがデフォルトではインストールされていなかったためエラーが出ることがありました。他の参考サイトではあまり「sox」について触れてないので、使用しているUbuntuにインストールされているかチェックしてみてください。

 私の方はようやくJuliusの認識問題や話者依存学習時の認識問題がクリアする方法が分かったので、今週中にはもう一度503文フルセットで音響モデルを構築する予定です。

日本音響学会の音声データベース

日本音響学会の音声データベースですが、有償コーパスのため手続きが煩雑になるものの個人でも頒布して頂けるそうです。

vol1~vol3で2625円になります。

誓約書と収入先証明書の提出が必要になりますが、どちらも住所氏名を書いてはんこ押すだけです。収入先証明書がエクセルフォーマットなので注意です。

先日提出してきました。こちらの音声コーパスは多数と言うことで、音声認識用の感じはしますが、一応。

話者適応プログラムについて

はじめまして
HTSの音響モデルの構築についていろいろ参考にさせてもらっています。
ニコニコ動画の初音ミクの音響モデル見ました。
503文もお疲れ様です。できればどのようにして503文もミクさんにしゃっべってもらったのか参考にさせてほしいです。
フリーソフトのUTAUに喋りのプラグイン「花篭」を入れてVSQファイルを生成しただけでは、音響モデル構築時にロボロボしい声に、、、

後、話者適応学習ではhtkを用いたものばかりで、HTSを使ってのものが見つかりませんでした。参考になりそうなサイトなどがあれば教えてほしいです。
また、適応学習で使用するfestivalの使い方が乗ってるサイトとかあれば教えてほしいです。情報がインストールのみのサイトばかりだったので、、、
使い方がわかればデモのfestivalで使用するuttファイルを差し替えることができると思うのですが。

音響モデルの構築、がんばってください。

Re: 話者適応プログラムについて

> アキヒロ さん

こちらこそ、はじめまして。アキヒロさんのブログと動画のほうも拝見させていただきました。
MMDAgentは公開から半年程度でまだ情報が足りなかったりHTSの方も情報が古かったりなど、全体的に情報不足が否めないのでいろいろな情報を共有できたらいいなって思ってます。
情報なんかはwikiのほうにまとめていきますので参考にどうぞ。構築時の気づきなどもメモしてたりしますので。
当初の目的から脱線気味ですが。

・ミクさんの503文について
ブリスターさんとのやり取りにも書きましたが、今回は
 MIKU_TALK WEBアプリケーション(http://homepage3.nifty.com/akira-izumi/index.html)
を利用して503個のvsqファイルを作成しました。基本手作業です。503文のwavファイル揃えるのに12時間くらいかかりました。
ミクさんを喋らせるツールはいくつかありますが、MIKU_TALK WEBアプリケーションが個人的には一番バランスが良いと判断しました。出来上がった音響モデルはロボ声ではないけど無表情の棒読みになってしまいましたが。
あと、これは最近気づいたことですがラベル付けに利用しているJuliusがwavファイルを読み込めずエラーを起こしていることがありました。もし、作成した音響モデルがサンプリングデータからかけ離れていたりしたらおそらくラベル付けに失敗しているかと。ラベル付け時のログを参照すると分かります。(正確には前から気づいていたが対処法がわからなかった)

・話者適応学習について
正直私の方でも調査している段階で参考になるような有益な情報がありません。すいません。
というか、デモがうまく動作していないので。
しばらくは、話者依存を基本に進めていこうかと。

話者適応学習について

http://www.itmedia.co.jp/news/articles/1010/07/news052.html
より

> 大浦助教 そうですね。VOCALOIDでは波形が出せますが、「VOCALOIDにしゃべらせてみた」といった、トークロイド系のVSQファイルを30個ほど収集し、それらから作った合成音声波形をモデル学習用のデータとして用いました。全体を通した長さは数分くらいです。これにHTSの話者適応2 件の手法を使って元の話者の声質を真似ると、デモしたような、初音ミクっぽい声質の音響モデルができます。

名工大による話者適応デモ

http://www.sp.nitech.ac.jp/index.php?%A5%DB%A1%BC%A5%E0%2F%A5%C7%A5%E2%A5%F3%A5%B9%A5%C8%A5%EC%A1%BC%A5%B7%A5%E7%A5%F3%2F%CF%C3%BC%D4%C5%AC%B1%FE

それでHTSの開発者らしい大浦助教授に質問のメールだそうとしたら、メーリングリストでやれとホームページに書いてあったので、早速入って過去ログ読んだら、冒頭から話者依存学習の話題でした。

そのやりとりは、過去ログなのでWEBでも読めるようです。

http://hts.sp.nitech.ac.jp/hts-users/spool/2011/



msg000000.html

の2670 synthesizing waveforms using hts_engine

からたどってください。話者適応学習デモを動かすことに成功したが、
音響モデルの適用にググっても情報がないというので質問している
人のようです。

HTSとFestival用の話者適応プログラムを見つけました。

http://homepages.inf.ed.ac.uk/jyamagis/software/page37/page37.htm

簡易型しか公開されていませんが、GUIで使い勝手は良さそうです。
l
Festivalの導入はマニュアルが多いものの、音声合成や話者適応は
情報が少ないとのこと、それを含めた使い方の解説はこちら。
日本語音声の作り方とか参考にならないでしょうか。

http://www.festvox.org/bsv/

名工大に話者適応についてメールを出したところ、早速返事が来ました。
HTSに話者適応の機能はあるものの、大学・企業の専門家向けの
ソフトウェアとのことです。一般向けソフトの実用化に向けて、動いている
ので、お待ちくださいとのこと。




vokatalkとMIKU_TALK

vokatalkによるATR503文音声データの生成が終わりました。センテンステキストをSJISに変換して、エクセル2007にカンマ区切りで読み込ませ、A列に★を追加、タブ区切りで書き出して、テラエディタ
でタブ除去と改行を行ってあっという間に台本テキストのできあがりです。WAVEデータの書き出しには、コア2マシンで352文に5時間かかりました。

MIKU_TALKのほうも、短文登録ソフトとマクロソフトで、半自動化できました。
同じやり方で、漢字文を503文用意し、短文登録ソフト(もじもじクリッパーを使用)とマクロソフト(UWSCを使用)で、かなり速くできましたが、半自動化なのでただ待ってるだけというわけにはいかないですね。でも12時間よりは短縮できるかと思います。

あとはLINUXのパス指定の問題だけだなあ。

Re: vokatalkとMIKU_TALK

> ブリスター さん

> あとはLINUXのパス指定の問題だけだなあ。

 どこらへんが問題になってますか?

LINUXのパス

UbuntuでGUI上でhome/blister下に作った?HTK/htk/ディレクトリの中にHTSパッチをGUIで
展開してpatchコマンドを実行しても、ファイルや
ディレクトリがありませんとのエラーが出ます。

Re: LINUXのパス

> ブリスター さん
> UbuntuでGUI上でhome/blister下に作った?HTK/htk/ディレクトリの中にHTSパッチをGUIで
> 展開してpatchコマンドを実行しても、ファイルや
> ディレクトリがありませんとのエラーが出ます。

実際の環境を目にしているわけではないのでアドバイスは難しいのですが、おそらくpatchコマンド実行時のカレントディレクトリ(現在作業しているフォルダという考え方)が間違っているのではないでしょうか?
「cd」コマンドでカレントディレクトリを移動したあとにpatchコマンドを実行しないと、エラーが出たりします。
基本的にはwikiに書いたコマンド例のパス部分のみを読み替えてもらえば、いけるはずなのですが・・・。
プロフィール

CUBE370

Author:CUBE370
MMDAgent用の誰得プラグインを作ってます。
MMDAgentに関する情報や自作プラグインについて書いてます。

技術的なことはwikiのほうにまとめてます。
http://cube370.wiki.fc2.com/

つぶやき
最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
FC2カウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。