スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

音響モデルネタ

【音響モデルネタ】
最近OpenJTalk_windowsなるソフトが公開されました。
OpenJTalkをWindows上で面倒な設定をせずに簡単に利用できるソフトです。
このソフトしゃべらせた内容のログを出力する機能があります。
重要なのはこのログのなかに読み上げたセリフのフルコンテキストラベルがあることです。

いままで音響モデルを作るときはATR503文の読み上げデータが必要でした。
これは学習時に必要なフルコンテキストラベルが自作できなかったからです。
このため音声データをラベルに合わせる必要がありました。

しかし、OpenJTalk_windowsのログからフルコンテキストラベルを取り出せば任意の音声データから音響モデルを作れるようになるわけです。

手順としては音声データを用意して、音声データのセリフをOpenJTalk_windowsで読み上げさせログを出力させます。
出力させたログからラベル部分を抽出して、各ラベルを作ります。
あとは音響モデルを自作するときと同じようにJuliusでラベリング後、学習させるだけです。

で、実際に適当に用意した音声データから音響モデルを作ってみたわけです。
結論から言うと、この方法で任意の音声データから音響モデルを作れます。
ただし、音声データの選別やラベルの作成など結構手間がかかります。
自分は250個くらいデータを用意したあたりで挫折しました。
興味のある方はやってみてください。
スポンサーサイト

テーマ : プログラミング
ジャンル : コンピュータ

コメントの投稿

非公開コメント

プロフィール

CUBE370

Author:CUBE370
MMDAgent用の誰得プラグインを作ってます。
MMDAgentに関する情報や自作プラグインについて書いてます。

技術的なことはwikiのほうにまとめてます。
http://cube370.wiki.fc2.com/

つぶやき
最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
FC2カウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。