研究室の片隅で○○を叫ぶ: Mac OS X Lion で OpenJTalk-1.05 を動かす

Use OpenJTalk-1.05 with Mac OS X Lion.

1.0が出た頃に使って以来、久々に使ってみました。

本家URL:
- hts_engine API http://hts-engine.sourceforge.net/
- Open JTalk http://open-jtalk.sourceforge.net/

参考URL:
- てくてくラボ - Open JTalk
http://ja.nishimotz.com/open-jtalk
- ぽち＊ぷ～ち - Open JTalk で音声合成して日本語テキスト読み上げ
http://pochi.usamimi.info/linux/open_jtalk.html
- まほろば- オープンソース音声合成エンジン「Open JTalk 1.05」
http://mahoro-ba.net/e1569.html
- WebMemo! - OpenJTalkを使ってみる。
http://www.geocities.jp/humanrace96/OpenJTalk104.html

Windows版に関して:
VS2005 … http://naoh16.seesaa.net/article/140482825.html
VS2008 … http://neu101.seesaa.net/article/141634682.html

とりあえず、インストール手順については他のサイトと同様です。

環境：
iMac 27inch (2009年12月製？, Mac OS X 10.7 Lion; upgrade from SnowLepard)
Xcode 4.1

インストールは、/usr/local/OpenJTalk以下に入れて見ました。

your_username, your_groupnameは自分の環境に合わせて書き換えてください。
また、最新版を使う場合には、cvsのオプションで -r ver-1-05 などを -r HEAD にすればOK。
もちろん、tar.gzを普通にダウンロードしてもOKです。cvsだとダウンロードが遅いので・・・

インストール先の準備

$ cd /usr/local
$ sudo mkdir OpenJTalk
$ sudo chown your_username:your_groupname OpenJTalk
$ mkdir -p src bin lib include dic voice

HTS Engine 1.06のインストール

$ cd /usr/local/OpenJTalk/src/
$ cvs -z3 -d:pserver:anonymous@hts-engine.cvs.sourceforge.net:/cvsroot/hts-engine co -d hts_engine-1.06 -r ver-1-06 hts_engine_API/src
$ cd hts_engine-1.06
$ ./configure --prefix=/usr/local/OpenJTalk CFLAGS='-O3 -arch x86_64'
$ make && make install

Open JTalk 1.05のインストール

$ cd /usr/local/OpenJTalk/src/
$ cvs -z3 -d:pserver:anonymous@open-jtalk.cvs.sourceforge.net:/cvsroot/open-jtalk co -d open_jtalk-1.05 -r ver-1-05 open_jtalk/src
$ cd open_jtalk-1.05
$ ./configure --prefix=/usr/local/OpenJTalk ¥
    --with-hts-engine-header-path=/usr/local/OpenJTalk/include ¥
    --with-hts-engine-library-path=/usr/local/OpenJTalk/lib ¥
    CFLAGS='-O3 -arch x86_64'
$ make && make install

makeの途中で辞書のコンパイルがうまくいっていない場合のみ、
辞書のバイナリパッケージをダウンロードして、/usr/local/OpenJTalk/dic 以下に展開しましょう。

HTS Voice "NIT ATR503 M001" version 1.04 のインストール

$ cd /usr/local/OpenJTalk/voice
$ curl -L http://sourceforge.net/projects/open-jtalk/files/HTS%20voice/hts_voice_nitech_jp_atr503_m001-1.04/hts_voice_nitech_jp_atr503_m001-1.04.tar.gz/download ¥
$ | tar xvzf /dev/stdin
$ ln -s hts_voice_nitech_jp_atr503_m001-1.04 m001

curlの行は長いですが一行でDLから解凍までやっています(-Lはsourceforgeの302対策)。
名前が長すぎるのでシンボリックリンクもついでに作っています。

また、こちらのモデルファイルについては1.02までは16000Hzサンプリングのモデルで、
1.03以降では48000Hzサンプリングモデルになっています。mei音響モデルも48000Hzのモデルのようです。

コマンドを試してみる。

が、オプションが多いです・・・
完全には理解できていませんが、ここでは設定を別のファイルに落としこんで、
ラッパースクリプトから使う形にしてみます。

以下の場所に配置するファイルとして、Gistからダウンロードして下さい。
- /usr/local/OpenJTalk/voice/m001/openjtalk.conf
- /usr/local/OpenJTalk/bin/open_jtalk.sh

別のディレクトリにOpenJTalkをインストールした場合は、open_jtalk.shの中身を書き換えてください。

openjtalk.confには必須パラメータ、推奨パラメータ、任意パラメータに分けて書いています。
推奨パラメータ部分はモデルやユーザの希望に応じて変更すれば良いです。

ちなみに、幾つかの参考ページを幾つか見ていたところ-aがすごいことになっていますが、
モデルを自分で作られたという方は、

-a はメル周波数ワーピングのためのパラメータですね．16kHzですと0.42が典型的な値です．20kHzだと0.44，22.05kHzだと0.45です．

とのことです。

また、合成する音声はモデルの周波数帯域にあわせて置く必要があります。
-sの指定で無理やり低いサンプリングレートの生成をしてから、
-aで周波数軸の引き伸ばしをすれば使えなくはないでしょうが、品質の面からは全くお勧めできません。
必要なら、その後にsoxなどでダウンサンプリングしましょう。

# 全様、ありがとうございました！
# https://twitter.com/#!/heigazen/status/161772650379751425

さて、スクリプトの使い方ですが、適当なテキストファイルを作って（例えば、sample.txt）、

    $ /usr/local/OpenJTalk/bin/open_jtalk.sh m001 sample.txt

とすると、sample.wavが生成されます。（第三引数で明示的に出力ファイルも指定できます）

以下、必須パラメータのみ（sample_48k_nolpf.wav）、
任意パラメータlow-passあり（sample_48k_lpf.wav）、
任意パラメータGlobal Varianceあり（sample_48k_gv.wav; READMEの記載通り）の合成結果を掲載します。

図は順番に、音声波形の振幅表示、スペクトログラム（24k）、スペクトログラム（8k）となります。
# スペクトログラムはaudacityを利用しました。元音声は48kサンプリング、FFT4096ポイントです。参考程度にお考え下さい。

また、音声ファイルも以下で聞くことができます。違いを聞き分けるのは・・・難しいですね。

Open JTalk sample by naoh16

研究室の片隅で○○を叫ぶ

Add line number to gist

My Styles

2012年1月25日水曜日

Mac OS X Lion で OpenJTalk-1.05 を動かす

インストール先の準備

HTS Engine 1.06のインストール

Open JTalk 1.05のインストール

HTS Voice "NIT ATR503 M001" version 1.04 のインストール

コマンドを試してみる。

0 件のコメント:

コメントを投稿