音声認識
rospeexを経由しない音声認識
特徴
確認動作環境
OS | Microsoft Winodws 7 64bit |
言語 | Python 2.6 |
OpenRTMのバージョン |
OpenRTM-aist (Python版) 1.1.0-RC1 |
注意事項 | インターネット接続が必要です |
インストール
RtcPeexのダウンロード
ダウンロードして、解凍してください。
616vbjemfil._aa1000_.jpg
ファイル構成
RtcPeex
|- RtcPeex.py : RTC本体
|- rtc.config : 動作周期などの設定を行います
コンポーネントの構成
データポート
名前 | ポート | データ型 | 説明 |
speechIn | InPort | TimedWString | 発話する文字データを入力 |
コンフィグレーション
名前 | データ型 | 説明 |
debug | int | 1: デバッグモード |
使い方
(1)音声入力コンポーネント(.py)を起動します。
Google音声入力
音声合成
非モノローグ音声合成
特徴
確認動作環境
OS | Microsoft Winodws 7 64bit |
言語 | Python 2.6 |
OpenRTMのバージョン |
OpenRTM-aist (Python版) 1.1.0-RC1 |
注意事項 | インターネット接続が必要です |
インストール
RtcGoogleSpeechのダウンロード
ダウンロードして、解凍してください。
rtcnon-monologuespeech.zip
ファイル構成
RtcNon-monologueSpeech
|- RtcNonMonoSpeech.py : RTC本体(TimedStringで入力)
|- RtcNonMonoSpeechW.py : RTC本体(TimedWStringで入力)
|- cmdmp3.exe : 音声の再生
|- rtc.config : 動作周期などの設定を行います
|- ConsoleIn.py : テスト用のコンポーネントです。コマンドラインから文字列を入力します。
コンポーネントの構成
データポート
名前 | ポート | データ型 | 説明 |
speechIn | InPort | TimedWString | 発話する文字データを入力 |
コンフィグレーション
名前 | データ型 | 説明 |
debug | int | 1: デバッグモード |
使い方
(1)非モノローグ音声合成コンポーネント(RtcNonMonoSpeechW.py)を起動します。
同梱のConsoleIn.pyを使ってコマンドプロンプトから発話させたい文字列を入力してください。
Google音声合成
特徴
確認動作環境
OS | Microsoft Winodws 7 64bit |
言語 | Visual Studio 2010 C# |
OpenRTMのバージョン |
OpenRTM.NET-1.3.1 (株式会社セック) |
注意事項 | GoogleAPIKit(Ver0.12)を利用しています |
※日本語の送受信について
C#(.NET)やJavaのCORBAでは、string型で日本語などのマルチバイト文字の送受信ができないようになっています。そのため、日本語を送受信するためには、wstring型や、octet型の配列を使う必要があります。
国際化文字列はstring型よりはwstring型使う方がより正規の(?)方法のようです。
本コンポーネントでは発話する文字列をwstring(TimedWString)型で受けます。
インストール
RtcGoogleSpeechのダウンロード
ダウンロードして、解凍してください。
rtcgooglespeech.zip
ファイル構成
RtcGoogleSpeech
|- RtcGoogleSpeech.exe : RTC本体です
|- cmdmp3.exe : 音声の再生
|- RtcGoogleSpeech.config : 動作周期などの設定を行います
|- rtc.config
|- ConsoleIn.py : テスト用のコンポーネントです。コマンドラインから文字列を入力します。
コンポーネントの構成
データポート
名前 | ポート | データ型 | 説明 |
speechIn | InPort | TimedWString | 発話する文字データを入力 |
コンフィグレーション
名前 | データ型 | 説明 |
debug | int | 1: デバッグモード |
使い方
(1)Google音声出力コンポーネント(RtcGoogleSpeech.exe)を起動します。
同梱のConsoleIn.pyを使ってコマンドプロンプトから発話させたい文字列を入力してください。
VOICEROIDによる音声合成
特徴
AH-Softwareの入力文字読み上げソフトVOICEROID,VOICEROID+シリーズを使った音声出力コンポーネントです。
入力された日本語テキストに基づいて以下のような流れで、音声を生成します。
文字入力→RtcVoideRoid→棒読みちゃん→棒読みちゃんプラグインVoiceloidTalkPlus →VOICEROIDシリーズ
確認動作環境
OS | Microsoft Winodws 7 64bit |
言語 | Visual Studio 2010 C# |
OpenRTMのバージョン |
OpenRTM.NET-1.3.1 (株式会社セック) |
注意事項 | 下記のプログラムを使用しています |
●VOICEROID, VOICEROID+シリーズの何れか ●棒読みちゃん Ver0.1.11.0 Beta12 ●棒読みちゃんプラグイン VoiceroidTalkPlus Ver.5.0.0.0 |
※日本語の送受信について
C#(.NET)やJavaのCORBAでは、string型で日本語などのマルチバイト文字の送受信ができないようになっています。そのため、日本語を送受信するためには、wstring型や、octet型の配列を使う必要があります。
国際化文字列はstring型よりはwstring型使う方がより正規の(?)方法のようです。
本コンポーネントでは発話する文字列をwstring(TimedWString)型で受けます。
インストール
VOICEROIDシリーズの購入とインストール
VOICEROIDシリーズを購入しインストールします。
以下のVOICEROIDでの動作を確認しています。
棒読みちゃん Ver0.1.11.0 Beta12のインストール
VOICEROIDシリーズとの連携のため、棒読みちゃんを利用します。
棒読みちゃんのホームページから最新版をダウンロードし、インストールしてください。
Ver0.1.11.0 Beta12での動作を確認しています。
ダウンロードはこちら
棒読みちゃんプラグイン VoiceloidTalkPlusのインストール
棒読みちゃんの出力をVOICEROID/VOICEROID+シリーズに読ませるためのプラグインです。
ぷらぐいん置き場からダウンロードしてインストールしてください。
ダウンロードして解凍した、Plugin_VoiceroidTalkPlus.dllをBouyomichanフォルダに入れてください。
ダウンロードはこちら
OpenRTM.NET-1.3.1 (株式会社セック)のインストール
Microsoft .NET Framework上で動作するRTミドルウェア実装である、OpenRTM.NET-1.3.1.msi を(株)セックのサイトからダウンロードし、インストールしてください。
ダウンロードはこちら
RtcVoiceRoidのインストール
ダウンロードして、解凍してください。
rtcvoiceroid.zip
ファイル構成
RtcVoiceRoid
|- RtcVoiceRoid.exe : RTC本体です
|- RtcVoiceRoid.config : 動作周期などの設定を行います
|- rtc.config
|- ConsoleIn.py : テスト用のコンポーネントです。コマンドラインから文字列を入力します。
コンポーネントの構成
データポート
名前 | ポート | データ型 | 説明 |
speechIn | InPort | TimedWString | 発話する文字データを入力 |
play | OutPort | TimedBoolean | true(発話中) false(発話中では無い) |
コンフィグレーション
名前 | データ型 | 説明 |
debug | int | 1: デバッグモード |
使い方
(1)読み上げたいVOICEROID/VOICEROID+を起動します
VOICELOID+ (東北ずん子、結月ゆかり、吉田くん)での動作を確認しています。
民安ともえ、VOICEROID (月読アイ、月読ショウタ) にも対応していると思われます(未確認)
(2)棒読みちゃん(BouyomiChan.exe)を起動します
(2.1)棒読みちゃんのプラグイン設定でチェックを付けて有効にしてください。
(2.2)棒読みちゃんメイン画面の上にVRボタンが出ます。ボタンを押して、読み上げたいVOICEROID/VOICEROID+を選択して下さい。
(2.3)Intervalの値をVOICEROID/VOICEROID+の種類によって変更して下さい。
Interval値について。
この値を大きくすると、次の行を読みあげるまでの時間を調整出来ます。
読み上げが尻切れになる場合は大きくしてみてください。
おおよその値を書いておきます。
吉田くん:280、民安ともえ:280、結月ゆかり:280、東北ずん子:300
月読アイ:320、月読ショウタ:320
アイとショウタは読み上げスピードが遅いので、320あたりで微調整して下さい。
(3)VOICEROID用音声出力コンポーネント(RtcVoiceRoid.exe)を起動します。
同梱のConsoleIn.pyを使ってコマンドプロンプトから発話させたい文字列を入力してください。