音声認識

rospeexを経由しない音声認識 F12801.jpg

特徴
確認動作環境

OS Microsoft Winodws 7 64bit
言語 Python 2.6
OpenRTMのバージョン

OpenRTM-aist (Python版) 1.1.0-RC1

注意事項 インターネット接続が必要です

インストール

RtcPeexのダウンロード

ダウンロードして、解凍してください。
downloading-updates-256.png616vbjemfil._aa1000_.jpg

ファイル構成

RtcPeex
|- RtcPeex.py   : RTC本体
|- rtc.config            : 動作周期などの設定を行います

コンポーネントの構成

データポート

名前 ポート データ型 説明
speechIn InPort TimedWString 発話する文字データを入力

コンフィグレーション
名前 データ型 説明
debug int 1: デバッグモード

使い方

(1)音声入力コンポーネント(.py)を起動します。


Google音声入力google.jpeg

音声合成

非モノローグ音声合成 F12801.jpg

特徴
確認動作環境

OS Microsoft Winodws 7 64bit
言語 Python 2.6
OpenRTMのバージョン

OpenRTM-aist (Python版) 1.1.0-RC1

注意事項 インターネット接続が必要です

インストール

RtcGoogleSpeechのダウンロード

ダウンロードして、解凍してください。
downloading-updates-256.pngrtcnon-monologuespeech.zip

ファイル構成

RtcNon-monologueSpeech
|- RtcNonMonoSpeech.py   : RTC本体(TimedStringで入力)
|- RtcNonMonoSpeechW.py : RTC本体(TimedWStringで入力)
|- cmdmp3.exe          : 音声の再生
|- rtc.config            : 動作周期などの設定を行います
|- ConsoleIn.py : テスト用のコンポーネントです。コマンドラインから文字列を入力します。

コンポーネントの構成

データポート

名前 ポート データ型 説明
speechIn InPort TimedWString 発話する文字データを入力

コンフィグレーション
名前 データ型 説明
debug int 1: デバッグモード

使い方

(1)非モノローグ音声合成コンポーネント(RtcNonMonoSpeechW.py)を起動します。

同梱のConsoleIn.pyを使ってコマンドプロンプトから発話させたい文字列を入力してください。


Google音声合成 google.jpeg

特徴
確認動作環境

OS Microsoft Winodws 7 64bit
言語 Visual Studio 2010 C#
OpenRTMのバージョン

OpenRTM.NET-1.3.1 (株式会社セック)

注意事項 GoogleAPIKit(Ver0.12)を利用しています

※日本語の送受信について
C#(.NET)やJavaのCORBAでは、string型で日本語などのマルチバイト文字の送受信ができないようになっています。そのため、日本語を送受信するためには、wstring型や、octet型の配列を使う必要があります。
国際化文字列はstring型よりはwstring型使う方がより正規の(?)方法のようです。

本コンポーネントでは発話する文字列をwstring(TimedWString)型で受けます。

インストール

RtcGoogleSpeechのダウンロード

ダウンロードして、解凍してください。
downloading-updates-256.pngrtcgooglespeech.zip

ファイル構成

RtcGoogleSpeech
|- RtcGoogleSpeech.exe   : RTC本体です
|- cmdmp3.exe         : 音声の再生
|- RtcGoogleSpeech.config  : 動作周期などの設定を行います
|- rtc.config
|- ConsoleIn.py : テスト用のコンポーネントです。コマンドラインから文字列を入力します。

コンポーネントの構成

データポート

名前 ポート データ型 説明
speechIn InPort TimedWString 発話する文字データを入力

コンフィグレーション
名前 データ型 説明
debug int 1: デバッグモード


使い方

(1)Google音声出力コンポーネント(RtcGoogleSpeech.exe)を起動します。

同梱のConsoleIn.pyを使ってコマンドプロンプトから発話させたい文字列を入力してください。

VOICEROIDによる音声合成 zzm_a1zunko04.png

zzm_a1zunko04.pngzzm_logo01.png

特徴

AH-Softwareの入力文字読み上げソフトVOICEROID,VOICEROID+シリーズを使った音声出力コンポーネントです。
入力された日本語テキストに基づいて以下のような流れで、音声を生成します。
文字入力→RtcVoideRoid→棒読みちゃん→棒読みちゃんプラグインVoiceloidTalkPlus →VOICEROIDシリーズ

確認動作環境

OS Microsoft Winodws 7 64bit
言語 Visual Studio 2010 C#
OpenRTMのバージョン

OpenRTM.NET-1.3.1 (株式会社セック)

注意事項 下記のプログラムを使用しています
  ●VOICEROID, VOICEROID+シリーズの何れか 
●棒読みちゃん Ver0.1.11.0 Beta12
●棒読みちゃんプラグイン VoiceroidTalkPlus Ver.5.0.0.0 

※日本語の送受信について
C#(.NET)やJavaのCORBAでは、string型で日本語などのマルチバイト文字の送受信ができないようになっています。そのため、日本語を送受信するためには、wstring型や、octet型の配列を使う必要があります。
国際化文字列はstring型よりはwstring型使う方がより正規の(?)方法のようです。

本コンポーネントでは発話する文字列をwstring(TimedWString)型で受けます。

インストール

VOICEROIDシリーズの購入とインストール

VOICEROIDシリーズを購入しインストールします。
以下のVOICEROIDでの動作を確認しています。

棒読みちゃん Ver0.1.11.0 Beta12のインストール

VOICEROIDシリーズとの連携のため、棒読みちゃんを利用します。
棒読みちゃんのホームページから最新版をダウンロードし、インストールしてください。
Ver0.1.11.0 Beta12での動作を確認しています。
ダウンロードはこちら

棒読みちゃんプラグイン VoiceloidTalkPlusのインストール

棒読みちゃんの出力をVOICEROID/VOICEROID+シリーズに読ませるためのプラグインです。
ぷらぐいん置き場からダウンロードしてインストールしてください。
ダウンロードして解凍した、Plugin_VoiceroidTalkPlus.dllをBouyomichanフォルダに入れてください。
ダウンロードはこちら

OpenRTM.NET-1.3.1 (株式会社セック)のインストール

Microsoft .NET Framework上で動作するRTミドルウェア実装である、OpenRTM.NET-1.3.1.msi を(株)セックのサイトからダウンロードし、インストールしてください。
ダウンロードはこちら

RtcVoiceRoidのインストール

ダウンロードして、解凍してください。
downloading-updates-256.pngrtcvoiceroid.zip

ファイル構成

RtcVoiceRoid
|- RtcVoiceRoid.exe   : RTC本体です
|- RtcVoiceRoid.config  : 動作周期などの設定を行います
|- rtc.config
|- ConsoleIn.py : テスト用のコンポーネントです。コマンドラインから文字列を入力します。

コンポーネントの構成

データポート

名前 ポート データ型 説明
speechIn InPort TimedWString 発話する文字データを入力
play OutPort TimedBoolean true(発話中)
false(発話中では無い) 

コンフィグレーション
名前 データ型 説明
debug int 1: デバッグモード


使い方

(1)読み上げたいVOICEROID/VOICEROID+を起動します

VOICELOID+ (東北ずん子、結月ゆかり、吉田くん)での動作を確認しています。
民安ともえ、VOICEROID (月読アイ、月読ショウタ) にも対応していると思われます(未確認)

(2)棒読みちゃん(BouyomiChan.exe)を起動します

(2.1)棒読みちゃんのプラグイン設定でチェックを付けて有効にしてください。
(2.2)棒読みちゃんメイン画面の上にVRボタンが出ます。ボタンを押して、読み上げたいVOICEROID/VOICEROID+を選択して下さい。
(2.3)Intervalの値をVOICEROID/VOICEROID+の種類によって変更して下さい。

Interval値について。
この値を大きくすると、次の行を読みあげるまでの時間を調整出来ます。
読み上げが尻切れになる場合は大きくしてみてください。
おおよその値を書いておきます。
吉田くん:280、民安ともえ:280、結月ゆかり:280、東北ずん子:300
月読アイ:320、月読ショウタ:320
アイとショウタは読み上げスピードが遅いので、320あたりで微調整して下さい。

(3)VOICEROID用音声出力コンポーネント(RtcVoiceRoid.exe)を起動します。

同梱のConsoleIn.pyを使ってコマンドプロンプトから発話させたい文字列を入力してください。

example.PNG

ライセンス

VoiceTextによる音声合成 voicetext_logo_SpeechSynthesis_288x75.png

大見出し:アコーディオン2