speech_recognition_client¶
Google Speech API を利用した音声認識クライアント。
- class mike.speech_recognition_client.SpeechRecognitionClient¶
Bases:
objectSpeechRecognition ライブラリのラッパークラス。
【役割】 - WAV ファイル形式の音声データを Google Cloud Speech API で認識 - 日本語テキスト変換を実行 - 認識結果のテキストと信頼度を返却
【実装】 - sr.Recognizer インスタンスを保持 - recognize_wav() メソッドで WAV ファイル認識を実行 - 例外ハンドリングは呼び出し側で実施
- recognize_wav(wav_path)¶
WAV ファイルから音声テキストを認識します。
【処理フロー】 1. sr.AudioFile で WAV ファイルを開く 2. Recognizer.record() で音声フレーム取得 3. recognize_google() で Google Cloud Speech API に送信 4. 認識結果を取得 5. (テキスト, スコア, 追加情報) を返却
【Google Cloud Speech API】 - インターネット接続が必須 - API キーが自動的に設定されている環境を想定 - 日本語 (ja-JP) での認識実行
- Parameters:
wav_path (str) – 認識対象の WAV ファイルパス(record_with_vad() の出力ファイルを想定)
- Returns:
(テキスト, 信頼度スコア, 追加情報1, 追加情報2)のタプル
- Return type:
tuple[str, float, str, str]
- 戻り値の詳細:
text (str): 認識テキスト
confidence (float): 信頼度スコア(現在は固定値 1.0)
raw_out (str): 追加情報(現在は空文字列)
raw_err (str): エラーメッセージ(現在は空文字列)
- Raises:
Exception – WAVファイル開き失敗、Google API通信失敗、認識失敗の場合
【注意】 - 返値の raw_out・raw_err は拡張予定の領域 - 信頼度スコアは現在、API 側の返値を活用していない