speech_recognition_client

Google Speech API を利用した音声認識クライアント。

class mike.speech_recognition_client.SpeechRecognitionClient

Bases: object

SpeechRecognition ライブラリのラッパークラス。

【役割】 - WAV ファイル形式の音声データを Google Cloud Speech API で認識 - 日本語テキスト変換を実行 - 認識結果のテキストと信頼度を返却

【実装】 - sr.Recognizer インスタンスを保持 - recognize_wav() メソッドで WAV ファイル認識を実行 - 例外ハンドリングは呼び出し側で実施

recognize_wav(wav_path)

WAV ファイルから音声テキストを認識します。

【処理フロー】 1. sr.AudioFile で WAV ファイルを開く 2. Recognizer.record() で音声フレーム取得 3. recognize_google() で Google Cloud Speech API に送信 4. 認識結果を取得 5. (テキスト, スコア, 追加情報) を返却

【Google Cloud Speech API】 - インターネット接続が必須 - API キーが自動的に設定されている環境を想定 - 日本語 (ja-JP) での認識実行

Parameters:

wav_path (str) – 認識対象の WAV ファイルパス(record_with_vad() の出力ファイルを想定)

Returns:

(テキスト, 信頼度スコア, 追加情報1, 追加情報2)のタプル

Return type:

tuple[str, float, str, str]

戻り値の詳細:
  • text (str): 認識テキスト

  • confidence (float): 信頼度スコア(現在は固定値 1.0)

  • raw_out (str): 追加情報(現在は空文字列)

  • raw_err (str): エラーメッセージ(現在は空文字列)

Raises:

Exception – WAVファイル開き失敗、Google API通信失敗、認識失敗の場合

【注意】 - 返値の raw_out・raw_err は拡張予定の領域 - 信頼度スコアは現在、API 側の返値を活用していない