Azure Speech Recognitionとは?


MicrosoftのクラウドサービスであるAzureに搭載されている、Microsoft社が提供する音声認識サービスであるAzure Speech Recognitionをご存知でしょうか?あなたのPC、モバイル端末、ブラウザー画面から音声を取得し、自動的にスクリプトとして認識してテキスト化し、そのテキストをまた元の音声に変換することができます。最新のセキュリティ技術と安全性を備え、瞬時に音声データをテキストデータに変換できるAzure Speech Recognitionを使用することで、多くの企業がスマートフォンアプリやウェブアプリ開発者によるイノベーションに大きく貢献しています。




Azure Speech Recognitionのサンプルソースコード


Azure Speech Recognitionを利用する場合、まずAPI認証を行わなければなりません。API keyを取得するには、Azure portal上で「新しいリソースの作成」を選択します。「サービスを探す」を選択して、「Speech Services」を検索し、さらに「Speech Services」を選択します。そこでAPIキーを取得し、試作を行ったり開発を行ったりする準備ができます。

以下にサンプルソースコードを示します。
import azure.cognitiveservices.speech as speechsdk

# サブスクリプションキーとゾーンを定義
subscription_key = "YourSubscriptionKey"
service_region = "YourServiceRegion"

# APIキーを使って認証
speech_config = speechsdk.SpeechConfig(subscription=subscription_key, region=service_region)

# 音声入力を取得
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config)

print("Say something...")

result = speech_recognizer.recognize_once()

# 結果を取得
if result.reason == speechsdk.ResultReason.RecognizedSpeech:
print("Recognized: {}".format(result.text))
elif result.reason == speechsdk.ResultReason.NoMatch:
print("No speech could be recognized: {}".format(result.no_match_details))
elif result.reason == speechsdk.ResultReason.Canceled:
print("Recognition canceled: {}".format(result.cancellation_details.reason))


Azure Speech Recognitionでは、APIキーを取得した後、SpeechRecognizerクラスを使用した複雑な関数を呼び出すことで、音声入力を取得してテキストデータへ変換できるようになります。




実際の開発で活用している例


Azure Speech Recognitionを活用した開発例としては、音声によるデータ入力支援などの機能の追加するなど、困難をお持ちの方向けのアプリ開発にも使用しています。

自動文書作成などもAzure Speech Recognitionで実行している例があり、一般ユーザーにとって瞬時かつ効率的な文書作成が可能となります。音声を記入して、テキストに認識されたデータに沿って再構成させることで、仮想アシスタントなどだけでなく、データの効率的処理を可能にしています。




まとめ


今回Azure Speech Recognitionとは何か、サンプルソースコードと実際の開発で活用している例についてご紹介しました。Speech Recognitionを用いることで、多くの機能をデバイスに新たに実装できますが、プライバシーやセキュリティ上の問題があるため、APIキーを取得し適切な措置を取ることを忘れずに開発を行ってください。

投稿者: systemreach_engineer