Google Cloud Speech-to-Textとは?


Google Cloud Speech-to-Text(以下GCS2T)とは、Google Cloud Platformを用いることで、テキストレベルの自然言語処理を行うことができるサービスです。GCS2Tを使えば、従来の文をテキストに変換したり、音声で投入された話し言葉をテキストとしてシステムに認識させることが可能です。

GCS2Tの機能


GCS2Tは以下のような機能を備えています。
・複数の音声サポート:GCS2Tは、英語、フランス語、イタリア語、ドイツ語、日本語などを支援しています
・複数のモデルサポート:実稼働環境で使用可能なモデルを複数のサポートしています。
・長時間音声および動画サポート:単一の長時間音声入力を複数のファイルに分割して処理する機能も持っています

GCS2Tのサンプルコード


以下にGCS2Tを用いた簡単なサンプルコードを記載します。
// Imports the Google Cloud client library
const Speech = require('@google-cloud/speech');

// Instantiates a client
const client = Speech();

// The name of the audio file to transcribe
const fileName = 'resources/demo.wav';

// The audio file’s encoding and sample rate
const options = {
encoding: 'LINEAR16',
sampleRateHertz: 16000
};

// Detects speech in the audio file
client.recognize(fileName, options)
.then((results) => {
const transcription = results[0];
console.log(`Transcription: ${transcription}`);
})
.catch((err) => {
console.error('ERROR:', err);
});


GCS2Tの活用例


GCS2Tを利用することで、以下のような利用シナリオが可能となります。
・インタラクティブなシステムを開発:ユーザーの音声をテキストとしてシステムに認識させ、自然な会話スタイルでやり取りが可能になります。
・翻訳:他言語の音声を入力として、自動的に意味あるテキストに変換します。
・音声入力をテキスト入力として扱う:音声入力をテキスト入力として扱い、検索結果を表示させるなどの具体的な開発が可能となります。
・バーチャルアシスタント:GCS2Tの機能を利用し、Siriのようなバーチャルアシスタントのようなものを構築することができます。

投稿者: systemreach_engineer