AWSでは様々なサービスがリリースされていますが、今回はその中からAmazon Transcribeに関して少し調べてみました。 Amazon Transcribeは、音声をテキストに起こすサービスです。 音声ファイルをバッチ処理してテキストを出力することもできますし、リアルタイムで音声読み取り文字起こしすることも可能です。 また、同じようなサービスとしてAmazon Transcribe Medicalというのもあり、こちらは医療関連の会話に特化したサービスとして提供されています。
音声の文字起こしサービスはいろいろな企業が提供していますが、Amazonのサービスを使う利点の一つとして、AWSの他サービスとの連携が容易な点が挙げられます。 例えばビデオチャットサービスのAmazon Chimeには、Amazon Transcribeと連携する専用のAPIが用意されており、簡単にビデオチャットの音声を文字起こしできるようになっています。 一方で注意点としては、これらの連携機能がかなり最近実装されたものであり、AWS-SDKのバージョンによってはまだ未実装でエラーになるケースがあります。 具体的には、AWS Lambdaで標準利用できるAWS-SDKのバージョンが最新より少しだけ古く、APIが実装されていないということがありました(2021/10/29現在)。 最新バージョンのAWS-SDKを別途組み込むことで解決できましたが、今後も機能追加や仕様変更などには注意する必要がありそうです。