【AWS】TranscribeとComprehendで遊んでみた
目次[非表示]
- 1.はじめに
- 2.AWSのAI/MLサービス
- 2.1.Amazon Transcribe
- 2.2.Amazon Comprehend
- 3.遊んでみる
- 4.結果
- 4.1.① 社内実施の自己紹介
- 4.2.② 社内実施のMTG
- 4.3.③ youtubeのアニメ
- 4.4.④ youtubeの映画紹介
- 5.感想・まとめ
- 6.おわりに
はじめに
こんにちは。株式会社divxの久米です。
私事ですが、先日、AWS認定のAWS Certified Machine Learning - Specialty(MLS)を取得しました。
私はG検定を取得していたため、基礎的な機械学習の概念など、共通した部分は、復習のような感じでした。 しかし、AWSのAI/MLサービスの内容は、新しく知る内容が多くとても面白かったです。
特に、簡単かつ、AIの知識なしで利用できるサービスは、実際に使ってみたいと思いました。
そこで、この記事では、試験内容の一部であるAWSのAIサービス(TranscribeとComprehend)を、実際に使ってみようと思います。
AWSのAI/MLサービス
この記事では、TranscribeとComprehendを取り上げますが、AWSにはたくさんのAI/MLサービスがあります。
以下の公式ページで、サービス一覧がまとめられており、その他のAI/MLサービスを把握できます。
Amazon Transcribe
Amazon Transcribeは、音声データをテキストデータに自動的に変換するサービスです。その特徴を、コンソール画面と紐付けながら紹介します。
データの形式は、MP3、MP4、WAV、FLAC、AMR、OGG、WebMが利用できる(音声及び動画が選択可能)
・複数の言語に対応しており、もちろん、日本語にも対応している
・話者の識別ができる
・プライバシーに関わるキーワード(アドレスや電話番号など)をマスキングできる
Amazon Comprehend
Amazom Comprehendは、テキストから価値あるインサイトを自動抽出するサービスです。
価値あるインサイトとは、エンティティ(人や場所など)、キーフレーズ、文章の感情(肯定的か否定的か)、構文解析などがあります。
以下の公式ページで、抽出できる情報を確認できます。
コンソールでは、以下の箇所で、どの価値あるインサイトを抽出するか、設定できます。
遊んでみる
今回は、オプションを設定せずに、どれくらいの精度が出るのか、確認してみたいと思います。
Comprehendでは、エンティティとキーフレーズの抽出をします。
確認に利用したデータは、以下の4種類です。
① 社内実施の自己紹介
② 社内実施のMTG
③ youtubeのアニメ
④ youtubeの映画紹介
結果
まず、各データに対するTranscribeとComprehendの精度を、表で示します。
① 社内実施の自己紹介 |
② 社内実施のMTG |
③ youtubeのアニメ |
④ youtubeの映画紹介 |
|
Transcribe |
○ |
× |
○ |
○ |
Comprehend |
△ |
× |
△ |
△ |
次に、各データに対する結果を、実際に抽出した文字列を使って紹介したいところですが、データの特性上、詳しく書けない部分なので、簡単な具体例や結果に対する所感をまとめたいと思います。
① 社内実施の自己紹介
- ポジティブなところ
- 自己紹介の内容が分かる精度で文字起こしできている
- 人名の認識が正しくできている(「本田圭佑」「石原さとみ」など)
- 地名の認識が正しくできている(「長野県長野市」「神奈川県厚木市」など)
- その人を表すキーフレーズ抽出など、使いみちはありそう
- ネガティブなところ
- しゃべるとき特有の「あー」「えー」「まあ」などの文言もそのまま文字起こしされている
- 「プロフィール」が「プロフィル」と認識されている
- エンティティやキーフレーズは、不要な抽出結果が多い(「方」「これ」「ところ」など)
② 社内実施のMTG
- ポジティブなところ
- 人名の認識ができている
- ネガティブなところ
- MTGの内容が理解できない精度の文字起こしとなっている
- 会話のスピードが早かったり、ぼそぼそ話したりすると精度が顕著に落ちるのは残念
- TranscribeとComprehendの組み合わせで、自動的に議事録作れたら楽しそうだったけど、難しそう
③ youtubeのアニメ
- ポジティブなところ
- キーフレーズを見れば、何のアニメか分かりそう(「海賊」「海軍」「キャラクターの名前」など)
- ネガティブなところ
- キャラクターなどのアニメ特有の固有名詞は、間違った認識をする時がある
- アニメは動画で伝わる情報が多いため、文字情報だけで理解するには、少し無理があった
④ youtubeの映画紹介
- ポジティブなところ
- 映画のタイトルや紹介内容が分かる精度で文字起こしできている(「ショーシャンクの空に」「主人公アンディ」など)
- 文字情報だけですべてを伝えているyoutube動画は、TranscribeとComprehendで大枠の情報が取得可能な気がする
- ネガティブなところ
- 映画のタイトルは、エンティティとして取得してほしかったが、精度が悪い
感想・まとめ
TranscribeもComprehendも、当初の想像より高い精度で驚きました。
コンソール上の簡単な操作で高い精度が出るので、AIに詳しくない人でも簡単にAIを利用できそうです。
加えて、話者の識別や語句のマスキングを組み合わせると、更に色々な場面で活用できるのではないかと思えました。
また、今回は、AWSマネジメントコンソール上で、ポチポチ触りましたが、TranscribeとComprehendは、どちらもSDKが用意されています。
SDKを使えば、AIに詳しくない開発者でも、文字起こしなどを、簡単にシステムに組み込むことができそうです。
今後、他のAWSのAIサービスも、触ってみたいと思います。
おわりに
DIVXでは一緒に働ける仲間を募集しています。
興味があるかたはぜひ採用ページを御覧ください。