デジタル人材(非エンジニア)もAIで音声をテキストに変換

  • 2020年8月21日
  • 2022年10月30日
  • DIGITAL
 
音声をテキストに変換するAIって無料で試す方法はあるのですか?
AIの音声解析は非エンジニアにも使えるのですか?

こんな疑問に答えていきます。

こんにちは!よんりん(Yonrin)です。
当記事を書いている私は、デジタル技術のコンサルタントです。

音声認識は大分と身近になってきましたね。
今回はAI(IBM Watson)で音声をテキストに変換する機能を使ってみたいと思います。

プログラミングができない非エンジニアでも十分に試せます
それぐらい、デジタルの技術は進化しています

所要時間は20分程度です。
是非実際に動かしてみてくださいね。

もしまだお読みでなければ、「デジタル人材(非エンジニア)になるための学習ロードマップ【保存版】」の記事も合わせてどうぞ。

AIで音声をテキストに変換 (Speech to Text)

AIのAPI (Application Program Interface)の呼び出しにはPostmanというツールを使います。

全体の流れはこんな感じ。

クラウド(IBM Cloud) とAI(IBM Watson) の準備

まずはAI側の準備をします。
AIにはIBM Watsonを使います。

WatsonはIBM Cloudというプラットフォームで提供されるサービスのひとつです。
なので、Watsonを使うにはIBM Cloudのアカウント登録が必要です。

IBM Cloudのアカウント登録

まだIBM Cloudの登録をしていないという方は、現時点の登録方法をこちらで説明していますので、参考にしてくださいね。

非エンジニアの方はこうした登録作業は慣れていないかもしれませんが、難しくはありませんので、安心してください。

AIにアクセスするためのツール(Postman)のインストール方法も描いています。

関連記事

AIの機能を無料で試したいのだけど、どうやったらできるの?IBM CloudでWatsonを試してみたいのだけど、どうやったら使えるようになるの?非エンジニアにもできるの? こんな疑問に答えていきます。 こんにちは!よん[…]

preparation

登録画面の見た目や細かい箇所は結構すぐに変わる可能性が高いですが、ご心配なく。
2~3分もあれば、登録完了できますよ。

基本的には以下の流れです。

  1. 「IBM Cloud」をインターネットで検索
  2. 「IBM Cloud」の「ライト・アカウント」(無料)を登録
  3. 「Watson」メニューに移動して使いたいサービスを有効化

AIのサービス有効化

AI(Watoson)の「Speech to Text」というサービスを有効化(作成)しておきましょう。

こちらですね。

サンプルの音声ファイルダウンロード

今回のサンプルとなる音声のファイルをダウンロードしておきます。
この音声ファイルをAIに送るとテキストに変換してもらえます。

ダウンロードしたら、聞いてみましょう。英語です。
先に正解を言ってしまうと、以下のような内容の音声です。

“Several tornadoes touched down as a line of severe thunder storms swept through Colorado on Sunday”

Postmanの準備

次にPostmanです。
持っていない人は2~3分でできますので、すぐにインストールしましょう。

Postmanの音声データ送信設定

ここから、いよいよPostmanを使ってWatsonのサービスにつながる部分です。
最初は少し、見慣れない文字に戸惑うかも知れませんが、心配ないですよ。

基本的にはコピー&ペーストで進めていきます。
ひとつできるようになれば、他のサービスも同じように使えるようになります。

気負わずに、取り組んでみてくださいね。

やることは、以下の通り。

 PostのURL設定
 Autorizationの設定
 Headersの設定
 Bodyの設定

基本的に、Watsonの以下の「管理」メニューのページと「開始」メニューのページからPostmanに情報をコピペするだけです。

ひとつずつ、説明していきますね。

 PostのURL設定

まずは「create a request」をクリックしてリクエストを作成します。

リクエストの種類をPOSTにします。

「Enter request URL」欄の入力は、WatsonのSpeech to Text の「管理」メニューに記載のURLと「開始」メニュー内に指定された文字列をつないで入力します。

入力されるURLはこんな感じになります。

https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/(この部分は人それぞれ)/v1/recognize
 Autorizationの設定

Postmanで、「Auth」のタブを選択して、Type に「Basic Auth」を選択します。

Username、Passwordは、それぞれ「開始」メニューのページと、「管理」メニューのページからコピーしてきます。

 Headersの設定

「Headers」タブの設定は1項目だけです。
「開始」メニューのページの内容をコピーしましょう。

 KEY = Content-Type
 VALUE = audio/flack
 Bodyの設定

「Body」タブに移動します。

先ほどWatsonの「開始」メニューのページからダウンロードした音声ファイルを添付します。

Postmanからの音声データ送信とテキスト受信

いよいよ音声データの送信です。

「Send」ボタンを押してみましょう。
以下の結果が「Response」欄に表示されればOKです。

処理結果は、プログラムで扱いやすい「JSON」という形式で返信されるため、少々見辛いですね。

以下の”several tornadoes touched down as a line of severe thunder storms swept through Colorado on Sunday“という部分が、音声をテキストに変換したものです。

処理結果の全体
{
   “result_index”: 0,
   “results”: [
      {
         “final”: true,
         “alternatives”: [
            {
               “transcript”: “several tornadoes touched down as a line of severe thunder storms swept through Colorado on Sunday “,
               “confidence”: 0.94
            }
         ]
      }
   ]
}

日本語で音声のテキスト化

いろんな言語で試すことができますが、日本語の場合は「Params」のタブを以下のように設定すればOKです。

 KEY = model
 VALUE = ja-JP_BroadbandModel

まとめ

AI(Watson)での音声のテキスト化サービスを使ってみました。
プログラミングをせずに、全部コピー&ペーストのみで使うことができます。

デジタルの時代、プログラミングをしなくてもAIの高度な機能が使えるというところまで来ています。

ITが分からないからAIが使えない、とは必ずしも言えなくなるかも知れません。

今回は動かすことだけにフォーカスして、細かいことには触れていないですが、腰を据えてきちんと学習したい人は、こちらのオンラインコースがおすすめです。

手を動かして学ぶAI開発入門!人工知能の意味からモデル構築・RPA連携・サーバレス開発まで

他にも色々なサービスがあるので、ぜひ試してみてくださいね。

以上です。