AIの音声解析は非エンジニアにも使えるのですか?
こんな疑問に答えていきます。
こんにちは!よんりん(Yonrin)です。
当記事を書いている私は、デジタル技術のコンサルタントです。
音声認識は大分と身近になってきましたね。
今回はAI(IBM Watson)で音声をテキストに変換する機能を使ってみたいと思います。
プログラミングができない非エンジニアでも十分に試せます。
それぐらい、デジタルの技術は進化しています。
所要時間は20分程度です。
是非実際に動かしてみてくださいね。
もしまだお読みでなければ、「デジタル人材(非エンジニア)になるための学習ロードマップ【保存版】」の記事も合わせてどうぞ。
AIで音声をテキストに変換 (Speech to Text)
AIのAPI (Application Program Interface)の呼び出しにはPostmanというツールを使います。
全体の流れはこんな感じ。
クラウド(IBM Cloud) とAI(IBM Watson) の準備
まずはAI側の準備をします。
AIにはIBM Watsonを使います。
WatsonはIBM Cloudというプラットフォームで提供されるサービスのひとつです。
なので、Watsonを使うにはIBM Cloudのアカウント登録が必要です。
IBM Cloudのアカウント登録
まだIBM Cloudの登録をしていないという方は、現時点の登録方法をこちらで説明していますので、参考にしてくださいね。
非エンジニアの方はこうした登録作業は慣れていないかもしれませんが、難しくはありませんので、安心してください。
AIにアクセスするためのツール(Postman)のインストール方法も描いています。
AIの機能を無料で試したいのだけど、どうやったらできるの?IBM CloudでWatsonを試してみたいのだけど、どうやったら使えるようになるの?非エンジニアにもできるの? こんな疑問に答えていきます。 こんにちは!よん[…]
登録画面の見た目や細かい箇所は結構すぐに変わる可能性が高いですが、ご心配なく。
2~3分もあれば、登録完了できますよ。
基本的には以下の流れです。
- 「IBM Cloud」をインターネットで検索
- 「IBM Cloud」の「ライト・アカウント」(無料)を登録
- 「Watson」メニューに移動して使いたいサービスを有効化
AIのサービス有効化
AI(Watoson)の「Speech to Text」というサービスを有効化(作成)しておきましょう。
こちらですね。
サンプルの音声ファイルダウンロード
今回のサンプルとなる音声のファイルをダウンロードしておきます。
この音声ファイルをAIに送るとテキストに変換してもらえます。
ダウンロードしたら、聞いてみましょう。英語です。
先に正解を言ってしまうと、以下のような内容の音声です。
Postmanの準備
次にPostmanです。
持っていない人は2~3分でできますので、すぐにインストールしましょう。
Postmanの音声データ送信設定
ここから、いよいよPostmanを使ってWatsonのサービスにつながる部分です。
最初は少し、見慣れない文字に戸惑うかも知れませんが、心配ないですよ。
基本的にはコピー&ペーストで進めていきます。
ひとつできるようになれば、他のサービスも同じように使えるようになります。
気負わずに、取り組んでみてくださいね。
やることは、以下の通り。
Autorizationの設定
Headersの設定
Bodyの設定
基本的に、Watsonの以下の「管理」メニューのページと「開始」メニューのページからPostmanに情報をコピペするだけです。
ひとつずつ、説明していきますね。
PostのURL設定
まずは「create a request」をクリックしてリクエストを作成します。
リクエストの種類をPOSTにします。
「Enter request URL」欄の入力は、WatsonのSpeech to Text の「管理」メニューに記載のURLと「開始」メニュー内に指定された文字列をつないで入力します。
入力されるURLはこんな感じになります。
Autorizationの設定
Postmanで、「Auth」のタブを選択して、Type に「Basic Auth」を選択します。
Username、Passwordは、それぞれ「開始」メニューのページと、「管理」メニューのページからコピーしてきます。
Headersの設定
「Headers」タブの設定は1項目だけです。
「開始」メニューのページの内容をコピーしましょう。
VALUE = audio/flack
Bodyの設定
「Body」タブに移動します。
先ほどWatsonの「開始」メニューのページからダウンロードした音声ファイルを添付します。
Postmanからの音声データ送信とテキスト受信
いよいよ音声データの送信です。
「Send」ボタンを押してみましょう。
以下の結果が「Response」欄に表示されればOKです。
処理結果は、プログラムで扱いやすい「JSON」という形式で返信されるため、少々見辛いですね。
以下の”several tornadoes touched down as a line of severe thunder storms swept through Colorado on Sunday“という部分が、音声をテキストに変換したものです。
“result_index”: 0,
“results”: [
{
“final”: true,
“alternatives”: [
{
“transcript”: “several tornadoes touched down as a line of severe thunder storms swept through Colorado on Sunday “,
“confidence”: 0.94
}
]
}
]
}
日本語で音声のテキスト化
いろんな言語で試すことができますが、日本語の場合は「Params」のタブを以下のように設定すればOKです。
VALUE = ja-JP_BroadbandModel
まとめ
AI(Watson)での音声のテキスト化サービスを使ってみました。
プログラミングをせずに、全部コピー&ペーストのみで使うことができます。
デジタルの時代、プログラミングをしなくてもAIの高度な機能が使えるというところまで来ています。
ITが分からないからAIが使えない、とは必ずしも言えなくなるかも知れません。
今回は動かすことだけにフォーカスして、細かいことには触れていないですが、腰を据えてきちんと学習したい人は、こちらのオンラインコースがおすすめです。
手を動かして学ぶAI開発入門!人工知能の意味からモデル構築・RPA連携・サーバレス開発まで |
---|
他にも色々なサービスがあるので、ぜひ試してみてくださいね。
以上です。