GCPUG Shonan vol.26 SpeechAPI ハンズオンを開催しました #gcpug #shonan

湘南のGoogle Cloud Platformユーザーグループ、 GCPUG Shonan vol.26 SpeechAPI ハンズオンを開催しました。

今回は、みんなでCloud Speech APIを使って音声認識をやってみる回でした。

今回の内容

今回の講師は@tora470 さん。Code LabのSpeaking with a Webpage - Streaming speech transcriptsをテキストにして、Web上で人間の声を拾ってテキストに起こすサイトを作ってみました。

まずGCEインスタンスを作成し、そこにGoogle公式のサンプルコードをgit cloneしてきて、@tora470 さんが内容を解説しつつ実際に動かしてみました。

元のテンプレートは英語用だったのですが、ちょっとコードを変更するだけで日本語対応もできるようになりました。

以下が実際にPCの前で喋ってみた結果です。他の人の声も拾ってしまったせいか、結構誤認識が多かったです。

日本語対応できたけど誤認識多いなw #gcpug #shonan pic.twitter.com/LZ49LTQJJ4
— Ryuji Tsutsui (@ryu22e) April 22, 2018

ただ、音声認識という自前で作ると手間がかかりそうな部分をGoogle任せにできるのは大きいですね。無料枠¹もあるので、とりあえず試してみる分には気軽にやれるのではないでしょうか？

次回はDataflow特集です。 Googleが公式に提供するTemplateを使ってDataflowを体験してもらいます。既に満席になってしまいましたが、キャンセルがあれば以下connpassページから参加登録してください。