湘南のGoogle Cloud Platformユーザーグループ、 GCPUG Shonan vol.26 SpeechAPI ハンズオンを開催 しました。
今回は、みんなでCloud Speech APIを使って音声認識をやってみる回でした。
今回の内容
今回の講師は@tora470 さん。Code LabのSpeaking with a Webpage - Streaming speech transcriptsをテキストにして、Web上で人間の声を拾ってテキストに起こすサイトを作ってみました。
まずGCEインスタンスを作成し、そこにGoogle公式のサンプルコードをgit clone
してきて、@tora470
さんが内容を解説しつつ実際に動かしてみました。
元のテンプレートは英語用だったのですが、ちょっとコードを変更するだけで日本語対応もできるようになりました。
以下が実際にPCの前で喋ってみた結果です。他の人の声も拾ってしまったせいか、結構誤認識が多かったです。
日本語対応できたけど誤認識多いなw #gcpug #shonan pic.twitter.com/LZ49LTQJJ4
— Ryuji Tsutsui (@ryu22e) April 22, 2018
ただ、音声認識という自前で作ると手間がかかりそうな部分をGoogle任せにできるのは大きいですね。無料枠1もあるので、とりあえず試してみる分には気軽にやれるのではないでしょうか?
写真
https://www.instagram.com/p/Bh3S7vEjwtC/ https://www.instagram.com/p/Bh3TUREDyqw/ https://www.instagram.com/p/Bh3TpQWD9yK/
次回予告
次回はDataflow特集です。 Googleが公式に提供するTemplateを使ってDataflowを体験してもらいます。 既に満席になってしまいましたが、キャンセルがあれば以下connpassページから参加登録してください。