湘南のGoogle Cloud Platformユーザーグループ、 GCPUG Shonan vol.26 SpeechAPI ハンズオンを開催 しました。

今回は、みんなでCloud Speech APIを使って音声認識をやってみる回でした。

今回の内容

今回の講師は@tora470 さん。Code LabのSpeaking with a Webpage - Streaming speech transcriptsをテキストにして、Web上で人間の声を拾ってテキストに起こすサイトを作ってみました。

まずGCEインスタンスを作成し、そこにGoogle公式のサンプルコードをgit cloneしてきて、@tora470 さんが内容を解説しつつ実際に動かしてみました。

元のテンプレートは英語用だったのですが、ちょっとコードを変更するだけで日本語対応もできるようになりました。

以下が実際にPCの前で喋ってみた結果です。他の人の声も拾ってしまったせいか、結構誤認識が多かったです。

ただ、音声認識という自前で作ると手間がかかりそうな部分をGoogle任せにできるのは大きいですね。無料枠1もあるので、とりあえず試してみる分には気軽にやれるのではないでしょうか?

写真

https://www.instagram.com/p/Bh3S7vEjwtC/ https://www.instagram.com/p/Bh3TUREDyqw/ https://www.instagram.com/p/Bh3TpQWD9yK/

次回予告

次回はDataflow特集です。 Googleが公式に提供するTemplateを使ってDataflowを体験してもらいます。 既に満席になってしまいましたが、キャンセルがあれば以下connpassページから参加登録してください。

https://gcpug-shonan.connpass.com/event/87314/