湘南のGoogle Cloud Platformユーザーグループ、 GCPUG Shonan vol.27 feat.Dataflowを開催 しました。
今回は、今年3月に追加されたCloud Dataflow用テンプレートを使って手軽にDataflowを使えるところを体験してもらう回でした。
今回の内容
今回の講師は@nuki_pon さん。まずはDataflowの概要解説から始まって、Googleが用意したテンプレートを実際に使ってもらうハンズオンを行いました。
Dataflowはざっくり説明すると大規模なデータの変換処理を並列実行するためのサービスです。今まではDataflow SDKを使ってコードを書く必要があり、 ちょっと試してみたい人にとっては少々ハードルが高いサービスでした。
それが、今回扱ったテンプレートでかなり楽に使えるようになりました。テンプレートは以下GitHubリポジトリで公開されています。
https://github.com/GoogleCloudPlatform/DataflowTemplates
今回は上記の中からGCS Text to BigQueryを使ってみました。
予め@nuki_pon
さんの方でGCS上に用意したデータを自分のGCSバケットにコピーして、gcloud beta dataflow jobs run text-to-bigquery
コマンドにテンプレートの場所やデータソースを指定すると、数分で実行が完了しました。BigQueryデータセットを確認すると、データがインポートされていました。コマンドに渡すオプションが色々あってややこしいのですが、毎回似たようなものを使いそうなので、シェルスクリプト化しておいた方が楽に使えるかもしれません。
また、テンプレート自体もGitHubリポジトリを直接参照できるようになっているので、Googleが用意したもので実現でない場合でも自作できるのはいいですね。
最後に、Dataflowを自動実行させる方法についても解説してもらいました。以下の3通りがありますが、お勧めは3.
とのことです。
- cron等で、gcloudコマンドを実行
- GAE等で、APIから実行
- Cloud Composerを利用
写真
https://www.instagram.com/p/BjOXbB6htHa/ https://www.instagram.com/p/BjO2NwQDpDw/ https://www.instagram.com/p/BjO2v6ZDz0Z/ https://www.instagram.com/p/BjO3jPbjENj/ https://www.instagram.com/p/BjO4F9UjlH7/
次回予告
次回6月はconnpassイベントはまだ公開していませんが、Speech Search API 1 を扱う予定です。お楽しみに!
2018/05/30追記 「Speech API」は「Search API」の間違いでした ↩︎