GCPUG Shonan vol.27 feat.Dataflowを開催しました #gcpug #shonan

湘南のGoogle Cloud Platformユーザーグループ、 GCPUG Shonan vol.27 feat.Dataflowを開催 しました。

今回は、今年3月に追加されたCloud Dataflow用テンプレートを使って手軽にDataflowを使えるところを体験してもらう回でした。

今回の内容

https://docs.google.com/presentation/d/1VVVFktld0X4d3VxYhBrQmKtC1DEdu3F_fUYKS9vHafU/edit#slide=id.p

今回の講師は@nuki_pon さん。まずはDataflowの概要解説から始まって、Googleが用意したテンプレートを実際に使ってもらうハンズオンを行いました。

Dataflowはざっくり説明すると大規模なデータの変換処理を並列実行するためのサービスです。今まではDataflow SDKを使ってコードを書く必要があり、 ちょっと試してみたい人にとっては少々ハードルが高いサービスでした。

それが、今回扱ったテンプレートでかなり楽に使えるようになりました。テンプレートは以下GitHubリポジトリで公開されています。

https://github.com/GoogleCloudPlatform/DataflowTemplates

今回は上記の中からGCS Text to BigQueryを使ってみました。

予め@nuki_pon さんの方でGCS上に用意したデータを自分のGCSバケットにコピーして、gcloud beta dataflow jobs run text-to-bigqueryコマンドにテンプレートの場所やデータソースを指定すると、数分で実行が完了しました。BigQueryデータセットを確認すると、データがインポートされていました。コマンドに渡すオプションが色々あってややこしいのですが、毎回似たようなものを使いそうなので、シェルスクリプト化しておいた方が楽に使えるかもしれません。

また、テンプレート自体もGitHubリポジトリを直接参照できるようになっているので、Googleが用意したもので実現でない場合でも自作できるのはいいですね。

最後に、Dataflowを自動実行させる方法についても解説してもらいました。以下の3通りがありますが、お勧めは3.とのことです。

  1. cron等で、gcloudコマンドを実行
  2. GAE等で、APIから実行
  3. Cloud Composerを利用

写真

#gcpug #shonan

A post shared by Ryuji Tsutsui (@ryu22e) on

#gcpug #shonan 懇親会〜

A post shared by Ryuji Tsutsui (@ryu22e) on

油揚げ #shonan #gcpug

A post shared by Ryuji Tsutsui (@ryu22e) on

麻婆豆腐&ご飯 #gcpug #shonan

A post shared by Ryuji Tsutsui (@ryu22e) on

春巻き #gcpug #shonan

A post shared by Ryuji Tsutsui (@ryu22e) on

次回予告

次回6月はconnpassイベントはまだ公開していませんが、Speech Search API 1 を扱う予定です。お楽しみに!


  1. 2018/05/30追記 「Speech API」は「Search API」の間違いでした [return]
comments powered by Disqus