湘南のGoogle Cloud Platformユーザーグループ、 GCPUG Shonan vol.27 feat.Dataflowを開催 しました。

今回は、今年3月に追加されたCloud Dataflow用テンプレートを使って手軽にDataflowを使えるところを体験してもらう回でした。

今回の内容

今回の講師は@nuki_pon さん。まずはDataflowの概要解説から始まって、Googleが用意したテンプレートを実際に使ってもらうハンズオンを行いました。

Dataflowはざっくり説明すると大規模なデータの変換処理を並列実行するためのサービスです。今まではDataflow SDKを使ってコードを書く必要があり、 ちょっと試してみたい人にとっては少々ハードルが高いサービスでした。

それが、今回扱ったテンプレートでかなり楽に使えるようになりました。テンプレートは以下GitHubリポジトリで公開されています。

https://github.com/GoogleCloudPlatform/DataflowTemplates

今回は上記の中からGCS Text to BigQueryを使ってみました。

予め@nuki_pon さんの方でGCS上に用意したデータを自分のGCSバケットにコピーして、gcloud beta dataflow jobs run text-to-bigqueryコマンドにテンプレートの場所やデータソースを指定すると、数分で実行が完了しました。BigQueryデータセットを確認すると、データがインポートされていました。コマンドに渡すオプションが色々あってややこしいのですが、毎回似たようなものを使いそうなので、シェルスクリプト化しておいた方が楽に使えるかもしれません。

また、テンプレート自体もGitHubリポジトリを直接参照できるようになっているので、Googleが用意したもので実現でない場合でも自作できるのはいいですね。

最後に、Dataflowを自動実行させる方法についても解説してもらいました。以下の3通りがありますが、お勧めは3.とのことです。

  1. cron等で、gcloudコマンドを実行
  2. GAE等で、APIから実行
  3. Cloud Composerを利用

写真

https://www.instagram.com/p/BjOXbB6htHa/ https://www.instagram.com/p/BjO2NwQDpDw/ https://www.instagram.com/p/BjO2v6ZDz0Z/ https://www.instagram.com/p/BjO3jPbjENj/ https://www.instagram.com/p/BjO4F9UjlH7/

次回予告

次回6月はconnpassイベントはまだ公開していませんが、Speech Search API 1 を扱う予定です。お楽しみに!


  1. 2018/05/30追記 「Speech API」は「Search API」の間違いでした ↩︎