湘南のGoogle Cloud Platformユーザーグループ、 GCPUG Shonan vol.22 DataPrepを開催しました。
今回はプログラミングレスでデータ加工ができるサービスCloud Dataprepのハンズオン回でした。
講師は@satoluxx さんの予定でしたが、急用のため@tora470 さんが代打を務めました。
ハンズオンの流れ
ハンズオンはGCPUG Fukuokaのハンズオンで使われた資料を元に進めました。
Dataprepは、CSVデータをGCS経由にインポートし、ExcelのようなUIでデータを加工できるサービスです。インポート直後はこんな感じの見た目です(国勢調査のデータを使いました)。
なんか出てきた #gcpug #shonan pic.twitter.com/79EJWN9IMZ
— Ryuji Tsutsui (@ryu22e) December 9, 2017
ここから、分析しやすい形になるようにデータを加工していきます。
「◯行目〜×行目を削除」、「◯行目はヘッダー扱い」、「ダブルクォーテーションを削除」、「-
を0
に変換」など、マウスとキーボードの操作で加工内容を「レシピ」として登録していきます。Excelにユーザーの操作内容を記録しておいてマクロとして何度も実行できる機能がありますが、あんな感じのイメージです。
必要な加工が終わったら、GCSかBigQueryにデータをエクスポートできます。今回はBigQueryを使いました。
裏側ではCloud Dataflowが動いていて、以下のようなフローが勝手に作られています。
インポートされたBigQueryのデータはこんな感じです。
感想
「レシピ」を登録する過程で徐々にデータが出来上がっていく様子を眺めているのが、単純に楽しかったですね。
エンジニアでなくても、Excelに慣れている人なら、ある程度の訓練で使いこなせそうなのも魅力的なツールだと思いました。
ハンズオン終了後は、茅ヶ崎市が公開するオープンデータをDataprepでどう加工するかについて、ディスカッションしました。
俗に言う神ExcelをそのままCSVにしたようなデータで、非常に難物でした 😅
CSVは1行1レコードが原則のはずなのですが…
次回は
内容は未定ですが、次回は来年、茅ヶ崎で開催予定です。お楽しみに!