こんにちは。香田です。
今回はGCP Cloud Data Fusionのマクロ機能を使ったパイプラインを紹介していきます。
Cloud Data FusionはGUIで簡単にデータパイプラインが作成できるので非常に便利ですね!
Data Fusionのマクロ機能とは
Data Fusionのマクロ機能について簡単に説明しておくと、
例えばデータソースとして指定するGCS バケットやGCPのプロジェクトIDといった値に対して、
パイプライン実行時に引数として渡すことができる機能で、SourceやSinkといった各Pluginのプロパティで指定可能です。
マクロ機能を利用することで、パイプラインをテンプレート化し汎用的に使い回すことが可能となります。
パイプラインを作成する
ではさっそくですが、パイプラインを作成していきましょう。
パイプラインはGCSのデータを変換しBigQueryにロードする流れになります。
[Integrate]の[Studio]を選択します。
[Source]の[GCS]を選択し[Properties]をクリックします。
下記のようにマクロ機能が利用可能な箇所はMマークが表示されています。${gcs.bucket.path}
のように${}
で指定することで利用可能となります。
[Transform]で[Wrangler]を選択します。
[GCS]から矢印を[Wrangler]へドラッグし[Properties]をクリックします。
[Directives]より[WRANGLE]をクリックします。
変換処理は下記のような内容を設定しています。問題なければ[Apply]をクリックします。
[Sink]で[BigQuery]を選択します。
[Wrangler]から矢印を[BigQuery]へドラッグし[Properties]をクリックします。
[BigQuery]でも[GCS]と同じく下記のようにマクロを利用します。
Pipelineの名前を設定後、[Deploy]をクリックします。
すると下記のようにPipelineが実行可能な状態となります。
[Run]ボタンのプルダウンメニューをクリックすると、[Runtime Arguments]より
[GCS]、[BigQuery]のマクロで指定したプロパティが実行時の引数として入力可能となります。
正常に完了している場合は、下記のように[Status]が[Succeeded]となります。
さいごに
いかがでしたでしょうか? マクロ機能を利用したパイプラインのテンプレート化が
イメージできましたでしょうか。
最後までご覧頂きありがとうございました!