Azure Data Factoryを触ってみた

はじめに

こんにちは。NewITソリューション部のエンジニアの村松です。

今回は、Azure Data Factoryの最初の一歩について記載したいと思います。
私自身がまだ一歩めなので初歩の初歩的な内容になります。

Azure Data Factoryとは

Azure Data FactoryとはMicrosoftが提供するETL(抽出 – 変換 – 読み込み)、ELT(抽出 – 読み込み – 変換)、データ統合という複雑なハイブリットプロジェクト用に構築されたマネージドクラウドサービスです。

 

小難しいですが簡単に言うとデータのINとOUTを指定して、その間でデータをごにゃごにゃするサービスって感じになると思います。

「ごにゃごにゃする」とは例えばフォーマットを整える、カラムとカラムを結合する、マッピングをするなどなどGUIを使いコードを書かなくても実現できるサービスです。

Azure Data Factoryの構成要素

Azure Data Factoryは以下の要素から成り立っています。

 

リンクサービス

データのINとOUTにあたる外部サービス(データソース)の定義情報や認証情報を登録します。

Azureの他のサービス(Blob Storage、Database)はもちろん、AWSやGCPなどのクラウドサービスも登録することができます。

 

データセット

入力と出力として使用されるデータの構造を定義します。

ファイルやテーブルなどアクティビティが入力、出力する先を指定します。

 

パイプライン

複数のデータ処理(アクティビティ)を組み合わせて実行するワークフローです。

アクティビティとアクティビティを繋ぎ一連の処理を実行します。

 

アクティビティ

パイプライン内で実行される個々のタスクで、ADFの最小単位になります。

パイプラインにはアクティビティが1つ以上ある状態になります。

 

トリガー

パライプラインを自動化するために使用します。

スケジュールや特定のイベントに基づく起動が可能です。

 

触ってみよう

1.「データファクトリ」をクリック

2.「+ 作成」をクリック

3.「リソースグループ」を新規で作成するか、既存のリソースグループを選択し、「名前」と「リージョン」を指定し「確認と作成」をクリック

4.「作成」をクリック

5.「リソースに移動」をクリック

6.「スタジオの起動」をクリック

7. (作成者)をクリックすると「パイプライン」、「データセット」、「データフロー」を追加、編集できます

8. (管理)をクリックするとリンクサービスを登録、編集できます

まとめ

Azure Data Factoryの基本的な説明となります。

触った所感としては、GUIで操作する分とっつきやすく、簡単な処理を行う分にはとても使いやすいと思う反面、膨大なデータソースや複雑な変換を行う処理の場合GUIが煩わしくなりそうな気もします。

ただ、多様なデータソースに対応し、アクティビティの種類も豊富な点を考えると使ってみても良いのではと思いました。

弊社ではクラウドやAIを中心としたシステムを提供しております。
ご興味をお持ちいただけましたらお気軽にお問い合わせいただけると幸いです。

いいね (←参考になった場合はハートマークを押して評価お願いします)
読み込み中...

注意事項・免責事項

※技術情報につきましては投稿日時点の情報となります。投稿日以降に仕様等が変更されていることがありますのでご了承ください。

※公式な技術情報の紹介の他、当社による検証結果および経験に基づく独自の見解が含まれている場合がございます。

※これらの技術情報によって被ったいかなる損害についても、当社は一切責任を負わないものといたします。十分な確認・検証の上、ご活用お願いたします。

※当サイトはマイクロソフト社によるサポートページではございません。パーソルクロステクノロジー株式会社が運営しているサイトのため、マイクロソフト社によるサポートを希望される方は適切な問い合わせ先にご確認ください。
 【重要】マイクロソフト社のサポートをお求めの方は、問い合わせ窓口をご確認ください