SQL Server ビッグデータクラスターの HDFS 階層化機能でデータレイクを統合

2019.10.31 SQL Server

※このポストは、2019 年 10 月 31 日に投稿されたUnify your data lakes with HDFS tiering in SQL Server Big Data Clustersに加筆および更新を行ったものです

SQL Server 製品チーム、シニアプログラムマネージャー

データの量と種類が増えるにつれ、データを多種多様なデータソースに保存することがより一般的になりました。そして今、多くの組織が、さまざまなデータソースのすべてのデータからいかに洞察を得るかという課題に直面しています。そこでマイクロソフトは、SQL Server 2019 ビッグデータクラスターで革新的な機能強化を行い、新しい HDFS 階層化機能によりデータ仮想化機能をさらに拡張します。

HDFS 階層化機能を使用すると、リモートのデータレイクに保存されている非構造化データにアクセスして、すべてのデータを簡単に統合し、洞察を得ることができるようになります。そのための作業として、リモートの HDFS/S3 互換データソースをローカルの HDFS データレイクにマウントします。

この新機能は、Apache Hadoop オープンソースプロジェクトに対してマイクロソフトが行った最新の大きな貢献であり、まずは SQL Server 2019 ビッグデータクラスターに搭載されて市場投入される予定です。

HDFS 階層化機能について詳しく説明する前に、データプラットフォームである SQL Server ビッグデータクラスターについて簡単にご紹介します。

SQL Server ビッグデータクラスターとは

SQL Server ビッグデータクラスターとは、分析や AI に適した完全なデータプラットフォームであり、非構造化データを含め大量のデータを保存できるローカルの HDFS データレイクが組み込まれています。ビッグデータクラスターでは、クエリの実行や機械学習に、Apache Spark™ と SQL Server の 2 種類のコンピューティングエンジンを利用できます。

HDSF tiering workflow in SQL Server 2019 Big Data Clusters.

現在のところ、SQL Server ビッグデータクラスターで HDFS 階層化機能を使用してマウントできるストレージは、Azure Data Lake Storage Gen2、AWS S3、Isilon、StorageGRID、および Flashblade です。今後さらに対応範囲を拡大し、オンプレミスとクラウド両方でその他の主要な HDFS/S3 互換ストレージソリューションも加えていく予定です。

それでは、HDFS 階層化機能について詳しく見ていきましょう。

HDFS 階層化機能とは

HDFS 階層化機能を使用すると、リモートストレージをお客様のビッグデータクラスターにマウントして、即座に Apache Spark™ または SQL Server からそのリモートデータにシームレスにアクセスできるようになります。

マウントコマンドが発行されると、マウント資格情報を使ってリモートストレージに対する認証が行われ、リモートファイルとディレクトリのメタデータ (ローカルの HDFS へのアクセス許可など) がコピーされます。この処理ではメタデータだけがコピーされるので、それほど時間はかかりません。データを移動するわけではないからです。

マウント処理が完了すると、すぐにリモートデータにアクセスできるようになります。最初の読み取り操作では、読み取られたデータが既定でローカルにキャッシュされます。つまり、次回以降同じデータを読み取る際には、そのローカルキャッシュから読み取りが行われるのでパフォーマンスが上がるということです。

既定のキャッシュサイズは、ローカルの HDFS データレイクが持つ全ストレージ容量の 2% に設定されており、特定のマウントに対するキャッシュは、マウントの更新や削除が行われると空にされます。

単一コマンドでマウントを作成

SQL Server ビッグデータクラスターの HDFS 階層化機能でマウントを作成するには、次のコマンドを使います。

azdata bdc hdfs mount create –remote-uri <リモートストレージの URI> –mount-path <ローカルの HDFS のパス>

SQL Server ビッグデータクラスターの HDFS 階層化機能の使用方法については、こちらのビデオをご覧ください。

黒い背景で公開された data() として記述されたコード

今までは、これほど簡単にローカルのビッグデータクラスターからリモートデータやクラウドの無制限ストレージに即座にアクセスできる方法はありませんでした。ただし、使いやすさだけが HDFS 階層化機能の利点ではありません。

コストを削減し、データの移動を減らす

HDFS 階層化機能を使用すると、データレイク間で大量のデータをコピーして、データを移動するための統合パイプラインを別途維持しなくても、より低コストのオブジェクトストアにデータを残したまま、オンデマンドの読み取りとキャッシュによって所要時間を短縮できます。

ビッグデータをセキュアに共有

HDFS 階層化機能によって、容易に組織のビッグデータをすべてのチームとセキュアに共有し、データを最大限活用できるようになります。マウントを行うと、リモートアクセス許可がローカルのデータレイクにコピーされるため、リモートデータへのアクセスが行われる際には常にそのリモートアクセス許可が使用されることになります。その上、HDFS 階層化機能では、OAuth アクセスキーを使用してリモートのデータソースに対する認証を行うセキュアなマウント処理がサポートされています。また、Azure Active Directory での Kerberos と Azure Active Directory の結合されたデータソースに対するマウント処理へのサポートも、間もなく提供される予定です。

コンピューティングエンジン間でのポータビリティ

各種データレイクのすべてのデータを分析することで、特定のユースケースに最適なコンピューティングエンジンを自由に使用できるようになります。ビッグデータクラスターでは、データの処理や分析に SQL Server と Apache Spark™ をすぐに利用できるようになっています。HDFS 階層化機能によって、両方のコンピューティングエンジンで、ローカルだけでなくマウントされたデータレイクのデータもシームレスに処理できます。

ぜひお客様も HDFS 階層化機能のメリットを実際にご体験ください。

“HDFS 階層化機能のおかげで、開発における時間とコストを大幅に節減することができました。当社では Azure Data Lake Storage Gen2 に大量のデータを保存しています。HDFS 階層化機能によって、簡単にそれらの場所にあるデータにマウントできるようになり、統合プロセスを別途作成して維持する必要がなくなりました。” – ENGIE North America、データ統合担当アプリケーションマネジメントアドバイザー、Lance Milton 氏

SQL Server ビッグデータクラスターの HDFS 階層化機能を使ってデータレイクを統合する方法の詳細については、こちらの HDFS 階層化機能に関するドキュメントをご覧ください。また、この HDFS の新しい動的なマウント機能の技術的詳細に関心をお持ちの方は、ぜひこちらの Jira のページをご確認ください。

※本情報の内容 (添付文書、リンク先などを含む) は、作成日時点でのものであり、予告なく変更される場合があります。

技術ブログ

Azureに関する技術情報