未解決
Moderator
•
6.7K メッセージ
1
133
[Meet The Experts]Dell Data Lakehouse
衝撃的な記事がCommunityに掲載されました。
IsilonianTech 第28回 Dell Data Lakehouse
なんだかとても面白そうなプロダクトが出たみたい!
早速この記事の作者であるUDSの安井氏に突撃です。
Expert:Yasui, Kenji (kenji_yasui)
自作のアバターはAIで以下のプロンプトで作成。
「40代半ばでメガネをかけていて白髪が気になる非構造化データストレージ製品を扱っている日本人SEで背景にPowerScaleが並んでいる」
IsilonianTechブログで常に最新のPowerScale情報を提供してくれるMr テック。その知識はPowerScaleだけにとどまらない。
Data Swampからの脱却
Ayas:今なぜDell Data Lakehouseなんですか?
安井氏:AIなどでデータ分析への期待度が再び高まっているという側面があるのではないでしょうか。データは整えて適切に分析しないと正解にたどり着けない。またBIでもアドホックに分析したい要求が高まっている。
ビッグデータを実際に扱う企業の中で見えてきたそのような問題点を解決しようという動きの中で出てきたのがData Lakehouseであり、今までビッグデータを蓄えるためのData Lakeを提供してきたDell Technologiesがキュレーションも含めてもう一歩踏み出し、Data Lakehouseの世界にも足を踏み入れたというのが現状の流れなのかなと考えています。
Ayas:Data Lakeとしてデータを一括して蓄えておくだけではなく、整然とした保管と効果的な利用を目指すのですね。Data Swamp(データ吹き溜まり)からの脱却ですね。
安井氏:その通りです。今まではDell Technologiesのファイルやオブジェクトストレージを中心にData Lakeとしてデータを効率良く貯めることに特化したサービスを提供してまいりましたが、クエリエンジン(DDAE)をつけてData Lakehouseソリューションとして提供することが可能となりました。AIやデータ分析を目的とした効率の良いデータの取得方法が課題となっている今、ご期待に沿うことができると確信しています。
Ayas:Data Lakehouse環境を持ちたいけれど自前でやるのは大変、だからDell Technologiesがワンストップで環境を提供しますよ、ということですか。
安井氏:そうですね。Data Lakehouseのクエリエンジンとオブジェクトストレージはアプライアンスなので運用の負荷はだいぶ減ると思いますし、利用者はある意味パブリッククラウドのような感覚で使って頂けると思います。
レイヤの追加
Uehara Y.:Data Lakehouseを調べてみるとその階層構造がやたらと多いですよね。その中でもParquet とか、ICEBERG/DELTA LAKEあたり・・・
僕はてっきりData Lakeを利用してデータを一か所に貯めておけば、HadoopがNFSやCIFSなどのどのようなファイルフォーマットに対してもうまい具合にデータを使いやすいように読み取って処理してくれると勘違いしていたので、こんなに階層は必要ないと思っていました。
安井氏:ParquetはHadoopの時代からある列指向のファイル形式です。CSVやJSONのデータをHadoopで処理して、その結果をParquetで保存する、というようなことが以前から行われてきました。
しかしData Warehouseのように扱うにはHiveメタストアへの依存度が大きかった。
そのような課題があるにも関わらずデータはどんどんと増えて行く。そのためにそれらの課題を解決する方法が求められるようになりました。そこでICEBERGやDELTA LAKEといったテクノロジーが登場し、Data Warehouseに必要な高速性、ACID性、タイムトラベル性などを兼ね備えさせた。
結果、かつてData Lakeを利用していた方も、Data Warehouseを利用していた方もどちらも満足できるようなモダンで最適化されたData Lakehouse環境の構築が可能になった、という感じですね。
Uehara Y.:ICEBERGやDELTA LAKEなどのメタデータを利用したテーブルフォーマットというレイヤを追加したからこそ、データを適切に高速分析することが可能なData Lakehouseが生まれたんですね。
安井氏:はい。オープンテーブルフォーマットは、どれが正解ということはないですが最近の動向を見るとICEBERGの存在感が大きくなっていると思います。
ICEBERGはプラットフォームに依存しない柔軟性があり、DDAEにおいても相性が1番良いと感じます。
Uehara Y.:ちょっとそもそもの話に戻ってしまうかもしれないのですが、そんなに解析を早くしてData Lakehouseを使いたいという要求ってマーケットに多数あるんでしょうか。
安井氏:IoT機器からデータを取得してパフォーマンスの監視や異常の検知を行うなどは典型的な利用例だと考えられます。また、近年注目されているAIやMLでも大量に生成される新鮮なRawデータを、可能な限り高速に処理したい、というようなニーズは高まっているのではないでしょうか。
Uehara Y.:なるほど。ICEBERGもNetflix社が必要として生まれたものだったり、似たような仕組みでHudiというものもあると思うのですが、あれはUber社が開発したものだったりであることを考えると、MLを活用している業界で必要とされるものである、というのは腑に落ちますね。
Dell Data Lakehouseとは
Ayas:Data Lakehouseのエリアはまだ各社手探り、という話でしたが今回リリースされたDell Data Lakehouseの特徴は何ですか?
安井氏:クラウドで構築され運用されていることの多いData Lakehouseをオンプレにも、というのがDell Data Lakehouseの一番の独自性じゃないでしょうか。クエリエンジン(DDAE)を通じてクラウドやオンプレにある様々なデータソースにアクセスできる点もポイントです。また、データの格納場所としてAll FlashのECSを使えば、クラウドストレージのS3を基本としたシステムよりもコスパが良く高速に処理出来ますし、取ってきたデータをクエリするのはStarburstを乗せたPowerEdge=DDAEであるために、ここでも高速処理の恩恵を受けられる、しかもワーカノードを増やせば並列処理もスケールアウトできる。
Ayas:ターゲットとしては古くなったData Lakeをどうしようか悩んでいる人達ですか?
安井氏:ターゲットの一つ、ではあります。クラウドセントリックな環境でもオンプレ志向の要求は結構あるので、ストレージのエキスパートであるDell Technologiesが提供するこのDell Data Lakehouseはオンプレ志向を少しでも持った方々にも響くのではないかと考えています。また、データ管理そのものにお悩みを持たれているお客様に対しても、Dell Technologiesとしてコンサルティングサービスやサポートの観点でもお役に立てると思います。
とびっきりのストレージととびっきりのコンピュートを持つDell Technoliogiesがクラウド主流のData Lakehouse業界で大暴れする日は近いのかも!と思ったAyasでした。
用語の説明
AI:Artificial Intelligence。人間の思考や行動をコンピューターや機械を利用して模倣・再現する技術
BI:Business intelligence。企業の意思決定に必要な情報を分析して得られる知見を活用する仕組み
ML:Machine Learning。コンピューターが大量のデータを処理・分析してルールやパターンを発見する技術
Data Lake:さまざまなソースから収集した構造化データと非構造化データを保存する場所
Data Warehouse:データ分析のための構造化データがすぐに使える状態で格納されている場所
Hiveメタストア:Hadoop環境でSQLクエリー処理を実現するためのテーブルメタデータ
ACID:トランザクションを定義する4つの重要な特性、Atomicity(原子性)、Consistency(一貫性)、Isolation(独立性)、Durability(永続性)
タイムトラベル性:変更されたデータでも何時でも任意の過去の状態にアクセスできること
DDAE:Dell Data Analystics Engine。ハードウェアはPowerEdge、中にStarburstなどData解析のためのクエリ機能を持つ