未解決
1 Rookie
•
22 メッセージ
2
310
IsilonianTech 第28回 Dell Data Lakehouse
そろそろ春の気配を感じる今日この頃、いかがお過ごしでしょうか?
AIやアナリティクスにはデータの品質かつ鮮度が重要ですが、企業や組織ではマルチクラウド(オンプレミスならびにパブリッククラウド)全体でデータが急速に増大しておりデータソースや扱うフォーマットの種類が多岐にわたっています。また、データを活用するにあたり、一部のデータを汎用もしくは独自のツールで繋いだりコピーしたりすることも多いかと思いますが、従来の方法ではSSoT(Single Source of Truth: 信頼できる唯一の情報源)を実現することは不可能になってきています。
データ仮想化とも呼ばれていますが、データを論理的に一元化するための単一アクセスポイント(Single Point of Access)を実現すべく、Dell Technologiesでは昨年からStarburst Data社との協業によりAIとアナリティクス分野の取り組みを強化してまいりました。協業から1年が経ち、この度Dell Data Lakehouseとして、インフラストラクチャ、ソフトウェア、サービスの全てを統合したデータレイクハウスソリューションを発表いたしました。
Dell Data Lakehouseでご提供可能な主なポイントは下記となります。
- データサイロをなくす…50種類以上のデータソースやアプリケーションと接続するコネクタを用意し、単一のアクセスポイントを提供します。同時にフェデレーテッド クエリによってデータオンプレミスとパブリッククラウドに存在する企業内外のデータソースに対してデータの移動を伴わずにアクセス可能にします。
- 拡張性および性能…コンピュートとストレージを分離することでシステムの拡張性と柔軟性を保ち、分散型の大規模並列処理エンジンによる高性能でスケールアウト可能なシステムを提供します。
- オープンアーキテクチャ…統合型のシステムやベンダ固有のフォーマットをなくし、オープン アーキテクチャ(オープン テーブル フォーマットであるApache Iceberg、Delta Lakeや、オープン ファイル フォーマットであるParquet、AVRO、ORC)に対応することでベンダロックインを防ぎます。
- 洞察(データ)の民主化…一般的なSQLによるセルフサービス アクセスを提供し、BI、AI(GenAI)、ML ツールなどの幅広いエコシステムと統合することで組織全体のイノベーションを実現します。
- シンプルな導入と運用…ターンキー ソリューションによって購入から構築、管理を簡素化します。また、ハードウェアだけでなく最新のソフトウェアテクノロジに関してもエンタープライズクラスのサポートを提供します。
Dell Data Lakehouseは昨年のDell Validated Designの「Data Lakehouse with Red Hat OpenShift Container Platform」から更に進化してソリューション一式をアプライアンスで提供いたします。Dell Data Lakehouseを構成するシステムコンポーネントは下記となります。
- Data Analytics Engine…Starburst Enterpriseをベースとしたデータ分析エンジン
- Data Lakehouseシステムソフトウェア…Data Lakehouseスタック(クラスタ)全体の管理
- スケールアウト コンピューティング…最新のDell PowerEdgeサーバ
- スケールアウト オブジェクトストレージ…Dell ECS、ObjectScale、PowerScale
上段の2つ(Data Analytics EngineとData Lakehouseシステムソフトウェア)が見慣れないと思いますが、この2つのコンポーネントが今回Dell Data Lakehouse専用に開発されDDAE-660アプライアンスに組み込まれております。
下段2つに関しては既にお馴染みかと思いますが、Dell Technologiesでは過去においてもHadoopや分析基盤の環境ではPowerScaleやECSでコンピュートとストレージを分離することのメリットを訴求しておりました。Dell Data Lakehouseにおいてもコンセプトは変わらずPowerEdgeをベースとしたスケールアウト コンピューティングとECSをはじめとするスケールアウト オブジェクト、スケールアウト ファイルストレージを提供します。
Data Analytics Engineが提供する価値は様々なものが挙げられますが、データエンジニア、データアナリスト、データサイエンティスト、ITインフラ担当者の目線で見た場合のメリットは下記となります。
Dell ECSをはじめとしたDell Technologiesのオブジェクトストレージは、エンタープライズクラスのパフォーマンス、拡張性、耐障害性、安全性、経済性を提供します。ECSは数十テラバイトからエクサバイトまで拡張でき、従来から分析基盤やデータレイクのストレージとして多くご採用頂いておりますが、従来のCloudera、snowflake、databricksなどアナリティクス分野をリードする企業との協業に加えて、今回のDell Data LakehouseにおいてもApache Iceberg形式での保存だけでなく、フォルトトレラント実行や、マテリアライズド ビューの格納先などレイクハウスの中心となる役割を務めます。
以上、簡単ではございますが今回のDell Data Lakehouseの発表についての概要となります。今回の発表でハードウェアならびにソフトウェア業界をリードするベンダによるオープン エコシステムよってお客様のデータマネジメントを強力にご支援する体制が整いました。
Dell Data Lakehouseでインフラストラクチャ、ソフトウェア、サービスを一気通貫でご提供することにより、お客様の持つデータのポテンシャルを最大限に引き出すことが出来ると確信しておりますので、ご興味をお持ち頂けましたらお気軽に弊社担当までご連絡ください。
各種リソース
Accelerate AI with an open, modern data lakehouse.
Dell Data Lakehouse Documentation Index
Dell ECS: Data Lake with Apache Iceberg
安井 謙治
Dell Technologies│Unstructured Data Solutions
デル・テクノロジーズ株式会社 UDS事業本部 SE部