新しい会話を開始

未解決

Community Manager

 • 

3.1K メッセージ

183

2022年5月30日 22:00

【Coffee Break】重複排除技術 - ハッシュテーブルが消失、さてどうなる??

coffeebreak.png

 

 

この投稿は「ちょっとしたストレージ関連技術のTIPSを思いついたら書いてみる」というコンセプトで、デル・テクノロジーズ社内のTeamsグループ/チームでゆる~く運営されている「Coffee Break」からの情報抜粋です。今回の投稿はプリセールスチームのDirectorからのものです。

 

 

 

ストレージのデータ削減技術には、重複排除(Deduplication)と圧縮技術(Compression/Compaction)があり、一般的にはこの組み合わせで、データ削減を実装しています。

 

重複排除の実装には、対象のデータ列に対して、ハッシュ値を計算し、その比較をすることで、重複データパターンか、初めてのデータパターンかを確認し、初めてのデータパターンであれば、そのデータをSSD上に書き込み、そのハッシュ値をハッシュテーブルに書き込みます。重複データパターンであれば、データ自身はSSDの書き込みを行わず、管理用のメタデータを更新するだけで書き込み終了としています。


さて、何かしらが原因で、このハッシュテーブルがクリア(消失)したらどうなるのでしょうか?
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
データロスト!!!にはなりません。(そんなの当然。わかってたという方は、さすがですね)




前述のシーケンスは、書き込みIOの際のシーケンスでした。
読み込みIOの場合は、読み込む場所のメタデータを確認して、物理的な場所を特定して、キャッシュ上、もしくはSSD上からデータを読み込みます。。。。。ハッシュテーブルは参照せずに読み込み完了しますので、ハッシュ情報がクリアされいても問題ありません。

 

さて、書き込みデータの場合は、発生する書き込みは新たなデータパターンとして、再度ハッシュテーブルが構築されていくことになります。重複排除率は下がると思いますが、データアクセス上は大きな影響はありません。


データの論理位置と物理位置の関連情報を保存しているメタデータは、極めて重要な情報であり、再生も極めて難しいですが、ハッシュ情報は重複排除率の増加を容認できさえすれば、再生可能な情報です。

fingerprints.png

 

レスポンスがありません。
イベントは見つかりませんでした!

Top