Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

โลหะเปลือย vs คูเบอร์เน็ตส์ : การฝึกอบรมแบบกระจายด้วย TensorFlow

Summary: TensorFlow, Kubernetes, GPU, การฝึกอบรมแบบกระจาย

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

บทความเขียนโดย รักชิต วาซูเดฟ > จอห์น ล็อคแมน - ห้องปฏิบัติการนวัตกรรม HPC AI ในเดือนตุลาคม 2019

Cause

-

Resolution

สารบัญ

  1. บทนํา
    1. โลหะเปลือย
    2. Kubernetes
  2. รุ่นซอฟต์แวร์
  3. กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต
  4. ข้อมูลจําเพาะของฮาร์ดแวร์
  5. สมรรถนะ
  6. สรุป
     

แนะ นำ

ในบทความนี้เราจะประเมินประสิทธิภาพการปรับขนาดเมื่อฝึกอบรม CheXNet บน GPUs Nvidia V100 SXM2 ในเซิร์ฟเวอร์ Dell EMC C4140 โดยใช้สองวิธีที่ใช้ในศูนย์ข้อมูลที่ทันสมัย HPC "Bare Metal" แบบดั้งเดิมที่มีสภาพแวดล้อมที่สร้างขึ้นโดยอนาคอนดาและระบบคอนเทนเนอร์ที่มีคอนเทนเนอร์ Nvidia GPU Cloud (NGC) ที่ทํางานในสภาพแวดล้อม

Kubernetes ออนพรีม โลหะเปลือย
ระบบโลหะเปลือยเป็นคลัสเตอร์ HPC แบบดั้งเดิมที่ติดตั้งกองซอฟต์แวร์โดยตรงบนฮาร์ดดิสก์ภายในเครื่องหรือเมาท์เครือข่ายที่ใช้ร่วมกัน การจัดการสภาพแวดล้อมของซอฟต์แวร์จะดําเนินการโดยผู้ดูแลระบบ ผู้ใช้ถูก จํากัด ให้สร้างซอฟต์แวร์ในระบบไฟล์ที่ใช้ร่วมกัน / ที่บ้าน รหัสผู้ใช้ถูกจัดกําหนดการเป็นชุดงานโดยตัวจัดการ

ปริมาณงาน Slurm Kubernetes
ระบบ Kubernetes (K8s) ของเราใช้คอนเทนเนอร์ NGC ของ Nvidia เพื่อให้ข้อกําหนดเบื้องต้นของซอฟต์แวร์ที่จําเป็นทั้งหมดการกําหนดค่าสภาพแวดล้อม ผู้ดูแลระบบจะติดตั้งระบบปฏิบัติการ ไดรเวอร์ และ k8 พื้นฐานเท่านั้น คอนเทนเนอร์ที่ใช้ Docker เหล่านี้สามารถดาวน์โหลดได้จาก NGC ในระหว่างการทํางานหรือเก็บไว้ในรีจิสทรีในท้องถิ่น K8s จัดการการจัดการปริมาณงานความพร้อมใช้งานของทรัพยากรการเปิดตัวงานกระจายและการปรับขนาดตามความต้องการ
 

รุ่นซอฟต์แวร์

 

ตู้คอนเทนเนอร์ NGC nvcr.io/nvidia/tensorflow:19.06- py3

Conda env Versions

โครงร่าง

TensorFlow 1.13.1

TensorFlow 1.12.0

โฮโรวด์

0.15.1

0.16.1

เอ็มพีไอ

เปิดMPI 3.1.3

เปิดMPI 4.0.0

คูด้า

10.2

10.1

ไดร์เวอร์ CUDA

430.26

418.40.04

เอ็นซีแอล

2.4.7

2.4.7

คัดนน์

7.6.0

7.6.0

หลาม

3.5.2

3.6.8

ระบบปฏิบัติการ

อูบุนตู 16.04.6

RHEL 7.4

จีซีซี

5.4.0

7.2.0

ตารางที่ 1
 


กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต

ตามที่แนะนําก่อนหน้านี้ CheXNet เป็นรุ่นผู้ช่วยนักรังสีวิทยา AI ที่ใช้ DenseNet เพื่อระบุโรคได้ถึง 14 โรคจากภาพเอ็กซเรย์ทรวงอกที่กําหนด มีการสํารวจหลายแนวทางเพื่อขยายการฝึกอบรมโมเดลที่สามารถทํางานได้ดีและดีกว่า CheXNet-121 ดั้งเดิมด้วย ResNet-50 แสดงให้เห็นถึงคํามั่นสัญญาทั้งในความยืดหยุ่นและความแม่นยําในการฝึกอบรมที่เพิ่มขึ้น (AUROC เชิงบวก) ผู้เขียนแสดงให้เห็นถึงความสเกลฟรานิสต์ในระบบ CPU แต่เราสนใจที่จะใช้ประโยชน์จากความขนานของ GPUs เพื่อเร่งกระบวนการฝึกอบรม Dell EMC PowerEdge C4140 ให้ทั้งความหนาแน่นและประสิทธิภาพด้วย GPUs Nvidia V100 สี่ตัวในการกําหนดค่า SXM2
 


ข้อมูลจําเพาะของฮาร์ดแวร์

 

ระบบโลหะเปลือย

ระบบคูเบอร์เนตส์

แท่น

เพาเวอร์เอดจ์ C4140

เพาเวอร์เอดจ์ C4140

ซีพียู

2 x Intel® ซีออน® ทอง 6148 @2.4GHz

2 x Intel® ซีออน® ทอง 6148 @2.4GHz

ความจำ

384 GB DDR4 @ 2666MHz

384 GB DDR4 @ 2666MHz

การเก็บรักษา

ความมันวาว

เอ็นเอฟเอฟ

จีพียู

V100-SXM2 32GB

V100-SXM2 32GB

ระบบปฏิบัติการ

x86_64 RHEL 7.4

CentOS 7.6

เคอร์เนลลินุกซ์

3.10.0-693.x86_64

3.10.0-957.21.3.el7.x86_64

เครือข่าย

เมลลาน็อกซ์ EDR อินฟินิแบนด์

เมลลาน็อกซ์ EDR อินฟินิแบนด์

(IP ผ่าน IB)

ตารางที่ 2
 

สมรรถนะ

ปริมาณงานภาพที่วัดเป็นภาพต่อวินาทีเมื่อวัด CheXNet โดยใช้ GPUs 1, 2, 3, 4 และ 8 ในโหนด C4140 2 โหนดบนทั้งสองระบบที่อธิบายไว้ในตารางที่ 2 ข้อมูลจําเพาะของการวิ่งรวมถึงสถาปัตยกรรมแบบจําลองข้อมูลอินพุต ฯลฯ มีรายละเอียดในบทความนี้ รูปที่ 1 แสดงการเปรียบเทียบประสิทธิภาพที่วัดได้ในระบบ Kubernetes และระบบโลหะเปลือย

 SLN318899_en_US__1image(12054)
รูปที่ 1: การฝึกอบรม CheXNet บน K8s กับโลหะเปลือย
 


สรุป

ระบบโลหะเปลือยแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้น 8% เมื่อเราปรับขนาดออกเป็น 8GPUs อย่างไรก็ตามความแตกต่างในการออกแบบสถาปัตยกรรมระบบอาจทําให้เกิดความแตกต่างด้านประสิทธิภาพเล็กน้อยนอกเหนือจากตู้คอนเทนเนอร์เทียบกับข้อโต้แย้งโลหะเปลือย ระบบโลหะเปลือยสามารถใช้ประโยชน์จากแบนด์วิดท์เต็มรูปแบบและเวลาแฝงของการเชื่อมต่อ InfiniBand ดิบและไม่จําเป็นต้องจัดการกับค่าใช้จ่ายที่สร้างขึ้นด้วยเครือข่ายที่กําหนดซอฟต์แวร์เช่นผ้าสักหลาด นอกจากนี้ยังเป็นกรณีที่ระบบ K8s ใช้ IP ผ่าน InfiniBand ซึ่งสามารถลดแบนด์วิดท์ที่มีอยู่ 
ตัวเลขเหล่านี้อาจแตกต่างกันไปขึ้นอยู่กับปริมาณงานและรูปแบบการสื่อสารที่กําหนดโดยชนิดของแอปพลิเคชันที่เรียกใช้ ในกรณีของปัญหาการจําแนกภาพอัตราที่การสื่อสารเกิดขึ้นระหว่าง GPUs สูงดังนั้นจึงมีอัตราแลกเปลี่ยนสูง อย่างไรก็ตามการใช้วิธีการหนึ่งมากกว่าอีกวิธีหนึ่งขึ้นอยู่กับความต้องการของปริมาณงานหรือไม่ แม้ว่าระบบที่ใช้ Kubernetes ของเราจะมีค่าปรับประสิทธิภาพเล็กน้อย แต่ ~ 8% ในกรณีนี้จะช่วยลดผู้ใช้และผู้ดูแลระบบจากการตั้งค่าไลบรารีการกําหนดค่าสภาพแวดล้อมและการพึ่งพาอื่น ๆ วิธีนี้ช่วยให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิผลมากขึ้นและมุ่งเน้นไปที่การแก้ปัญหาทางธุรกิจหลักเช่นการดิ้นรนข้อมูลและการสร้างแบบจําลอง


 


 

 

Article Properties


Affected Product

High Performance Computing Solution Resources, Poweredge C4140

Last Published Date

23 Sep 2021

Version

5

Article Type

Solution