Article Number: 000126324

โลหะเปลือย vs คูเบอร์เน็ตส์ : การฝึกอบรมแบบกระจายด้วย TensorFlow

Summary: TensorFlow, Kubernetes, GPU, การฝึกอบรมแบบกระจาย

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Symptoms

บทความเขียนโดย รักชิต วาซูเดฟ > จอห์น ล็อคแมน - ห้องปฏิบัติการนวัตกรรม HPC AI ในเดือนตุลาคม 2019

Cause

Resolution

สารบัญ

บทนํา
1. โลหะเปลือย
2. Kubernetes
รุ่นซอฟต์แวร์
กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต
ข้อมูลจําเพาะของฮาร์ดแวร์
สมรรถนะ
สรุป

แนะ นำ

ในบทความนี้เราจะประเมินประสิทธิภาพการปรับขนาดเมื่อฝึกอบรม CheXNet บน GPUs Nvidia V100 SXM2 ในเซิร์ฟเวอร์ Dell EMC C4140 โดยใช้สองวิธีที่ใช้ในศูนย์ข้อมูลที่ทันสมัย HPC "Bare Metal" แบบดั้งเดิมที่มีสภาพแวดล้อมที่สร้างขึ้นโดยอนาคอนดาและระบบคอนเทนเนอร์ที่มีคอนเทนเนอร์ Nvidia GPU Cloud (NGC) ที่ทํางานในสภาพแวดล้อม

Kubernetes ออนพรีม โลหะเปลือย
ระบบโลหะเปลือยเป็นคลัสเตอร์ HPC แบบดั้งเดิมที่ติดตั้งกองซอฟต์แวร์โดยตรงบนฮาร์ดดิสก์ภายในเครื่องหรือเมาท์เครือข่ายที่ใช้ร่วมกัน การจัดการสภาพแวดล้อมของซอฟต์แวร์จะดําเนินการโดยผู้ดูแลระบบ ผู้ใช้ถูก จํากัด ให้สร้างซอฟต์แวร์ในระบบไฟล์ที่ใช้ร่วมกัน / ที่บ้าน รหัสผู้ใช้ถูกจัดกําหนดการเป็นชุดงานโดยตัวจัดการ

ปริมาณงาน Slurm Kubernetes
ระบบ Kubernetes (K8s) ของเราใช้คอนเทนเนอร์ NGC ของ Nvidia เพื่อให้ข้อกําหนดเบื้องต้นของซอฟต์แวร์ที่จําเป็นทั้งหมดการกําหนดค่าสภาพแวดล้อม ผู้ดูแลระบบจะติดตั้งระบบปฏิบัติการ ไดรเวอร์ และ k8 พื้นฐานเท่านั้น คอนเทนเนอร์ที่ใช้ Docker เหล่านี้สามารถดาวน์โหลดได้จาก NGC ในระหว่างการทํางานหรือเก็บไว้ในรีจิสทรีในท้องถิ่น K8s จัดการการจัดการปริมาณงานความพร้อมใช้งานของทรัพยากรการเปิดตัวงานกระจายและการปรับขนาดตามความต้องการ

รุ่นซอฟต์แวร์

	ตู้คอนเทนเนอร์ NGC nvcr.io/nvidia/tensorflow:19.06- py3	Conda env Versions
โครงร่าง	TensorFlow 1.13.1	TensorFlow 1.12.0
โฮโรวด์	0.15.1	0.16.1
เอ็มพีไอ	เปิดMPI 3.1.3	เปิดMPI 4.0.0
คูด้า	10.2	10.1
ไดร์เวอร์ CUDA	430.26	418.40.04
เอ็นซีแอล	2.4.7	2.4.7
คัดนน์	7.6.0	7.6.0
หลาม	3.5.2	3.6.8
ระบบปฏิบัติการ	อูบุนตู 16.04.6	RHEL 7.4
จีซีซี	5.4.0	7.2.0

ตารางที่ 1

กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต

ตามที่แนะนําก่อนหน้านี้ CheXNet เป็นรุ่นผู้ช่วยนักรังสีวิทยา AI ที่ใช้ DenseNet เพื่อระบุโรคได้ถึง 14 โรคจากภาพเอ็กซเรย์ทรวงอกที่กําหนด มีการสํารวจหลายแนวทางเพื่อขยายการฝึกอบรมโมเดลที่สามารถทํางานได้ดีและดีกว่า CheXNet-121 ดั้งเดิมด้วย ResNet-50 แสดงให้เห็นถึงคํามั่นสัญญาทั้งในความยืดหยุ่นและความแม่นยําในการฝึกอบรมที่เพิ่มขึ้น (AUROC เชิงบวก) ผู้เขียนแสดงให้เห็นถึงความสเกลฟรานิสต์ในระบบ CPU แต่เราสนใจที่จะใช้ประโยชน์จากความขนานของ GPUs เพื่อเร่งกระบวนการฝึกอบรม Dell EMC PowerEdge C4140 ให้ทั้งความหนาแน่นและประสิทธิภาพด้วย GPUs Nvidia V100 สี่ตัวในการกําหนดค่า SXM2

ข้อมูลจําเพาะของฮาร์ดแวร์

	ระบบโลหะเปลือย	ระบบคูเบอร์เนตส์
แท่น	เพาเวอร์เอดจ์ C4140	เพาเวอร์เอดจ์ C4140
ซีพียู	2 x Intel® ซีออน® ทอง 6148 @2.4GHz	2 x Intel® ซีออน® ทอง 6148 @2.4GHz
ความจำ	384 GB DDR4 @ 2666MHz	384 GB DDR4 @ 2666MHz
การเก็บรักษา	ความมันวาว	เอ็นเอฟเอฟ
จีพียู	V100-SXM2 32GB	V100-SXM2 32GB
ระบบปฏิบัติการ	x86_64 RHEL 7.4	CentOS 7.6
เคอร์เนลลินุกซ์	3.10.0-693.x86_64	3.10.0-957.21.3.el7.x86_64
เครือข่าย	เมลลาน็อกซ์ EDR อินฟินิแบนด์	เมลลาน็อกซ์ EDR อินฟินิแบนด์ (IP ผ่าน IB)

ตารางที่ 2

สมรรถนะ

ปริมาณงานภาพที่วัดเป็นภาพต่อวินาทีเมื่อวัด CheXNet โดยใช้ GPUs 1, 2, 3, 4 และ 8 ในโหนด C4140 2 โหนดบนทั้งสองระบบที่อธิบายไว้ในตารางที่ 2 ข้อมูลจําเพาะของการวิ่งรวมถึงสถาปัตยกรรมแบบจําลองข้อมูลอินพุต ฯลฯ มีรายละเอียดในบทความนี้ รูปที่ 1 แสดงการเปรียบเทียบประสิทธิภาพที่วัดได้ในระบบ Kubernetes และระบบโลหะเปลือย

SLN318899_en_US__1image(12054)
รูปที่ 1: การฝึกอบรม CheXNet บน K8s กับโลหะเปลือย

สรุป

ระบบโลหะเปลือยแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้น 8% เมื่อเราปรับขนาดออกเป็น 8GPUs อย่างไรก็ตามความแตกต่างในการออกแบบสถาปัตยกรรมระบบอาจทําให้เกิดความแตกต่างด้านประสิทธิภาพเล็กน้อยนอกเหนือจากตู้คอนเทนเนอร์เทียบกับข้อโต้แย้งโลหะเปลือย ระบบโลหะเปลือยสามารถใช้ประโยชน์จากแบนด์วิดท์เต็มรูปแบบและเวลาแฝงของการเชื่อมต่อ InfiniBand ดิบและไม่จําเป็นต้องจัดการกับค่าใช้จ่ายที่สร้างขึ้นด้วยเครือข่ายที่กําหนดซอฟต์แวร์เช่นผ้าสักหลาด นอกจากนี้ยังเป็นกรณีที่ระบบ K8s ใช้ IP ผ่าน InfiniBand ซึ่งสามารถลดแบนด์วิดท์ที่มีอยู่
ตัวเลขเหล่านี้อาจแตกต่างกันไปขึ้นอยู่กับปริมาณงานและรูปแบบการสื่อสารที่กําหนดโดยชนิดของแอปพลิเคชันที่เรียกใช้ ในกรณีของปัญหาการจําแนกภาพอัตราที่การสื่อสารเกิดขึ้นระหว่าง GPUs สูงดังนั้นจึงมีอัตราแลกเปลี่ยนสูง อย่างไรก็ตามการใช้วิธีการหนึ่งมากกว่าอีกวิธีหนึ่งขึ้นอยู่กับความต้องการของปริมาณงานหรือไม่ แม้ว่าระบบที่ใช้ Kubernetes ของเราจะมีค่าปรับประสิทธิภาพเล็กน้อย แต่ ~ 8% ในกรณีนี้จะช่วยลดผู้ใช้และผู้ดูแลระบบจากการตั้งค่าไลบรารีการกําหนดค่าสภาพแวดล้อมและการพึ่งพาอื่น ๆ วิธีนี้ช่วยให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิผลมากขึ้นและมุ่งเน้นไปที่การแก้ปัญหาทางธุรกิจหลักเช่นการดิ้นรนข้อมูลและการสร้างแบบจําลอง

โลหะเปลือย vs คูเบอร์เน็ตส์ : การฝึกอบรมแบบกระจายด้วย TensorFlow

Summary: TensorFlow, Kubernetes, GPU, การฝึกอบรมแบบกระจาย

Article Content

Symptoms

Cause

Resolution

สารบัญ

แนะ นำ

รุ่นซอฟต์แวร์

กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต

ข้อมูลจําเพาะของฮาร์ดแวร์

สมรรถนะ

สรุป

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

โลหะเปลือย vs คูเบอร์เน็ตส์ : การฝึกอบรมแบบกระจายด้วย TensorFlow

Summary: TensorFlow, Kubernetes, GPU, การฝึกอบรมแบบกระจาย

Article Content

Symptoms

Cause

Resolution

สารบัญ

แนะ นำ

รุ่นซอฟต์แวร์

กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต

ข้อมูลจําเพาะของฮาร์ดแวร์

สมรรถนะ

สรุป

Article Properties

Affected Product

Last Published Date

Version

Article Type