โลหะเปลือย vs คูเบอร์เน็ตส์ : การฝึกอบรมแบบกระจายด้วย TensorFlow

Summary: TensorFlow, Kubernetes, GPU, การฝึกอบรมแบบกระจาย

This article applies to This article does not apply to

Check out resources for

Symptoms

บทความเขียนโดย รักชิต วาซูเดฟ > จอห์น ล็อคแมน - ห้องปฏิบัติการนวัตกรรม HPC AI ในเดือนตุลาคม 2019

Cause

Resolution

สารบัญ

บทนํา
1. โลหะเปลือย
2. Kubernetes
รุ่นซอฟต์แวร์
กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต
ข้อมูลจําเพาะของฮาร์ดแวร์
สมรรถนะ
สรุป

แนะ นำ

ในบทความนี้เราจะประเมินประสิทธิภาพการปรับขนาดเมื่อฝึกอบรม CheXNet บน GPUs Nvidia V100 SXM2 ในเซิร์ฟเวอร์ Dell EMC C4140 โดยใช้สองวิธีที่ใช้ในศูนย์ข้อมูลที่ทันสมัย HPC "Bare Metal" แบบดั้งเดิมที่มีสภาพแวดล้อมที่สร้างขึ้นโดยอนาคอนดาและระบบคอนเทนเนอร์ที่มีคอนเทนเนอร์ Nvidia GPU Cloud (NGC) ที่ทํางานในสภาพแวดล้อม

Kubernetes ออนพรีม โลหะเปลือย
ระบบโลหะเปลือยเป็นคลัสเตอร์ HPC แบบดั้งเดิมที่ติดตั้งกองซอฟต์แวร์โดยตรงบนฮาร์ดดิสก์ภายในเครื่องหรือเมาท์เครือข่ายที่ใช้ร่วมกัน การจัดการสภาพแวดล้อมของซอฟต์แวร์จะดําเนินการโดยผู้ดูแลระบบ ผู้ใช้ถูก จํากัด ให้สร้างซอฟต์แวร์ในระบบไฟล์ที่ใช้ร่วมกัน / ที่บ้าน รหัสผู้ใช้ถูกจัดกําหนดการเป็นชุดงานโดยตัวจัดการ

ปริมาณงาน Slurm Kubernetes
ระบบ Kubernetes (K8s) ของเราใช้คอนเทนเนอร์ NGC ของ Nvidia เพื่อให้ข้อกําหนดเบื้องต้นของซอฟต์แวร์ที่จําเป็นทั้งหมดการกําหนดค่าสภาพแวดล้อม ผู้ดูแลระบบจะติดตั้งระบบปฏิบัติการ ไดรเวอร์ และ k8 พื้นฐานเท่านั้น คอนเทนเนอร์ที่ใช้ Docker เหล่านี้สามารถดาวน์โหลดได้จาก NGC ในระหว่างการทํางานหรือเก็บไว้ในรีจิสทรีในท้องถิ่น K8s จัดการการจัดการปริมาณงานความพร้อมใช้งานของทรัพยากรการเปิดตัวงานกระจายและการปรับขนาดตามความต้องการ

รุ่นซอฟต์แวร์

	ตู้คอนเทนเนอร์ NGC nvcr.io/nvidia/tensorflow:19.06- py3	Conda env Versions
โครงร่าง	TensorFlow 1.13.1	TensorFlow 1.12.0
โฮโรวด์	0.15.1	0.16.1
เอ็มพีไอ	เปิดMPI 3.1.3	เปิดMPI 4.0.0
คูด้า	10.2	10.1
ไดร์เวอร์ CUDA	430.26	418.40.04
เอ็นซีแอล	2.4.7	2.4.7
คัดนน์	7.6.0	7.6.0
หลาม	3.5.2	3.6.8
ระบบปฏิบัติการ	อูบุนตู 16.04.6	RHEL 7.4
จีซีซี	5.4.0	7.2.0

ตารางที่ 1

กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต

ตามที่แนะนําก่อนหน้านี้ CheXNet เป็นรุ่นผู้ช่วยนักรังสีวิทยา AI ที่ใช้ DenseNet เพื่อระบุโรคได้ถึง 14 โรคจากภาพเอ็กซเรย์ทรวงอกที่กําหนด มีการสํารวจหลายแนวทางเพื่อขยายการฝึกอบรมโมเดลที่สามารถทํางานได้ดีและดีกว่า CheXNet-121 ดั้งเดิมด้วย ResNet-50 แสดงให้เห็นถึงคํามั่นสัญญาทั้งในความยืดหยุ่นและความแม่นยําในการฝึกอบรมที่เพิ่มขึ้น (AUROC เชิงบวก) ผู้เขียนแสดงให้เห็นถึงความสเกลฟรานิสต์ในระบบ CPU แต่เราสนใจที่จะใช้ประโยชน์จากความขนานของ GPUs เพื่อเร่งกระบวนการฝึกอบรม Dell EMC PowerEdge C4140 ให้ทั้งความหนาแน่นและประสิทธิภาพด้วย GPUs Nvidia V100 สี่ตัวในการกําหนดค่า SXM2

ข้อมูลจําเพาะของฮาร์ดแวร์

	ระบบโลหะเปลือย	ระบบคูเบอร์เนตส์
แท่น	เพาเวอร์เอดจ์ C4140	เพาเวอร์เอดจ์ C4140
ซีพียู	2 x Intel® ซีออน® ทอง 6148 @2.4GHz	2 x Intel® ซีออน® ทอง 6148 @2.4GHz
ความจำ	384 GB DDR4 @ 2666MHz	384 GB DDR4 @ 2666MHz
การเก็บรักษา	ความมันวาว	เอ็นเอฟเอฟ
จีพียู	V100-SXM2 32GB	V100-SXM2 32GB
ระบบปฏิบัติการ	x86_64 RHEL 7.4	CentOS 7.6
เคอร์เนลลินุกซ์	3.10.0-693.x86_64	3.10.0-957.21.3.el7.x86_64
เครือข่าย	เมลลาน็อกซ์ EDR อินฟินิแบนด์	เมลลาน็อกซ์ EDR อินฟินิแบนด์ (IP ผ่าน IB)

ตารางที่ 2

สมรรถนะ

ปริมาณงานภาพที่วัดเป็นภาพต่อวินาทีเมื่อวัด CheXNet โดยใช้ GPUs 1, 2, 3, 4 และ 8 ในโหนด C4140 2 โหนดบนทั้งสองระบบที่อธิบายไว้ในตารางที่ 2 ข้อมูลจําเพาะของการวิ่งรวมถึงสถาปัตยกรรมแบบจําลองข้อมูลอินพุต ฯลฯ มีรายละเอียดในบทความนี้ รูปที่ 1 แสดงการเปรียบเทียบประสิทธิภาพที่วัดได้ในระบบ Kubernetes และระบบโลหะเปลือย

SLN318899_en_US__1image(12054)
รูปที่ 1: การฝึกอบรม CheXNet บน K8s กับโลหะเปลือย

สรุป

ระบบโลหะเปลือยแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้น 8% เมื่อเราปรับขนาดออกเป็น 8GPUs อย่างไรก็ตามความแตกต่างในการออกแบบสถาปัตยกรรมระบบอาจทําให้เกิดความแตกต่างด้านประสิทธิภาพเล็กน้อยนอกเหนือจากตู้คอนเทนเนอร์เทียบกับข้อโต้แย้งโลหะเปลือย ระบบโลหะเปลือยสามารถใช้ประโยชน์จากแบนด์วิดท์เต็มรูปแบบและเวลาแฝงของการเชื่อมต่อ InfiniBand ดิบและไม่จําเป็นต้องจัดการกับค่าใช้จ่ายที่สร้างขึ้นด้วยเครือข่ายที่กําหนดซอฟต์แวร์เช่นผ้าสักหลาด นอกจากนี้ยังเป็นกรณีที่ระบบ K8s ใช้ IP ผ่าน InfiniBand ซึ่งสามารถลดแบนด์วิดท์ที่มีอยู่
ตัวเลขเหล่านี้อาจแตกต่างกันไปขึ้นอยู่กับปริมาณงานและรูปแบบการสื่อสารที่กําหนดโดยชนิดของแอปพลิเคชันที่เรียกใช้ ในกรณีของปัญหาการจําแนกภาพอัตราที่การสื่อสารเกิดขึ้นระหว่าง GPUs สูงดังนั้นจึงมีอัตราแลกเปลี่ยนสูง อย่างไรก็ตามการใช้วิธีการหนึ่งมากกว่าอีกวิธีหนึ่งขึ้นอยู่กับความต้องการของปริมาณงานหรือไม่ แม้ว่าระบบที่ใช้ Kubernetes ของเราจะมีค่าปรับประสิทธิภาพเล็กน้อย แต่ ~ 8% ในกรณีนี้จะช่วยลดผู้ใช้และผู้ดูแลระบบจากการตั้งค่าไลบรารีการกําหนดค่าสภาพแวดล้อมและการพึ่งพาอื่น ๆ วิธีนี้ช่วยให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิผลมากขึ้นและมุ่งเน้นไปที่การแก้ปัญหาทางธุรกิจหลักเช่นการดิ้นรนข้อมูลและการสร้างแบบจําลอง

Affected Products

High Performance Computing Solution Resources, Poweredge C4140

Article Number: 000126324

Article Type: Solution

Last Modified: 23 Sep 2021

Version: 5

Check if your device is covered by Support Services.

โลหะเปลือย vs คูเบอร์เน็ตส์ : การฝึกอบรมแบบกระจายด้วย TensorFlow

Summary: TensorFlow, Kubernetes, GPU, การฝึกอบรมแบบกระจาย

Symptoms

Cause

Resolution

สารบัญ

แนะ นำ

รุ่นซอฟต์แวร์

กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต

ข้อมูลจําเพาะของฮาร์ดแวร์

สมรรถนะ

สรุป

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

โลหะเปลือย vs คูเบอร์เน็ตส์ : การฝึกอบรมแบบกระจายด้วย TensorFlow

Summary: TensorFlow, Kubernetes, GPU, การฝึกอบรมแบบกระจาย

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

สารบัญ

แนะ นำ

รุ่นซอฟต์แวร์

กรณีการใช้งานในโลกแห่งความเป็นจริง: เช็กซ์เน็ต

ข้อมูลจําเพาะของฮาร์ดแวร์

สมรรถนะ

สรุป

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services