บทความเขียนโดย รักชิต วาซูเดฟ > จอห์น ล็อคแมน - ห้องปฏิบัติการนวัตกรรม HPC AI ในเดือนตุลาคม 2019
ตู้คอนเทนเนอร์ NGC nvcr.io/nvidia/tensorflow:19.06- py3 |
Conda env Versions |
|
โครงร่าง |
TensorFlow 1.13.1 |
TensorFlow 1.12.0 |
โฮโรวด์ |
0.15.1 |
0.16.1 |
เอ็มพีไอ |
เปิดMPI 3.1.3 |
เปิดMPI 4.0.0 |
คูด้า |
10.2 |
10.1 |
ไดร์เวอร์ CUDA |
430.26 |
418.40.04 |
เอ็นซีแอล |
2.4.7 |
2.4.7 |
คัดนน์ |
7.6.0 |
7.6.0 |
หลาม |
3.5.2 |
3.6.8 |
ระบบปฏิบัติการ |
อูบุนตู 16.04.6 |
RHEL 7.4 |
จีซีซี |
5.4.0 |
7.2.0 |
ตารางที่ 1
ตามที่แนะนําก่อนหน้านี้ CheXNet เป็นรุ่นผู้ช่วยนักรังสีวิทยา AI ที่ใช้ DenseNet เพื่อระบุโรคได้ถึง 14 โรคจากภาพเอ็กซเรย์ทรวงอกที่กําหนด มีการสํารวจหลายแนวทางเพื่อขยายการฝึกอบรมโมเดลที่สามารถทํางานได้ดีและดีกว่า CheXNet-121 ดั้งเดิมด้วย ResNet-50 แสดงให้เห็นถึงคํามั่นสัญญาทั้งในความยืดหยุ่นและความแม่นยําในการฝึกอบรมที่เพิ่มขึ้น (AUROC เชิงบวก) ผู้เขียนแสดงให้เห็นถึงความสเกลฟรานิสต์ในระบบ CPU แต่เราสนใจที่จะใช้ประโยชน์จากความขนานของ GPUs เพื่อเร่งกระบวนการฝึกอบรม Dell EMC PowerEdge C4140 ให้ทั้งความหนาแน่นและประสิทธิภาพด้วย GPUs Nvidia V100 สี่ตัวในการกําหนดค่า SXM2
ระบบโลหะเปลือย |
ระบบคูเบอร์เนตส์ |
|
แท่น |
เพาเวอร์เอดจ์ C4140 |
เพาเวอร์เอดจ์ C4140 |
ซีพียู |
2 x Intel® ซีออน® ทอง 6148 @2.4GHz |
2 x Intel® ซีออน® ทอง 6148 @2.4GHz |
ความจำ |
384 GB DDR4 @ 2666MHz |
384 GB DDR4 @ 2666MHz |
การเก็บรักษา |
ความมันวาว |
เอ็นเอฟเอฟ |
จีพียู |
V100-SXM2 32GB |
V100-SXM2 32GB |
ระบบปฏิบัติการ |
x86_64 RHEL 7.4 |
CentOS 7.6 |
เคอร์เนลลินุกซ์ |
3.10.0-693.x86_64 |
3.10.0-957.21.3.el7.x86_64 |
เครือข่าย |
เมลลาน็อกซ์ EDR อินฟินิแบนด์ |
เมลลาน็อกซ์ EDR อินฟินิแบนด์ (IP ผ่าน IB) |
ปริมาณงานภาพที่วัดเป็นภาพต่อวินาทีเมื่อวัด CheXNet โดยใช้ GPUs 1, 2, 3, 4 และ 8 ในโหนด C4140 2 โหนดบนทั้งสองระบบที่อธิบายไว้ในตารางที่ 2 ข้อมูลจําเพาะของการวิ่งรวมถึงสถาปัตยกรรมแบบจําลองข้อมูลอินพุต ฯลฯ มีรายละเอียดในบทความนี้ รูปที่ 1 แสดงการเปรียบเทียบประสิทธิภาพที่วัดได้ในระบบ Kubernetes และระบบโลหะเปลือย
รูปที่ 1: การฝึกอบรม CheXNet บน K8s กับโลหะเปลือย
ระบบโลหะเปลือยแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้น 8% เมื่อเราปรับขนาดออกเป็น 8GPUs อย่างไรก็ตามความแตกต่างในการออกแบบสถาปัตยกรรมระบบอาจทําให้เกิดความแตกต่างด้านประสิทธิภาพเล็กน้อยนอกเหนือจากตู้คอนเทนเนอร์เทียบกับข้อโต้แย้งโลหะเปลือย ระบบโลหะเปลือยสามารถใช้ประโยชน์จากแบนด์วิดท์เต็มรูปแบบและเวลาแฝงของการเชื่อมต่อ InfiniBand ดิบและไม่จําเป็นต้องจัดการกับค่าใช้จ่ายที่สร้างขึ้นด้วยเครือข่ายที่กําหนดซอฟต์แวร์เช่นผ้าสักหลาด นอกจากนี้ยังเป็นกรณีที่ระบบ K8s ใช้ IP ผ่าน InfiniBand ซึ่งสามารถลดแบนด์วิดท์ที่มีอยู่
ตัวเลขเหล่านี้อาจแตกต่างกันไปขึ้นอยู่กับปริมาณงานและรูปแบบการสื่อสารที่กําหนดโดยชนิดของแอปพลิเคชันที่เรียกใช้ ในกรณีของปัญหาการจําแนกภาพอัตราที่การสื่อสารเกิดขึ้นระหว่าง GPUs สูงดังนั้นจึงมีอัตราแลกเปลี่ยนสูง อย่างไรก็ตามการใช้วิธีการหนึ่งมากกว่าอีกวิธีหนึ่งขึ้นอยู่กับความต้องการของปริมาณงานหรือไม่ แม้ว่าระบบที่ใช้ Kubernetes ของเราจะมีค่าปรับประสิทธิภาพเล็กน้อย แต่ ~ 8% ในกรณีนี้จะช่วยลดผู้ใช้และผู้ดูแลระบบจากการตั้งค่าไลบรารีการกําหนดค่าสภาพแวดล้อมและการพึ่งพาอื่น ๆ วิธีนี้ช่วยให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิผลมากขึ้นและมุ่งเน้นไปที่การแก้ปัญหาทางธุรกิจหลักเช่นการดิ้นรนข้อมูลและการสร้างแบบจําลอง