Tek bir Intel FPGA Programlanabilir Hızlandırma Kartına sahip Falcon Accelerated Genomics Ardışık Düzeni, Alternatif Değişken Arama Hattı aracılığıyla 3 saat içinde 50 x tüm insan genomlarını işlenebilir.
Genel Bakış, Pazar Zorlanması (ihtiyaç), Falcon çözümü ihtiyacı karşılar
Hassas hassasiyet, genom ve epigenetikler araştırma yapmak, tanılamayı iyileştirmek, eczalar geliştirmek, sağlık sağlayıcıları için bakım kalitesini artırmak ve ürün üretimini optimize etmek için genom sıralamasını kullanıyor. Yaşam bilimleri için genom analizi, yeni nesil sıralamadaki (NGS) gelişmelerden veri toplamanın büyük maliyet azaltması nedeniyle artık önemli bir uygulamadır. Artan veri toplamanın yanı sıra üniversiteler, genom araştırma merkezleri, tıbbi şirketler ve sağlık kuruluşları genelinde kullanılan genom uygulamalarında da önemli bir artış oldu.
Her yedi ayda bir genom verisi miktarı ikiye katlanıyor (1). Sonuç olarak veri işleme verimli ve uygun maliyetli bir şekilde kritik hale gelebilir. Yalnızca işlemci çözümlerinin hesaplama gücü, genom veri büyümesine ayak ayak olacak kadar hızlı ölçeklemiyor. Bu, donanım hızlandırma ihtiyacına neden oldu. FPGA'lar gibi hızlandırıcılar, bu genom veri patlamasını içeren hesaplama taleplerine uyum sağlamak için önemli hale geliyor. Donanım hızlandırmalı diğer çözümlerle karşılaştırıldığında Falcon Accelerated Genomics Pipeline (CVEP), esneklik, yüksek aktarım hızı ve örnek başına daha düşük maliyet sunar.
FPGA nedir, Intel PAC teklifi ve Avantajı
FPGA'lar, Şekil 1'de gösterildiği gibi Genom Sıralama, Veri Analizi veya Sıkıştırma gibi iş yüklerinizi tam olarak eşleşen bir veri yolu ile dinamik olarak yeniden programlandırabilirsiniz. Bu çok yönlülük, daha hızlı işleme, daha fazla güç tasarruflu hesaplama ve daha düşük gecikme süresi hizmeti sağlamayı sağlar. Böylece toplam sahip olma maliyetinizi düşürebilir ve veri merkezlerinizin güç, alan ve soğutma kısıtlamaları dahilinde bilgi işlem kapasitesini en üst düzeye çıkarmalısınız.
Geleneksel olarak FPGA'lar program için derin etki alanı uzmanlığı gerektirir. Geliştirme akışını basitleştirmek ve veri merkezinde hızlı dağıtımı etkinleştirmek için Intel, PCI Express* (PCIe*) tabanlı Intel FPGA Programlanabilir Hızlandırma Kartlarını (Intel FPGA PAC) ve FPGA'lara sahip Intel Xeon® CPU için Intel® Hızlandırma Yığınını içeren bir Hızlandırma Platformu sunar. Bu Intel platformları Dell EMC üzerinden nitelikli, doğrulanır ve dağıtılır. Falcon Computing gibi ekosistem iş ortaklarıyla birlikte Intel Acceleration Platform, kapüşon altında şeffaf donanımla güvenilir ve kullanıma hazır bir çözüm sunar.
Şekil 1 Standart GATK ardışık düzeninde iyileştirilmiş doğruluk ve hız
Falcon Solution Ayrıntıları:
Genom Analizi Araç Seti (GATK), genom topluluğu tarafından kabul edilen genom veri işleme için altın standarttır (2). En İyi Uygulama İş Akışı (BPW), Tüm Genom (WGS) gibi büyük örnekler için sonuç oluşturmak için hesaplamadaki yavaşlığıyla iyi bilinir. Falcon Computing Solutions, bu sorunu çözmek için BPW'u takip eden esnek bir araç paketi geliştirmiştir ve birden fazla platform ve mimaride kolayca uygulanabilir. CPU tabanlı GATK ardışık düzenlerine kıyasla birkaç büyük siparişle hızlıdır.
HOMOP, yüksek performans, doğruluk ve tekrarlanabilirlik ile GATK ardışık düzeni kullanarak genom verilerini uygun maliyetli bir şekilde analiz etmek için uca bir çözüm sunar. Çözüm, GATK (3) ile aynı doğrulukla 15 adede kadar hız sağlar. Bu, genellikle 50 ila 60 saat alan bir analizin 4 saat (3) altında gerçekleştirilebileceğini ifade etmektir. WHP, yüksek performanslı, güvenilir Intel Arria 10 FPGA'lar ve Intel® Xeon® işlemcilerle birlikte olağanüstü düzeyde hızlandırma ve doğruluk sağlar.
HOMOP, GATK BPW'yi izler. Hizalamadan (BWA) varyant aramasına (HaplotypeCaller) (4) kadar boru hatlarının birçok bileşeninde hızlandırma sağlar. Hızlandırılmış BWA'ya ek olarak Falcon'dan Alternatif Genom Hattı'nın (5) bir parçası olan aligner Minimap2'nin hızlandırılmış bir sürümünü de içerir. Alternatif ardışık düzen daha da hızlı bir çözüm sağlar. 3 saat içinde 50x Bütün Genom Sıralamasını tamamlar. Her iki hizaleyici de ek araçlara gerek kalmadan işaretli yinelenenler ve sıralanan okumalar oluşturma özelliğine sahiptir.
BAUP, Intel FPGA PAC platformlarını kullanarak GATK ardışık düzeninde yoğun hesaplamayı hızlandırarak yüksek performans/aktarım hızı sağlar. Bu, daha fazla CPU kaynağı ekleyerek yüksek performansa ulaşan ölçeği genişletme çözümlerden farklıdır. Bu tür ölçek genişletme çözümleri, maliyetleri veya örnek başına gecikme süresini azaltma özelliği sınırlıdır.
Falcon çözümün bir diğer avantajı da GATK olarak açık bir ardışık düzendir. Kullanıcılar, ardışık düzende tek tek adımları kontrol etmelerini sağlar. Ara veriler kaydedilir ve erişilebilir.
Tablo 1 Falcon Accelerated Genomics Pipeline'ın Avantajları
Falcon Hızlandırılmış Genom Ardışık Düzeni (HOMOP) Avantajları |
Gerçek GATK |
4.0 dahil olmak üzere birden fazla GATK sürümü için destek |
Sektör ölçeği |
Bir günde beş genom veya 24 bütün ekzome çalıştırın |
Alternatif değişken |
< WGS için 3 saatlik dönüş süresi (50X) |
Hız |
GATK en iyi uygulama ardışık düzeni >15 adede kadar daha hızlı yürütülür |
Mevcut teknolojiden yararlan |
Çalışma algoritmalarını yeniden yazmaya gerek yok |
Dell Donanım Yapılandırması
Tablo 2 Test yatağı olarak Dell EMC PowerEdge R740xd
Dell EMC PowerEdge R740xd |
İşlemci |
2,40 GHz'de 2 adet Intel(R) Xeon(R) Gold 6148 CPU |
Bellek |
32x 16 GB RDIMM'de 384 GB, 2666 MT/sn, Çift Aşamalı |
Depolama |
RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T yazılım RAID 0'da 4x 1,2 TB 10K RPM SAS 12 Gb/sn 512n 2,5 inç Çalışır Durumda Takılabilir Sabit Sürücü |
FPGA |
Intel Arria® 10 GX FPGA ile Intel Programlanabilir Hızlandırma Kartı (Intel Hızlandırma Yığını 1.1) |
Sistem Profili |
Performans |
BIOS sürümü |
2.1.3 |
Hyperthreading |
Enabled (Etkin) |
İşletim Sistemi |
Red Hat Enterprise Linux Server sürüm 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Performans Değerlendirmesi
Karşılaştırmalı testmizde, tüm insan genom sıralama verilerini 10x, 30x ve 50x kapsam derinliğinde kullandık.
Tablo 3 Tüm genom sıralama verileri test edildi
Sonuçlar:
Tablo 4' te, DELL EMC PowerEdge R740xd sunucuda yer alan VELEP ve Intel FPGA PAC kullanılarak üç test döngüsünde GATK 4.0 En İyi Uygulamalar Ardışık Düzeni'nin tamamlanması için gereken süre özetlenmiştir.
Tablo 4 En İyi Uygulama Ardışık Düzeni sürüm 2.1.1'den toplam çalışma zamanı
Örnek |
Kapsam Derinliği |
Test 1 |
Çalışma Zamanı (dakika) Testi 2 |
Test 3 |
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30 x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Tablo 5, alternatif ardışık düzeni tamamlamak için gereken zamanı (dakika cinsinden) özetler: FALCON Germline, DELL EMC PowerEdge R740xd sunucuda bulunan VECLEP ve Intel FPGA PAC kullanarak üç test döngüsünden fazladır.
Tablo 5 Alternatif Değişken Arama Ardışık Düzeninden toplam çalışma zamanı
Örnek |
Kapsam Derinliği |
Test 1 |
Çalışma Zamanı (dakika) Testi 2 |
Test 3 |
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30 x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Falcon Genom Çözümü Özeti
Falcon Accelerated Genomics Pipeline yüksek aktarım hızı, düşük maliyet/örnek/gün avantajı sunar. INTEL FPGA Programlanabilir Hızlandırma Kartı ve sertifikalı DELL sunucusuyla birlikte, GENOM sıralama uygulamalarınız için kolayca benimsenen eksiksiz bir çözüm sunar.
" TCGB olarak, ülke genelindeki müşterilerimize genom sıralama servisleri sağlaruz. Falcon Accelerated Genomics Pipeline*, endüstri standardı GATK boru hatlarının doğruluğunu korurken birkaç saat içinde dönüş sürecimizi birkaç saat içinde kesmemizi sağlandı."
— Genom ve Biyoinformatik (TCGB) UCLA Teknoloji Merkezi Direktörü Dr Xinmin Li
Kaynaklar
1. Genom sıralamak o kadar çok veri oluşturur ki neyle ilgili bilgim yok. [Çevrimiçi] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-it.
2. GATK. [Çevrimiçi]
https://software.broadinstitute.org/gatk/3. Hızlandırılmış Genom. [Çevrimiçi]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Çevrimiçi]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Çevrimiçi]
https://github.com/lh3/minimap2
Intel FPGA PAC'de Falcon Accelerated Genomics Pipeline (FAGP) ile Genom Sıralamayı Güçlendirme (İngilizce)
Tek bir Intel FPGA Programlanabilir Hızlandırma Kartına sahip Falcon Accelerated Genomics Ardışık Düzeni, Alternatif Değişken Arama Hattı aracılığıyla 3 saat içinde 50 x tüm insan genomlarını işlenebilir.