Twitter Boosts Performance and Cost Efficiency

Twitter increases Hadoop performance and cost efficiency with caching, fast SSDs and more compute.

Executive Overview
Storage I/O can be a significant performance bottleneck for Hadoop* clusters, especially in hyperscale deployments like those at Twitter, where a single cluster can have up to 10,000 nodes and nearly 100 PB of logical storage. The typical Hadoop cluster at Twitter contains over 100,000 hard disk drives (HDDs)—but this configuration was reaching an I/O performance limit because while HDD capacity has increased over time, HDD performance has not significantly changed.2 Therefore, simply adding more, bigger HDDs wasn’t going to solve Twitter’s scaling challenges—in fact, it would make things worse as the I/O per GB decreases. Adding more spindles per node was not feasible due to space and power limitations.

Working in collaboration with an Intel engineering team, Twitter engineers conducted a series of experiments that revealed that storing temporary files managed by YARN* (Yet Another Resource Negotiator*) on a fast SSD enabled significant performance improvements on existing hardware (up to a 50 percent reduction in runtime).3 The team also discovered that removing a storage I/O bottleneck enabled them to use larger hard drives while simultaneously increasing processor utilization, which in turn resulted in the ability to use higher-core-count processors. This positively affected storage performance, and contributed to higher data center density by reducing the number of required HDDs.

Higher density leads to total cost of ownership (TCO) savings through energy efficiency, fewer racks, and a smaller data center footprint. Overall, Twitter expects that caching temporary data and increasing core counts will result in approximately 30 percent lower TCO and over 50 percent faster runtimes, compared to their legacy production cluster configuration.1

Read the white paper - Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute

Explore Related Products and Solutions

Intel® Xeon® Scalable Processors

Drive actionable insight, count on hardware-based security, and deploy dynamic service delivery with Intel® Xeon® Scalable processors.

Learn more

Intel® SSD DC Series

Intel® SSDs for the data center are optimized for performance, reliability, and endurance.

Learn more

Bildirimler ve Uyarılar

Intel® teknolojilerinin özellikleri ve avantajları sistem yapılandırmasına bağlıdır ve etkinleştirilmiş donanım, yazılım ya da hizmet aktivasyonu gerektirebilir. Sistem yapılandırmasına bağlı olarak performansta farklılıklar görülebilir. Hiçbir bilgisayar sistemi mutlak güvenlik sağlayamaz. Sistem üreticinize veya satıcınıza danışın ya da https://www.intel.com.tr adresinden daha fazla bilgi edinin. // Performans testlerinde kullanılan yazılımlar ve iş yükleri yalnızca Intel® mikroişlemcilerde performans sağlayacak şekilde optimize edilmiş olabilir. SYSmark ve MobileMark gibi performans testleri belirli bilgisayar sistemleri, bileşenler, yazılımlar, işlemler ve işlevler kullanılarak ölçülür. Bu etkenlerden herhangi birinde yapılacak bir değişiklik, sonuçların da değişmesine neden olabilir. Satın almayı düşündüğünüz ürünler hakkında tam bir değerlendirme yapabilmek için, bu ürünlerin başka ürünlerle birlikte gösterdiği performans gibi bilgilere ve performans testlerine de başvurmanız gerekir. Daha kapsamlı bilgi için https://www.intel.com.tr/benchmarks adresini ziyaret edin. // Performans sonuçları yapılandırmalarda belirtilen tarih itibarıyle gerçekleştirilen testlere dayalıdır ve genel kullanıma açık tüm güvenlik güncellemelerini içermeyebilir. Ayrıntılar için yapılandırma bilgilerine göz atın. Hiçbir ürün veya bileşen mutlak güvenlik sağlayamaz. // Anlatılan maliyet azaltma senaryoları, belirli bir Intel® işlemcili ürünün, belirtilen durumlarda ve yapılandırmalarla, ileride maliyetleri nasıl etkileyebileceğine ve maliyet tasarrufu sağlayabileceğine dair örnekler vermeyi amaçlamaktadır. Koşullar değişebilir. Intel, herhangi bir maliyet ya da maliyet düşüşü garantisi vermez. // Intel üçüncü taraf karşılaştırma verileri ya da burada belirtilen web sitelerini kontrol etmemekte ya da denetlememektedir. Belirtilen web sitesini ziyaret etmeli ve belirtilen verilerin doğru olup olmadığını teyit etmelisiniz. // Bazı denemelerde sonuçlar, şirket içi Intel analizleri veya mimari simülasyonu ya da modellemesi kullanılarak simüle edilmiş veya modellenmiştir ve bilgi amacıyla verilmiştir. Sistem donanımı, yazılımı veya yapılandırılmasındaki herhangi bir farklılık gerçek performansınızı etkileyebilir.

Ürün ve Performans Bilgileri

1

Temel: Tek yuvalı Intel® Xeon® E3-1230 işlemci v6 (4 çekirdek); 32 – 64 GB RAM; 1 adet 1 TB veya 2 TB HDD; Intel S4500 240 GB önyükleme diski; 1 GbE – 10 GbE Ethernet; önbellek yok. Test: Tek yuvalı Intel® Xeon® Gold 6262 işlemci (24 çekirdek); 192 GB RAM; Intel S4500 240 GB önyükleme diski; 8 adet 6 TB HDD; 1 adet Intel® SSD DC P4610 6,4 TB; 25 GbE Ethernet; Intel® Önbellek Hızlandırma Yazılımı (Intel® CAS) ile önbelleğe alma. İşletim Sistemi: Twitter CentOS* 6 Türevi, Kernel Sürümü 2.6.74-t1.el6.x86_64 (4.14.12 veya üzeri Kernel temel alınarak), BIOS Sürümü: D3WWM11, Mikro Kod Sürümü: 0xb000021.

2

Backblaze, Eylül 2018, "Sabit Disk Sürücüsü (HDD) ve Katı Hal Sürücüsü (SDD): Aralarındaki fark nedir?" https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/.

3

Temel: Çift yuvalı Intel® Xeon® E5-2630 işlemci v4, 2,2 GHz'de (yuva başına 10 çekirdek/20 iş parçacığı); 128 GB RAM; 12 adet 6 TB 7200 RPM SATA HDD; 1 adet SATA SSD önyükleme diski; 25 GbE Ethernet; 6 rafa yayılan 102 düğüm. İş Yükü: Gridmix* ve Terasort*. Gridmix Puanı: 3309 saniye; Terasort Puanı: 5504 saniye Test: Çift yuvalı Intel® Xeon® E5-2630 işlemci v4, 2,2 GHz'de (yuva başına 10 çekirdek/20 iş parçacığı); 128 GB RAM; 12 adet 6 TB 7200 RPM SATA HDD; 1 adet SATA SSD önyükleme diski; 1 adet 750 GB Intel® Optane™ DC P4800X NVMe*, SSD tabanlı; 25 GbE Ethernet; 6 rafa dağılan 102 düğüm. İş Yükü: Gridmix ve Terasort. Gridmix Puanı: 2396 saniye; Terasort Puanı: 2640 saniye İşletim Sistemi: Twitter CentOS* 6 Türevi, Kernel.