İnatçı Problemler

Intel’den Bob Rogers'dan neredeyse her analiz projesinden değer elde etme konusunda görüşler.

Bir problemin çözülmesi imkansız gibi göründüğünde bile, anlamlı sonuçlar elde etmenin yolları vardır. Intel baş veri bilimcisi Bob Rogers nasıl olduğunu açıklıyor.

Bir serbest yatırım fonunun yöneticisi olarak görev aldığım on yılı aşkın süreyi, vadeli işlem sözleşmesi tahminleri yaparak geçirdim. Elimizde on yıllar öncesine kadar giden dakika, gün, hafta, ay bazında veriler vardı, ancak bu verilerin o kadar çok rasgele bileşeni vardı ki belirli bir doğruluğun ötesinde otomatik tahmini imkansız kılıyordu. İnsanların belirli bir anda satış yapmasını veya satın alım gerçekleştirmesini destekleyen nedenler ve kısa süreli alım satım yapan çok sayıda yatırımcı olması, ne yaparsak yapalım bu sinyalleri kalabalığın arasından ayıklamamızı imkansız kılıyordu.

Veri biliminde bunlara inatçı problemler diyoruz ve bir noktadan sonra analizin ve büyük verinin asla ilerleme kaydetmediğini görüyoruz.

Ancak iyi bir haber de var. Yaklaşımınızı veya girdilerinizi değiştirerek başlangıçta çözülemez gibi görünen birçok problemi çözmeniz mümkün.

Çözülemez gibi görünen inatçı problemlerin makul bazı değişikliklerle çözülebileceğini bilmek, bir şirketi ve bir proje sponsorunu devamlı başarıya götürebilir. Buna karşılık, gerçekçi olmayan bir ölçekte tanımlanan problemleri tanıyabilmek, daha odaklı bir soru için kârlı biçimde kullanabileceğiniz zamanı ve parayı boşa harcamanızı önleyebilir.

Daha iyi sonuçlar elde etmenizi sağlayacak dört sorun giderme yöntemini açıklayalım. Bunlardan birini veya birkaçını tekrar tekrar uygulayarak, analiz çalışmanızda değer bulma şansınızı arttırırken başınızı duvarlara vurmaktan kurtulabilirsiniz.

1. Daha Odaklanmış Sorular Sorun

Genellikle ilerlemenin en iyi yolu, asıl sorunuzun bir bölümünü çözmeye çalışmak ve bundan dersler çıkarmaktır. Belirli bir sosyal medya kullanıcısının tasarladığınız bir araba modeliyle ilgilenme olasılığını belirlemeye çalışmak, kontrolden çıkma olasılığı yüksek bir çabadır. Çok fazla iyi veriniz olsa dahi gerçekten öngörü değeri olan bir modele ulaşmak için kontrol edebileceğinizden çok daha fazla değişkeniniz olabilir.

Bazen yeni bir veri kümesi eklediğinizde, tüm bulutlar dağılır ve yeni bir öngörü gücü elde edersiniz.

Bob Rogers, Intel Baş Veri Bilimcisi

Veri biliminde, algoritmalar yalnızca analiz sisteminizin veri kümesine karşı yürüteceği operasyon sekansını tanımlamakla kalmaz, aynı zamanda verilerin içindeki potansiyel ilişkileri nasıl ele aldığınızı veya “modellediğinizi” de yansıtabilir.

2. Algoritmanızı Geliştirin

Veri biliminde, algoritmalar yalnızca analiz sisteminizin veri kümesine karşı yürüteceği operasyon sekansını tanımlamakla kalmaz, aynı zamanda verilerin içindeki potansiyel ilişkileri nasıl ele aldığınızı veya “modellediğinizi” de yansıtabilir.

Bazen doğru algoritmayı oluşturmak veya mevcut bir algoritmayı yeni amacınıza uygun olarak değiştirmek, birçok yineleme gerektirebilir. (Makine öğrenme, algoritma gelişimini otomatikleştirmeyi vaat eden, takip edilmesi gereken bir disiplindir.)

Bazen yeni bir veri kümesi eklediğinizde, tüm bulutlar dağılır ve yeni bir öngörü gücü elde edersiniz.

Bilgi işlem gücünüzü diyelim ki beş katsayısıyla ölçeklediğinizde, işlem süresinde çok daha küçük bir gelişme görüyorsanız, bu algoritmanızın çalışmadığına işaret eder.

Test etmenin başka bir yolu da algoritma parametrelerinizde küçük değişiklikler yapmaktır. Çok az değişiklik yapılmış algoritmaların çok az farklı yanıtlar vermesi beklenir. Önemli ölçüde farklı yanıtlar veriyorlarsa, bir şeyler yanlış demektir ve farklı bir algoritmaya ihtiyacınız vardır.

Veya belki de tümden yanlış bir algoritma türü seçmiş olabilirsiniz. Model seçimi, genellikle veri hakkındaki varsayımlara dayanır. Örneğin, iki öğenin arasındaki ilişki bir karar ağacında daha doğru temsil edilebildiğinde bu iki öğe arasında doğrusal bir ilerleme olmasını beklemek gibi.

Herkese açık olan açık kaynak algoritmaların bulunduğu birçok kitaplık var. Sıfırdan başlamak zorunda kaldığınız durumlar çok nadir.

 

 

3. Verilerinizi Temizleyin

Bu BT'nin karşılaştığı çok eski zorluklardan biri. Sistemde ne ekerseniz onu biçersiniz. İdeal olarak, bu analiz projesine başlamadan önce üstesinden gelmiş olmanız gereken bir durumdur, ancak genellikle veri kümeleriyle ilgili problemler siz analize başlayana kadar net bir şekilde görünmez.

 

4. Farklı Veriler Kullanın

Bu, önceki adımdan biraz daha karmaşıktır. Daha fazla veri elde etmek için meta verinizi güncellemeniz yeterli olabilir. İhtiyacınız olan verileri yakalamak için bazı süreçleri değiştirmeniz gerekebilir.

Birçok şirket, geleneksel veri ambarlarında depoladıkları verilerden mümkün olan en yüksek değeri zaten elde etmiştir. Bazen özellikle doktorlar tarafından yazılan ilerleme notları veya çağrı merkezi çalışanları ve müşteriler arasındaki etkileşimlerin belgeleri gibi yapılandırılmamış verilerden oluşan yeni bir veri kümesi eklediğinizde, tüm bulutlar dağılır ve yeni öngörü gücü elde etmenizi sağlar.

Genel bir kural olarak, daha fazla veri daha iyi yanıtlar elde etmenize yardımcı olmalıdır. Bir analiz projesini test ederken, sırayla veriler ekleyerek yanıtları nasıl değiştirdiklerini görebilirsiniz. Giderek daha iyi yanıtlar aldığınız sürece, muhtemelen henüz kontrol edilememe noktasına ulaşmamışsınızdır.

İlerlemeniz yavaşladığında, olası yaklaşımların maliyeti ile potansiyel getiriyi ayrıntılı bir şekilde karşılaştırarak değerlendirin. Şunu unutmamanız iyi olacaktır: İnsan davranışını çok doğru bir şekilde öngörmeye çalışmak, tüm çıkmazların temelinde yatan sorun olabilir.

‘Verilerden Eyleme’ dosyasını indirin


Haber Bülteni

En sevilen planlama kılavuzlarımızı ve görüşleri doğrudan e-postanıza gönderelim.

Şimdi kaydolun