Blog
Veri analizi, veri işleme, büyük veri, yapay zeka ve benzeri konular için kaynak niteliğinde olan yazılar

Veri bilimi ile Analitik Disiplinlerin Karşılaştırılması

Veri bilimi, veri madenciliği, yapay öğrenme, yapay zekâ, iş zekası, istatistik vb. konular arasındaki en önemli farklar nelerdir?

Bu yazıda, farklılıkları ve ortak paydaları açıklamak için bazı analitik disiplinleri karşılaştırıp birbirleriyle olan ilişkilerini bulmaya çalışacağız. Bazen bu farklılıklar, sadece tarihsel bir nedene dayanır.  Bazen de çok daha nesnel fakat yeteri kadar farkedilmez yapıdadır.

Veri bilimi sağlık analitik çözümleri
Image by TayebMEZAHDIA from Pixabay

Ayrıca, geleneksel olarak her disipline bağlı tipik iş unvanlarını, analiz türlerini ve endüstriyel yaklaşımlarını da gözden geçirmiş olacağız.

Veri Bilimi

İlk olarak veri bilimini, yeni bir disiplin kapsamında tanımlayarak başlayalım.

İş unvanları olarak veri bilimci, başmühendis, kıdemli analist (Senior Analyst), sistem müdürü ve benzeri birçok unvanı kapsar. Tüm endüstriyel alanları ve yapıları kapsar, ancak özellikle dijital analitik sistemler, araştırma teknolojisi, pazarlama, dolandırıcılık tespiti, astronomi, enerji, sağlık, sosyal ağlar, finans, hukuk, güvenlik, mobil uygulamlar, telekomünikasyon, hava durumu tahminleri ve benzeri konuları içerir.

Veri bilimi

 

Veri bilimi kapsamındaki projeler, taksonomi oluşturulmasını (metin madenciliği, büyük veri), büyük veri setlerine uygulanan kümelenmeleri, öneri motorlarını, simülasyonları, istatistiksel puanlama motorları için kural sistemlerini, kök neden analizini, otomatik teklif vermeyi, hukuki konuları ve terörist faaliyetlerin ya da salgınların erken tespiti gibi konuları kapsar. Veri biliminin önemli bir bileşeni de üretim modunda (bazen gerçek zamanlı olarak) kesintisiz bir şekilde çalışan algoritmaların yanı sıra otomasyon, yani makineden makineye iletişimdir. Örneğin dolandırıcılığı tespit etmek, hava durumunu ya da ev fiyatlarını tahmin etmek gibi.

Diğer birçok analitik mesleğin aksine, veri bilimcilerinin girişimci olarak daha başarılı olma eğilimlerinin sebebi olarak önemli bir iş zekâsı ve etki alanı uzmanlığına sahip olduklarının düşünülmesidir. Veri bilimi geniş bir disiplindir, bu sebepten veri bilimcileri arasında birçok farklı sınıflandırma yapmak mümkündür. Birçok kıdemli veri bilimcisi, sanat/sanatkarlık derecesinde ustalaşır ve hemen hemen tüm bilgi ve beceriye sahiptirler. Bu kişiler, genellikle sıradan birçok insan kaynağı uzmanının bulamayacağı kadar nadir ve özel kişilerdir. Belirli bir teknik altyapıya sahip olmayan veya vizyoner bir yapıya sahip olmayan birçok İnsan Kaynakları Müdürü, daha dar yetenekte kişileri tercih etme eğilimindedirler. Bu özel veri bilimcileri, genel olarak danışman ya da yönetici olarak çalışırlar. Junior veri bilimcileri ise veri biliminin herhangi bölümünde daha fazla uzmanlaşma eğilimindedirler ve daha fazla teknik beceriye (Hadoop, Pig, Cassandra) sahiptirler. Bu kişiler uygun eğitimleri alırlarsa ve/veya Facebook, Google, eBay, Apple, Intel, Twitter, Amazon, Zillow vb. gibi şirketlerde çalışıp iş tecrübesine sahip olurlarsa, iş bulmakta kesinlikle sorun yaşamazlar.

Veri bilimi şunlarla örtüşmektedir

  • Bilgisayar bilimi: hesaplama karmaşıklığı, internet topolojisi ve grafik teorisi, Hadoop gibi dağıtık mimariler, veri işleme – data plumbing (veri akışlarının optimizasyonu ve bellek içi analitikler), veri sıkıştırma, bilgisayar programlama (Python, Perl v.b.), işleme sensörü ve veri akışı-streaming data (sürücüsüz arabaları tasarlamak için)
  • İstatistik: Çok değişkenli testler, çapraz doğrulama, stokastik süreçler, örnekleme de dahil olmak üzere deneylerin tasarımı
  • Yapay öğrenme ve veri madenciliği: Veri bilimi gerçek manada bu iki alanı tamamen kapsamaktadır.
  • Yöneylem araştırması – Operations research: Veri bilimi, verilerin analizine dayanan kararları optimize etmeyi amaçlayan tekniklerin tamamının yanı sıra, yöneylem araştırmasının da çoğunu kapsar. 
  • İş zekası: İş zekasının oluşturulması/tanımlanması/yaratılmasının her aşaması, Temel Performans Göstergelerinin (KPI) oluşturulması, veritabanı şemalarının ve tasarımlarının oluşturulması, kontrol panel tasarımı, kararların ve Yatırım Geri Dönüşümü (ROI) optimizasyonlarının hesaplanması için kullanılan veri tabanlı stratejilerin tamamı veri bilimidir.

Diğer analitik disiplinlerle karşılaştırılması

Yapay öğrenme. Son zamanlarda oldukça popüler olmuş bir bilgisayar bilimleri disiplinidir. Veri biliminin önemli bir parçası ve veri madenciliği ile de çok yakından ilgilidir. Yapay öğrenme esas olarak algoritma tasarlama (veri madenciliği gibi) ile ilgilidir. Ancak özellikle üretim modu için prototip algoritmaları ve kendilerini otomatik olarak güncelleyen, sürekli eğitim/yeniden eğitim/ eğitim setleri/çapraz doğrulama yapan otomatik sistemler tasarlama (teklif algoritmaları, reklam hedefleme algoritmaları) gibi konular üzerinde yoğunlaşır ve günlük olarak yeni oluşumları (dolandırıcılık tespiti) iyileştirir ve keşfeder. Python yapay öğrenme gelişimi için popüler bir programlama dilidir. Çekirdek algoritmalar kümeleme ve sınıflandırma, kural sistemleri ve puanlama teknikleri gibi konuları içerir. Derin öğrenme (Deep Learning) yapay zekaya yakın olan bir alt alandır.

Veri madenciliği. Bu disiplin, oldukça büyük ve potansiyel olarak yapılandırılmamış verilerden (metin madenciliği gibi) anlamlı sonuçlar elde edilmesi ile ilgilenir (Örneğin 50 milyon veri satırına baktıktan sonra büyük bir Botnet’i (Büyük bir zombi PC Ağı) ortaya çıkarabilmek için tasarlanan algoritmalar gibi). Veri madenciliği, desen tanıma, özellik seçimi, kümeleme, denetimli sınıflandırma gibi olguları ve bazı istatistiksel teknikleri içerir. Veri madenciliği, bazı noktalarda istatistik disiplini ile kesişir ve veri biliminin bir alt kümesidir. Veri madenciliği, matematiksel bir bilimden ziyade bilgisayar mühendisliğine ile ilişkilendirilir. Veri madencileri, açık kaynak kodlu Rapid Miner gibi yazılımları kullanırlar.

Veri madenciliği - data mining
Image by Gerd Altmann from Pixabay

Öngörücü modelleme. Tek başına bir disiplin değildir. Öngörücü modelleme projeleri, tüm disiplinlerde ve tüm endüstrilerde kullanılır. Öngörücü modelleme uygulamaları, her zaman olmamakla birlikte, genel olarak istatistiksel modelleme ile geçmişteki verilere dayanarak geleceği tahmin etmeyi amaçlar. Tahminler, genellikle güven aralıklarıyla birlikte sunulur. Öngörücü modellemenin kökleri, istatistiksel bilimlerdedir.

İstatistik. Mevcut durumda istatistikler çoğunlukla anketler (genellikle SPSS yazılımı ile gerçekleştirilir), teorik akademik araştırma, banka ve sigorta analitikleri (pazarlama karması optimizasyonu, çapraz satış, dolandırıcılık tespiti, genellikle SAS ve R ile), istatistiksel programlama, sosyal bilimler, küresel ısınma araştırması (ve uzak havası modelleme), ekonomik araştırma, klinik denemeleri (ilaç sanayi), tıbbi istatistikler, epidemiyoloji, biyoistatistikler ve devlet istatistikleri ile ilgilidir. İstatistik uzmanları, güvenlik izni gerektiren işlerde çok daha önemli ve kritik öneme sahiptir. 10 yıl önce istatistik uzmanı olarak adlandırılan birçok profesyonelin iş unvanının son birkaç yılda veri bilimci ya da analist olarak değiştirdiği görülmektedir. İstatistiğin modern alt alanları, istatistiksel hesaplamayı, istatistiksel öğrenmeyi (yapay öğrenmeye daha yakın), hesaba dayalı istatistikleri (veri bilimine daha yakın), veri odaklı (modelsiz) çıkarımı, spor istatistiklerini ve Bayes istatistiğini (MCMC, Bayes ağları ve popüler olan hiyerarşik Bayes modelleri, modern teknikler) içerir. Diğer yeni teknikler, yapısal eşitlik modellemesini, seçim sonuçlarını öngörmeyi ve genel uyum modellerini kapsar.

Endüstriyel istatistikler. Getiri optimizasyonu ya da yük dengeleme (sistem analistleri) gibi mühendislik projeleri üzerinde çalışan, istatistik uzmanı olmayan (iyi istatistik eğitimi almış mühendisler) kişiler tarafından gerçekleştirilen istatistiksel yaklaşımlardır. Çok uygulamalı istatistikler kullanılır. Genel eğilim geleneksel istatistiklerden çok Altı Sigma, kalite kontrol sistemine daha yakındır. Kullanılan teknikler; zaman dizisi, ANOVA, deneysel tasarım, sağkalım kalım analizi (Survival analysis), sinyal işleme (filtreleme, gürültü giderme, dekonvolüsyon), mekansal modelleme, simülasyon, Markov zincirleri, risk ve güvenilirlik modellerini içerir. Özellikle petrol ve üretim sanayisinde kullanılır

Matematiksel optimizasyon. Simpleks algoritması, Fourier dönüşümleri (sinyal işleme), diferansiyel denklemler gibi teknikler ve Matlab gibi yazılımlar ile işletme optimizasyon problemlerini çözmek için kullanılır. Bu uygulamalı matematikçiler, IBM, araştırma laboratuvarları, NSA (kriptografi) gibi büyük şirketlerde ve finans endüstrisinde bulunur. Bu uzmanlar da -bazen farklı isimler kullansalar da- istatistik uzmanlarının kullandığı benzer teknikleri kullanarak problemleri çözerler. Matematikçiler interpolasyon ya da ekstrapolasyon için En Küçük Kareler Optimizasyonunu (Least Square Optimization) kullanırken, istatistik uzmanları da tahminler ve model uyumu için doğrusal regresyon kullanırlar; özünde her iki kavram da aynıdır ve aynı matematiksel temele dayanır. Ancak matematiksel optimizasyon, istatistiklerden ziyade yöneylem araştırmasına (operations research) daha yakındır.

Aktuarya bilimleri (Sigorta istatistikleri ile igili). Sağkalım modellerini kullanarak sigortaya (araba, sağlık vb.) odaklanan bir istatistik alt kümesidir. Ölüm zamanı tahmini, sigorta primlerinin belirlenmesi için sağlık harcamalarınının sağlık durumuna (sigara içen kimse, cinsiyet, önceki hastalıklar) göre nasıl olacağını öngörmek v.b. konulara odaklanır. Ayrıca, primlerin doğru belirlenebilmesi için doğal afetleri ve hava olaylarını tahmin eder. Fakat bu son modellemeler bir şekilde hatalı sonuçlar vermiş (son zamanlarda) ve beklenenden çok daha büyük ödemelerle sonuçlanmıştır. Bu kişiler bazı nedenlerden dolayı kendilerini istatistik uzmanı olarak adlandırmayan (is unvanı olarak sigorta uzmanıdır) gizli bir istatistik uzmanları topluluğudur. Aktuarya veri biliminin bir alt kümesidir.

Yüksek Performanslı Hesaplama (HPC: High Performance Computing). Yüksek performanslı hesaplama, kendi başına bir disiplin değildir, ancak bu alanlardaki hesaplama paradigmalarının yeniden tanımlanması itibariyle, veri bilimcileri, önemli veri uygulayıcıları, bilgisayar bilimcileri ve matematikçiler için dikkat edilmesi gereken bir unsur olmuştur. Kuantum hesaplama başarılı olursa, algoritmaların tasarlanma ve uygulanma şeklini tamamen değiştirecektir. YPH, Hadoop ve Map-Reduce ile karıştırılmamalıdır: YPH, donanımla ilgilidir, Hadoop, yazılımla ilgilidir.

Yöneylem araştırması (Operations Research). 20 yıl kadar önce istatistik biliminden ayrıldı, ancak ikiz kardeş gibidirler ve onların ilgili kuruluşları (INFORMS ve ASA) iş birliği içindedirler. Yöneylem araştırması, karar bilimi ve geleneksel iş projelerini optimize etmek ile ilgilenir: Envanter yönetimi, tedarik zimciri, fiyatlandırma gibi. Büyük ölçüde Markov Zinciri modellerini, Monter-Carlosimülasyonlarını, diziliş ve grafik teorisi ve AIMS, Matlab ya da Informatica gibi yazılımları kullanırlar. Geleneksel eski şirketler Yöneylem Araştırması kullanır, yeni ve küçük şirketler (yeni başlayanlar) fiyatlandırma, envanter yönetimi ya da tedarik zinciri sorunlarını ele almak için veri bilimini kullanır. Birçok yöneylem araştırması analisti, YA’a kıyasla veri biliminde daha fazla yenilik ve dolayısıyla büyüme beklentisi olduğu için veri bilimcisi olmuşlardır. Ayrıca YA problemleri, veri bilimi ile de çözülebilir. Altı sigma ile YA önemli ölçüde örtüşür. YA aynı zamanda ekonometrik problemleri de çözer ve ordu/savunma sektörlerinde de birçok uygulamaya sahiptir. Simülasyon, gezici araştırmalar, sensör verisi ve istatistiksel modellemelerle çözülen araba trafiği optimizasyonu, YA uygulamasının modern bir örneğidir. 

Altı sigma. Bir disiplinden ziyade bir düşünme şeklidir ve Motorola ve GE tarafından önemli ölçüde desteklenmiştir. Büyük, geleneksel şirketler tarafından kalite kontrolü ve mühendislik işlemlerini optimize etmek için kullanılır. İlkeleri basittir: Çabalarınızı, değer olarak %80 kazanç yaratan zamanınızın %20’sine odaklanın. Uygulamalı, basit istatistikler kullanılır. Esas hedef iş süreçlerinde varyasyon kaynaklarını ortadan kaldırmak, onları daha öngörülebilir hale getirmek ve kaliteyi arttırmaktır. Birçok kişi, altı sigmayı zamanla kaybolacak bir felsefe olarak görmektedir. Belki doğrudur, fakat tüm veri bilimciler için de esas olarak kabul edilen temel kavramları sağlamdır ve he zaman kalacaktır. İstatistiksel modellemenin minimum düzeyde tutulduğu yöneylem araştırmasının basitleştirilmiş bir versiyonu söz konusu değilse, altı sigmanın çok daha basit olduğunu söyleyebilirsiniz. Riskler: Kalifiye olmayan kişilerin problemleri çözmek için bu istatistiksel araçları kullanmaları felaketlere sebep olabilir. Bir bakıma altı sigma, istatistik uzmanlarından ziyade iş analistleri için daha uygun bir disiplindir.

Quant. Quantlar yüksek frekanslı alım-satım ya da borsa tahkimi gibi problemlerde Wall Street için çalışan veri bilimcilerdir. C++, Matlab ve benzeri programlar ve diller kullanırlar. Prestijli üniversitelerden mezundurlar, büyük paralar kazanırlar. Ayrıca enerji sektöründe de rağbet görürler. Quantlar, istatistik, matematiksel optimizasyon ve endüstriyel istatistiklerde bilgi ve tecrübe sahibidirler.

Yapay zeka. Veri bilimiyle kesişim, desen tanıma (görüntü analizi) ve Google AdWords’te (günde milyonlarca anahtar kelimeyi içeren tıklama başına ödeme kampanyaları) doğru anahtar kelimeleri (ve doğru teklifi) belirlemek gibi makineden makineye iletişim modunda çeşitli görevleri gerçekleştirmek için otomatik sistemlerin tasarımıdır. Eski bir Al tekniği, nöral ağlar da eski bir yapay zeka tekniğidir, ancak son yıllarda popülerliğini kaybetmeye başlamıştır. Aksine, sinir bilimi (neuroscience) popülerlik kazanmaya başlamıştır.

Bilgisayar bilimi. Veri bilimi ile bilgisayar bilimi, Hadoop ve Map-Reduce uygulamaları, hızlı, ölçeklenebilir algoritmalar, veri plumbing, internet topoloji haritalaması, rastgele sayı üretimi, şifreleme, veri sıkıştırma ve steganografya gibi problemleri tasarlamak için algoritmik ve hesaplama karmaşıklığı gibi bazı noktalarda bazı noktalarda örtüşmektedir.

Ekonometri. İstatistikten neden ayrıldığı belirsizdir. Kısacası, ekonometri, oto-regresif süreçler gibi zaman dizisi modelleri kullanan, doğası gereği istatistiksel bir yaklaşımdır. Aynı zamanda da yöneylem araştırması ve matematiksel optimizasyon (simpleks algoritma) ile de örtüşür. Ekonometristler, altı sigma uygulayıcıları gibi, ROC (Receiver Operating Characteristic) ve verimlilik eğrilerini severler. Birçoğunun güçlü bir istatistiksel geçmişi yoktur, Excel onların temel ya da tek aracıdır.

Veri mühendisliği. Büyük kuruluşlarda (küçük işletmelerde de bazen veri bilimciler tarafından) yazılım mühendisleri (geliştiriciler) ya da mimarlar (tasarımcılar) tarafından uygulanır. Bu disiplin, veri bilimciler de dahil olmak üzere son kullanıcılara iyi veri akışı sağlamak ve her türlü verinin bellekte kolayca işlenmesine olanak sağlayan sistemleri desteklemek için bilgisayar biliminin uygulamalı kısmıdır. NoSQL, NewSQL ve grafik veritabanlarının yükselişi ile statik veri depolama, veritabanları, veri mimarileri ve veri akışıyla ilgili unsurlar tehdit altında kalmıştır. Bu sebepten bu tip eski mimarileri gerektiğinde yeni teknolojilere dönüştürmek ya da yenileriyle uyumlu hale getirmek, son zamanlardaki en kazançlı iş modellerinden biridir.

İş zekası. Kısaca İZ (BI:Business Intelligence) olarak kısaltılır. Kullanışlı, işe yarar iş verilerini verimli bir şekilde toplamak için veritabanı şeması tasarımlarının oluşturulmasının yanında esas olarak kontrol paneli oluşturma, metrik seçim, e-posta aracılığıyla gönderilen ya da yöneticilere teslim edilen/sunulan veri raporlarının (istatistiksel özetler) üretilmesi ve programlanması, rekabetçi zekaya (üçüncü taraf verilerinin analiz edilmesi) odaklanır. İş unvanı, iş analistidir, ancak bazıları daha çok pazarlama, ürün ya da finans (satış ve gelir tahmini) ile ilgilidir. Bu kişiler genellikle, işletme yönetimi master derecesine sahiptirler. Bazıları, zaman dizileri gibi ileri istatistik teknikleri öğrenmiştir, ancak birçoğu sadece veritabanlarını korumak ve veri toplamak için İZ’ye dayanan temel istatistikleri ve hafif analizleri kullanırlar. Bu araçlardan bazıları giderek daha iyi analitik yeteneklerle donatılmış olsa da Excel (küpler ve pivot tablolar dahil, ancak ileri analitikler dahil olmamak üzere), Brio (Oracle tarayıcı istemcileri), Birt, MicroStrategy ya da İş Nesneleri gibi araçlar kullanırlar. Yapay Zeka geri dönüş yaşarken, iş zekası ve pazar araştırması (rekabet zekası hariç) şu anda düşüş yaşamaktadır. Bu, döngüsel olabilir tabii. Bu düşüşün bir sebebi, veriyi işlemek ve aktarmak için mühendislik ya da veri bilimi teknikleri gerektiren yeni veri türlerine (örneğin, yapılandırılmamış metin) adapte olamamaktan kaynaklanmaktadır.

Veri analizi. Uzun yıllardır iş istatistikleri için kullanılan yeni bir terimdir. Dolandırıcılık tespiti, reklam modellemesi, niteleme modellemesi, satış tahminleri, çapraz satış optimizasyonu (perakende), kullanıcı segmentasyonu, dalgalanma analizi, bir müşterinin uzun vadeli değerini hesaplama ve satın alma maliyeti vb. gibi geniş bir uygulama yelpazesini içerir. Veri analistleri büyük şirketler haricinde, küçük bir rol oynamaktadır. Bu uygulayıcılar, veri bilimcilerden çok daha az bilgi ve deneyime sahiptir. İş vizyonuna sahip değildirler. Detay odaklıdırlar ve veri bilimcilere ya da analiz yöneticisi gibi yöneticilere rapor verirler.

İş analitiği. Veri analisti ile aynı kapsamda değerlendirilebilir, ancak daha çok işletme sorunları ile ilgilenirler. Biraz daha finansal, pazarlama ya da yatırım getirisi niteliğine sahip olma eğilimindedirler. Popüler iş unvanları veri analisti ve veri bilimcidir, ancak iş analisti olarak nitelendirilmezler.

Son zamanlarda, sağlık analitiği, hesaplamaya dayalı kimya ve biyoinformatik (genom araştırması) gibi analitik disiplinler de ortaya çıkmıştır.