Big Data (Büyük Veri) Nedir?

Reddithun

5/17/20256 min read

Big Data (Büyük Veri) Nedir?

  1. Big Data Nedir?

İnternet ve sosyal medya kullanımının yaygınlaşmasının, bilgi kavramının karşılığını da etkilediğini söylemek yanlış olmaz. Bilgiyi pek çok insan için çok daha hızlı ve kolay ulaşılabilir kılan internet, aynı zamanda ortaya ciddi ölçüde bilgi kirliliğinin çıkmasına da neden oluyor. Keza bu nedenle, internet pek çok kullanıcı tarafından “bilgi çöplüğü” olarak da anılıyor.

Esasen “çöplük” olarak tanımlanan havuz, içinde milyonlarca veri barındıran bir kaynak olarak değerlendiriliyor. Kullanıcıların bir akış üzerinden ileterek bu havuza gönderdikleri verilerin işlenebilir ve mantıksal bir düzlem çerçevesinde değerlendirilebilir olan bölümü, bazı yazılım ve şirketler tarafından bir araya getiriliyor. Ortaya çıkan bu anlamlı veriler bütünü, Büyük Veri (Big Data) kavramını oluşturuyor. Böylece ortaya pek çok araştırma için kaynak sağlayabilecek, sınıflandırılmaya uygun ve saklanabilir bir veri topluluğu çıkıyor.

Big Data Nasıl Kullanılır?

Big Data, özellikle firmaların müşteri davranışlarını inceleyerek doğru kararlar almalarına ve stratejiler geliştirmelerine önemli katkılar sağlar. Eldeki veriler en sade ve işlenebilir hale getirildikten sonra, karşılaştırma yöntemi kullanılarak bu verilerin birbirleriyle olan ilişkileri incelenir ve aralarındaki bağlantılar ortaya çıkartılır. Bu sayede, alınacak olan kararların sonuçlarını önceden kestirmek mümkün olur. Verilerde yer alan çeşitli noktaların yerleri değiştirilerek oluşturulan simülasyonlarla, farklı kararlara verilecek tepkiler görülebilir.

Big Data analizi sayesinde kurumlar, gerçek müşteri davranışlarına dayalı verileri doğru bir şekilde değerlendirip, yüksek faydaya sahip bir araca dönüştürebilirler.

  1. Big Datanın Önemi

Big Data tamamen gerçek verilerin analizine dayandığı için maliyetleri düşürme, doğru kanallara reklam harcaması yapma, iş gücünden tasarruf sağlama ve beklentilere uygun ürün geliştirme gibi birçok farklı alanda doğru kararlar alınmasına olanak tanımaktadır. Büyük veri güçlü analizlerle birleştiğinde iş ile alakalı şunlar gerçekleştirilebilir:

  • Gerçek zamanlı hata ve sorunların temel nedenlerini belirleme.

  • Müşterilerin satın alma alışkanlıklarına dayanarak satış amaçlı kuponlar üretme.

  • Yeni portfolyoların risklerini tekrar hesaplama.

  • İşleyişi etkilemeden önce yanlış davranışları tespit etme.

  • Büyük verilerin önemi, sahip olduğunuz verinin ne olduğu, ne yaptığınızla ilgili değildir.

  1. Big Datanın Kullanım Alanları

Big Data, başta bankacılık ve perakende sektörü gibi müşteri davranışlarının çok fazla önem taşıdığı ve takip edilmesinin gerektiği sektörler olmak üzere her alanda kullanılabilmektedir. Son yıllarda büyük verinin önemi devletler tarafından da anlaşılmış ve çeşitli alanlarda kullanılmaya başlanmıştır. Sağlık alanında; hastalıkların erken teşhis edilmesi ya da ilaç geliştirilmesi gibi konularda kullanılan büyük veri, suçları önlemek amacıyla ya da eğitim sisteminde geliştirmeler yapmak amacıyla da kullanılabilmektedir.

Big Data Bileşenleri Nelerdir?

Big Datanın 5 ana bileşen oluşturmaktadır.

  1. Çeşitlilik (Variety): Üretilen verilerin büyük bir kısmı, birbirinden farklı formata sahiptir. Telefonlardan, tabletlerden, bilgisayarlardan; farklı işletim sistemlerinden ya da dillerden gelen veriler birbirinden farklı formatların ortaya çıkmasına neden olmaktadır.

  2. Hız (Velocity): Gün geçtikçe artan teknolojik imkanlar, elde edilen veri miktarının, yapılacak işlem sayısının ve çeşitliliğinin de aynı şekilde artmasına neden olmaktadır.

  3. Hacim (Volume): Geçtiğimiz 10 yılda veri miktarı 40 kattan fazla bir artış göstermiş fakat veri depolama için yapılan harcamalar ise 1,5 kat artmıştır. Bu durum, elde edilen verinin doğru ve verimli şekilde depolanması için çok iyi bir kurgulama gerektiğini ortaya koymaktadır.

  4. Doğrulama (Verification): Verilerle ilgili son yıllarda öne çıkan bir diğer konu, veri güvenliği ve doğruluğu olmuştur. Elde edilen verilerin kimler tarafından ve hangi şartlarda görüntüleneceği, bu verilerin hangilerinin gizli kalması gerektiği konuları, üzerinde dikkatle çalışılması gereken konulardır.

  5. Değer (Value): Büyük veri ile ilgili en önemli bileşen, değerdir. Elde edilen ve işlenen veriler, kuruma değer kattığı sürece anlamlıdır. Bu nedenle, büyük verinin analizinin ve simülasyonlarının doğru şekilde kurgulanması ve büyük veriyi kullanan kuruma fayda sağlaması öncelikli olarak ele alınmalıdır. Büyük veri (big data) doğru kurgulandığı ve kullanıldığı takdirde, şirketlerin karar aşamalarında önemli faydalar sağlamakta ve şirketlere rekabet üstünlüğü sağlamaktadır. Bu durumun farkında olan şirketler; pazarlama, satış, üretim gibi birçok alanda büyük veriden faydalanmaktadırlar.

  1. Big Datanın Çalışması İçin Üç Yöntem

Strateji 1: Örnek ve Model

Örneklemek ve modellemek için, verilerimizi tümüyle kolayca indirilebilecek bir boyuta küçültürüz ve örnek üzerinde bir model oluştururuz. Binlerce, hatta yüzbinlerce veri noktasına alt örnekleme, model çalışma sürelerini de istatistiksel geçerliliğini korurken mümkün kılar.

Sınıf dengesini korumak gerekiyorsa (veya bir sınıfın fazla / az örneklenmesi gerekiyorsa), örnekleme sırasında veri kümesini sınıflandırmak oldukça basittir.

Avantajları

Hız: Tüm veri kümemiz üzerinde çalışmaya kıyasla, sadece bir örnek üzerinden çalışmak; çalışma sürelerini önemli ölçüde azaltabilir ve yineleme hızını artırabilir.

Prototipleme (İlk örnekleme): Sonunda modelimizi tüm veri kümesinde çalıştırmak zorunda kalsak bile, bu hiperparametreleri hassaslaştırmak ; modelimiz için iyi bir yol olabilir.

Paketler: Normal bir bellek içi veri kümesi üzerinde çalıştığımızdan, istediğimiz tüm R paketlerini kullanabiliriz.

Dezavantajları

Örnekleme: Alt örnekleme zor değildir, ancak geçerli olduğundan ve orijinal veri kümesinden yeterli sayıda nokta aldığımızdan emin olmak için dikkatle yapılması gerekir.

Ölçekleme: Daha sonra tam veri kümesinde çalıştırılacak bir şeyi prototiplemek için örnek ve model kullanıyorsak, prototip sürümümüzü tekrar tam veriye ölçeklendirmek için bir stratejimiz olması gerekir (veriyi hesaplamaya itmek gibi)

Toplam: İş Zekası (BI) görevleri, bir aydaki tüm satışların sayısı gibi, toplamlar hakkındaki soruları sık sık yanıtlar. Diğer stratejilerden biri, bu durumda genellikle daha iyi bir seçimdir.

Strateji 2: MapReduce

Bu stratejide, veriler ayrılabilir birimlere yığınlanır ve her yığın ayrı ayrı çekilir ve seri, paralel veya yeniden birleştirmeden sonra çalıştırırız. Bu strateji kavramsal olarak MapReduce algoritmasına benzer. Eldeki işe bağlı olarak, parçalar zaman periyotları, coğrafi birimler veya ayrı işletmeler, departmanlar, ürünler veya müşteri segmentleri gibi mantıklı olabilir.

Avantajları

Tam veri kümesi: Veri kümesinin tamamını kullanırız.

Paralelleştirme: Eğer parçaları ayrı ayrı çalıştırırsak, sorunu kapsamlı bir şekilde paralel olarak ele alabiliriz ve çalışma zamanlarını hızlandırmak için paralelleştirmeyi kullanırız.

Dezavantajları

Gerekli Parçalar: Veri ve yığının uygun olması için ayrılabilir parçalara sahip olmamız gerekir.

Tüm Verileri Çekmek: Belleğin yoğun olabileceği durumlarda tüm verierimizi çekmek zorunda kalırız.

Eski Veriler: Yerel makinemize bir sürüm kaydettiğimizden, güncel kalması için verilerimizin periyodik olarak yenilenmesi gerekebilir.

Strateji 3: Hesaplamayı Verilere Aktarma

Bu stratejide, verileri veritabanında sıkıştırırız ve yalnızca sıkıştırılmış veri kümesi veritabanından R‘a taşınır. Verileri R‘a çekmeden önce veritabanında özetleme veya filtreleme yaparak hızlandırmalar elde etmemiz genellikle mümkündür.

Bazen, dbplot ile histogram ve raster haritalarını hesaplama, modeldb ile bir model oluşturma ve tidypredict ile makine öğrenme modellerinden tahminler oluşturma gibi daha karmaşık işlemler de mümkündür.

Avantajları

Veritabanını Kullanma: En iyi veritabanlarının avantajlarından yararlanırız. (Bir sorguyu temel alarak verileri hızlı bir şekilde özetleme ve filtreleme gibi.)

Daha Fazla Bilgi, Daha Az Aktarım: Verileri tekrar R‘a çekmeden önce sıkıştırarak, tüm veri kümesini kullanırız. Ancak aktarım süreleri tüm veri kümesini taşımaktan çok daha azdır.

Dezavantajları

Veritabanı İşlemleri: Hangi veritabanını kullandığımıza bağlı olarak, bazı işlemler desteklenmiyor olabilir.

Veritabanı Hızı: Bazı bağlamlarda, veri analizi için sınırlayıcı faktör veritabanının hızıdır ve bu nedenle veritabanına daha fazla iş eklemek analistlerin yapmak istediği son şeydir.