Category: Genel

Big Data Nedir ? Büyük Veri

BIG DATA NEDİR ? (BÜYÜK VERİ NEDİR?)

 

Büyük veri yani big data nedir ? Günümüz teknolojisinin hızla ilerliyor olması, bizlere bazı yeni kavramlar kazandırdı. Büyük veri, iş zekası, arttırılmış gerçeklik, sanal gerçekçiklik gibi yeni kavramlar hayatımızda daha fazla konulara sahip olmaya başladı. Bu kavramlar arasında en çok kullanılan belki de büyük veridir ( Big data). Büyük verinin ne olduğunu anlamak için önce verinin evrilme sürecinden biraz bahsetmemiz gerekiyor. Elektronik ortamların hızla gelişmesi ve artması sonucunda verilerin boyutlarının artmasına neden oldu. Bu artan veri toplulukları, farklı verilerin beraber işlenmesine olanak sağladığı gibi verilerin değerlendirilmesinde önemli rol oynamaya başladı.

 

Veriler büyüdükçe kullanılan teknolojiler, yöntemler ve çözümlerde değiştirmeye başladı. Konunun önemi her geçen gün daha fazla anlaşılmaya başladı. Bu yüzden “Veri Bilimi” olarak isimlendirilen bir bilim dalı da karşımıza çıkmaya başladı. Aslında verilerin yönetilmesi, saklanması, işlenmesi ve sonunda anlamlandırılması büyük veri mantığının özetini anlatıyor.

Çağımızın ham maddesi olan veri, bilgiyi tanımlamak, kavramak ve bunları anlamlandırmak oldukça önemlidir. Veri işleme sürecinde anlam kazanan bilgi yani veri özbilgi ve bilgeliğe dönüşmektedir. Daha açık anlatmak gerekirse, toplanılan bilgiden bir sonuç çıkarmayı gösterebiliriz.

 

Öncelikle toplannan her veri, bilgiye dönüşür. Yani topladığımız veriler anlamsızdır ve birbiri ile bağımsız olabilir. Yalnızca toplanır, örneğin bir bankadan kart alacak bir müşterinin kişisel bilgilerini kaydetmek gibi. Çünkü veriler henüz birbirleri ile bağ kurulmamıştır.  Buna birbirinden bağımsız veri diyebiliriz.

Daha sonra toplanan bu veriler, anlam kazandırılarak bilgiye dönüştürülür. Daha basit açıklamak gerekirse, anlamsız toplanan veri “belli bir anlam ifade edecek şekilde işlenip, belirsizliğin azaltılmasıyla” bilgiye dönüşür. Artık sadece tutulan veriler değil artık belirsizliğin azaldığı bilgiler olmaya başlamıştır. Örneğin Bu girilen kayıtların kart isteyen bir kişiye ait olduğu gibi.

Öğrenilen bilgi tecrübe ve öğrenme ile farkındalık oluşması özbilgi olarak adlandırılır. Bilgelik ise, doğru karar verebilmek için özbilginin nasıl kullanılacağını öğrenmek demektir. Verinin kararlar kademesine dönüşmesi için kullandığımız yöntemlere büyük veri diyoruz. Verinin büyüklüğü anlamlandırmak için daha fazla zor olacağı için belirli çalışmalar için veri ambarı ve veri pazarları gibi daha küçük veri setleri  kullanmak gerekebiliyor.

 

BÜYÜK VERİ

 

Büyük veri (Big data) kavramı, veri setlerinin saklanması ve analiz edilmesi sonrasında karar vermek konusunda kullanlması gibi durumlarda yetersiz kaldığı durumlarda karşımıza çıkan durum olarak belirtilebilir. Kesin bir tanımı olmaması ile birlikte, bu kavramı ilk olarak 2000’li yılların ortasında bilgi patlaması yaşayan astronomi ve genom bilimi üretmiştir. Big data kavramı kurumlara göre farklılık gösterebilir. Örneğin bir kurum için terabayte lerca veri anlamlandırmak için sorun iken, başka kurumlarda zetabaytelarca veriler sorun oluşturabilir. Yani hangi büyük veri kategorisine gireceğini ürettiği veri fazlalığı belirliyor. Big data, isminden de anlaşılacağı gibi çok fazla veriden bahsediyor. Yani bize getireceği birçok yararı olduğu gibi zorlukları da olacaktır. Örneğin bu büyük verinin nerede saklanacağı, nasıl yedekleneceği gibi sorularda başlı başına üzerinde düşünülmesi gereken konulardır.

Çalışmalarda büyük verilerden bazı örnekler alınarak çalışılabilir, tabi bu işlemin bütün veri ile yapılan işlemle aynı olmayacağını düşünmek gerekir. Genelde daha küçük veri setleri ile çalışmak için verinin bütününden örnekler alınır (Veri ambari, veri pazarı gibi) ve bu örnekler üzerinden anlamlandırılma çalışması yapılır. Örneğin Hadoop gibi büyük veri teknolojileri ile bütün veri üzerinde anlamlandırma çalışması yapılabilinir.

Nedir bu büyük veri (Big data)

Big data için elektronik ortamlarda yapılan işlemler, mailer, belgeler, fotoğraflar, videolar, müzikler, sesler, arama sonuçları, sağlık kayıtları, okul yazıları, makaleleri, bilimsel yazılar, cep telefonları dataları gibi gibi birçok örneği verebiliriz.

  • Facebook – 260 milyar fotoğraf – 20 Petabyte
  • IBM, veri miktarının 2005’ten 2020 yılına kadar olan sürede 300 kat artacağını belirtiyor.

Günümüzde büyük veri (big data), birçok alanda kullanılmaktadır. Sağlıktan pazarlama, bilişimde imalata kadar birçok alanda kullanılmaktadır. Örneğin bir bölgede toplanan verilerden yola çıkarak o bölgedeki salgın hastalık anlaşılabilir. Yani hasta kayıt bilgileri ile hastalık eşleştirilir belirli bölgede yayılma sayıları analiz edilerek salgın olduğunu anlayabiliriz. Buna verinin anlamlığı diyebiliriz.

BÜYÜK VERİ BiLEŞENLERI

Big data bileşenlerine kısaca 5V diyebiliriz. (Volume, Velocity, Veracity, Veriety, Value)  Daha önceden 4V olarak bahsedilirken son dönemde Value yani değer de eklendi ve artık 5V olarak anılmaya başladı. Şimdi bu bileşenlerin neler olduğunu ve ne demek istediklerini ve problemlerini anlatalım.

 

  • Volume (Hacim): Verinin hacmi, verinin boyutu ile doğru oranlıdır. Verinin boyutunu Terabyte, Zetabyte, Gigabyte gibi ölçüm birimleri ile anlatabiliriz. Verinin boyutu günümüzde big data için en önemli sorun olarak karşımıza çıkıyor. Veri toplamak, sonucunda anlamlandırılacağı ve yeni stratejiler oluşturabileceği için iyi gibi görünse de çok fazla veri toplamak yanında farklı sorunları da getirmeye başlıyor. Örneğin verinin nerelerde tutulacağı nerelere yedekleneceği gibi, tutulacak alanların kapasite sorunların aşmak gibi, çok fazla veri olduğu için analiz sırasında hızlı okumak için güncel teknolojilere yönelmek ve buda mailyet artışı gibi birçok problemi yanında getiriyor.

Veri hacmine örnek :

Dünya’da her gün 2.3 trilyon gigabyte verinin oluşturulduğu tahmin ediliyor. ABD’de bir çok firma en az 100 terabyte veri saklıyor.

  • Velocity (Hız) : Çağımızda veri çok hızlı şekilde üretilmektedir. Gündelik hayatta kullandığımız cep telefonları, tabletler ve IoT cihazları, sensör verileri sürekli ve hızlı şekilde veriyi üretebiliyor. Bu hızlı üretilen verinin hızlı şekilde analiz edilmesi büyük veri için önemlidir. Hızlı şekilde üretilen verinin doğru zamanda analiz edilmeyen verinin yönetilmesi big data nın bir başka problemleri arasında yer alıyor.

Verinin hızına örnek:

NY borsası her oturumda 1 terabyte ticaret bilgisini yakalıyor. Modern arabalarda yakıt seviyesi, lastik basıncı gibi öğeleri izlemek için 100 e yakın sensör var.

 

  • Variety (Çeşitlilik)  :Hız bileşeninde de anlattığımız gibi birçok farklı kaynaklar veri üretiyor. Bu yüzden bir kaynaktan ziyade çok fazla kaynaktan çok farklı veriler geliyor. İnternette web sitelerinin *.xml, *.hmtl , veri tabanlarının *.mdb, *.csv gibi müzik dosyaları *.mp3 gibi birbirinden farklı ve farklı kaynaklarda üretilmiş verilerin bir arada kullanılması ve analiz edilmesi, zorlukları ve karmaşıklığı da beraberinde getiriyor. Çeşitlilik bileşeninde ki bu birbirinden farklı verileri bir arada kullanarak anlamlı analiz çıkarmanın zorluğu, big data nın farklı bir problem olarak karşımıza çıkıyor.

Verinin çeşitliliğine örnek

2011 yılı itibarı ile sağlık alanında ki verinin boyutu 161 exabyte (161 milyar gigabyte)

Youtube de her ay 4 milyardan daha fazla saat video izleniyor.

Yaklaşık 200 milyon aylık aktif kullanıcı 400 milyon tweet atıyor.

 

  • Veracity (Geçerlilik) :Her toplanan veri, big data konusunda işimize yarayacak diye bir şey yok. Doğruluğundan emin olunmayan, karışıklık olarak üretilmiş veri anlamlandırılamayacağı için geçerli veri değildir. Bu yüzden veri toplarken big data yani büyük veri ye uygun teknoloji kanalları ile toplanması daha doğru olacaktır. Her veri bilgiye dönüşecek diye bir şey yok.

Verinin geçerliliğine örnek

Her 3 şirketten 1’i kararlar almak için kendi kullandıkları veriye güvenmiyor.

 

  • Value (Değer) :Verinin son V si. Daha sonra eklendi. Verinin önemli halisine gelmesinde ki en büyük etken verinin üretilmesi ile birlikte oluşan değerdir. Değer üretilemeyen veri anlamsız veridir. Verinin üretilirken amacına ve uygulama alanına göre değişiklik gösterebilir. Elde edilen verilerin değerlendirilmesi çok önemlidir. Bu yüzden üretilen verilerin analizi geleneksel analiz yöntemleri ile yapılıyorsa bir değer katamayabilir. Big data ya uygun teknoloji yöntemleri ile analiz edilmesi çok daha iyi sonuçlar verecektir. Anlamlandırılan ve ihtiyaca cevap veren veri analizi değerlidir.

VERININ DEPOLANMASI

Verinin hızlı şekilde üretilmesi depolama ihtiyaçlarını da beraberinde getiriyor. Yeterli depolama alanıne sahip olamak pahalıya mal olabilir. Yetersiz disk alanlarında satın alma yapılması ve yeni kaynakları emin etmek gerekebilir.Bu da artı olarak bütçe konusudur. Ayrıca sahip olunan disk kümelerinin okuma/yazma hızları da analiz için çok önemlidir. Okuma/yazma hızının yavaş olması büyük verinin analiz evresinde performans sorunu çıkaracağı için hızlı sonuç üretemeyecektir. Daha yavaş analiz süreceği olacağı için verinin bütünü ile değil de daha küçük veri setleri ile veri analizi yapmak gerekecek. Bunun da bütününe göre ne kadar doğru sonuç verip vermeyeceği başka bir problem konusu.

 

VERİNİN GİZLİLİĞİ

Toplanan verilerin gizliliği de big data için başka bir problem. Verilerin sadece yetkili kişilerin erişebileceği ortamlarda tutulması güvenliğinin sağlanması oldukça önemlidir. Gizlilik ihlallerinin önüne geçilmesi ve verinin gerekirse şifrelenmesi gerekmektedir.

 

DÜNYA’DA BÜYÜK VERİ UYGULAMALARI

Teknolojinin gelişmesi ile birlikte mevcut Dünya düzenimiz de değişmeye başladı. Artık geleneksel düzen yerini yeni çağ’a , yani akıllı şehirlere, akıllı evlere, akıllı yollara, akıllı arabalara bırakmaya başlıyor. Test süreçleri gitgide artmaya ve gerçek ortamda uygulanmaya başladı. Dünyanın birçok ülkesinde ve ülkemizde pilotsuz raylı sistemler buna örnek olarak verilebilir. Ayrıca Tesla gibi büyük araba üreticileri sürücüsüz aralarını trafiğin belirli bölgelerinde aktif denemeye devam ediyor. Bilim kurgu filmlerinde gördüğümüz birçok olay, yavaş yavaş hayatımıza girmeye başladı. IOT ile birlikte bu örneklerin her geçen gün daha fazla artacağını biliyor ve görüyoruz.

Accenture IT, General Electric, IBM firmalarının yaptığı araştırmaya göre ;

  • Şirketlerin yöneticilerinin %92si çıkan sonuçlardan memnun kaldığını bildiriyor
  • %89u büyük verinin çok hatta çok fazla önemli olduğunu düşünüyor
  • %89u ticari işlemlerde fark yani katma değer sağlayacağını düşünüyor
  • %85i büyük verinin ,iş akışlarını büyük ölçüde değiştireceğini düşünüyor
  • Geçtiğimiz on yılda hesaplama maliyetinin yılda %33 oranında azaldığını, depolama maliyetinin yıllık %38 ve bant denişliği maliyeterinin ise yılda %27 oranında azaldığını gösteriyor
  • UPS şirketi her gün yaklaşık 16.000 paket ve belge dağıtmakta ve yılda 4 milyar ürünü yaklaşık 100.000 araçla sevkiyat yapmaktadır. Bu işlem hacmi ile UPS’in büyük veri kullanması için birçok yol vardır. Bunlardan birisi Filo optimizasyonudur. Filo iiçin en iyi sonuç verecek rota planlaması, motor boşta kalma süresi ve tahmini bakım süresi gibi işlemler için yardımcı oluyor.

İnsan ve Büyük Veri

Bu örnekleri çoğaltabiliriz.  Dijitalleşme, Büyük veri kullanımı,Endüstri 4.0 gibi kavramlar verimliliği arttırıyor

Büyük veri, dijitalleşmenin sonucu olarak ortaya çıkmaya başlayan karanlık fabrikalar durumunundan biraz daha farklı. Örneğin insansız fabrikalar, robotlar sayesinde üretimi arttırabiliyor ve daha kısıtlı zamanda, daha az hata payı ile ve daha fazla üretim gerçekleştirebiliyor. Ancak big data da durum biraz daha farklı işliyor. Örneğin toplanılan veriler içierinsen yapılacak analiz ve bu analiz sonrası çıkacak sonucu doğru yorumlamak için insan gücüne ihtiyaç duyuluyor. İnsan hissiyatı ve stratejileri sayesinde çıkann sonucun farklı deneyimlerde kullanılmasına karar verebilecek kişi yine insandır.

Bu işlemi yapmak için şuanda, Hadoop, phatoon, R, Knime gibi yazılımlar kullanılıyor. Analiz sonrası çıkan raporu da anlamlandırmak ayrıca bir insan ihtiyacı doğuruyor. Yani mevcut durumda Big data ile insanı birbirinden ayırmak doğru olmamaktadır. Big data nın merkezinde insan olmaya devam ediyor.

SONUÇ

Sonuç olarak büyük yani big data nın hayatımızdaki rolu her geçe gün daha fazla artmaktadır. Örneğin sağlık kuruluşlarında tutulan verilerimiz, daha sonra başka bir hastalık için gittiğimizde karşımıza çıkabiliyor ve iki sonuç birleşince daha farklı bir sonuç çıkabiliyor. Yada istatistik gibi raporlar çıkartmakta işimizi kolaylaştırabiliyor. İşletmeler için yeni satış stratejileri çıkartabiliyor. Son kullanıcı için ürün / hizmet değerlendirilmesi yapılabiliyor. Örneğin, tatil için baktığımız otelin yada tatil köyünün daha önceki yorumlarına ulaşmak, burası için şikayet olup olmadığını öğrenmek karar vermemiz açısından çok önemli olabiliyor. Bu da artık büyük verinin büyük şirketlerden her internet kullanıcısına kadar, her işletmeden her hastaya kadar çok geniş yelpazede kullanıldığını hatta ihtiyaç olduğunu gösteriyor.

Daha önce de söylediğim gibi her toplanan veri de bilgiye dönüşmüyor. Anlamlandırılması çok önemli diye söylemiş ve süreçlerini yukarıda belirtmiştim. Sadece veri olsun diye sürekli veri girişi yapmak bazen okyanusta küçük balık aramaya benzeyebiliyor. O yüzden toplanan veriler ile büyük veri oluştururken büyük çöplük durumuna da düşmememiz lazım.

BÜYÜK VERİŞ ALANLARI

Büyük veri analizi süreci yani iş bölümleri doğmasına olanak sağladı. Örneğin Makine öğrenmesi , dip öğrenmesi, veri madenciliği gibi yeni iş birimleri ve bu birimler için uzmanlar gerekliliğini ortaya çıkardı. Analiz için kullanılacak uygulamaların (Hadoop,Phatoon, R, Knime vs. gibi) kullanımlarını anlatan eğitim merkezleri oluşmasını ve bunları anlatacak eğitmenlerin olması gerekliliği çıkardı. Son dönemde Türkiye’de büyük işletmeler tarafından uzmanlar istihdam edilmeye ve daha fazla analiz yapılmaya başlandı. ÇIkan sonuçlar neticesinde iş stratejileri belirlenmesi ve kaçırdığımız kısımları görmemiz sağlanmaya başladı. Özellikle veri madenciliği isminde uzmanlar barındırması yada uzman arayışları son dönemde daha fazla duyulmaya daha fazla iş ilanı çıkılmaya başladı.
Türkiye’de son dönemde popüler olduğunu söylüyoruz, ancak Amerika için 204 yılından bu yana atılım yapıla bir kavramdır. Facebook, Google, Amazon, Ebay gibi büyük devler yoğun şekilde kullanmakta ve faydalanmaktadır.

Big data (Büyük veri), mavi okyanus olarak tabir edilen yeni fırsatların olduğu bir alanda büyük pazar olarak görülebilir. Doğru şekilde yürütüldüğü zaman çok iyi geri dönüşler sağlayabilecek bir pazar olarak görebiliriz.

Son olarak, büyük veri yani big data olsun diye sürekli veri toplamak doğru bir işlem değildir. Veri toplama sürecinden sonra verinin bilgiye dönüşmesi kesinlikle olmazsa olmazıdır. Girilmiş veri üzerinden veri mademciliği yapılarak anlamlandırmak yani bilgiye dönüştürmek big data için en önemli süreçlerden birisi olarak önümüze çıkıyor.

Büyük Veri boyutları için kullanılan ölçüm birimleri :

  • 1 Bit = Binary Digit
  • 8 Bits = 1 Byte
  • 1000 Bytes = 1 Kilobyte
  • 1000 Kilobytes = 1 Megabyte
  • 1000 Megabytes = 1 Gigabyte
  • 1000 Gigabytes = 1 Terabyte
  • 1000 Terabytes = 1 Petabyte
  • 1000 Petabytes = 1 Exabyte
  • 1000 Exabytes = 1 Zettabyte
  • 1000 Zettabytes = 1 Yottabyte
  • 1000 Yottabytes = 1 Brontobyte
  • 1000 Brontobytes = 1 Geopbyte

 

Kaynaklar:

 

Büyük veri ve Açık Veri Analitiği 2017 : Yöntemler ve Uygulamalar

Demirtaş, B., & ARGAN, M. (2015). BÜYÜK VERİ VE PAZARLAMADAKİ DÖNÜŞÜM: KURAMSAL BİR YAKLAŞIM.

Seker, S. E. Büyük Veri ve Büyük Veri Yaşam Döngüleri. YBS Ansiklopedi2.

ÇAKIREL, Y. (2016). İşletmelerde Büyük Veri. Kırklareli Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi5(1), 52-62.

Baysal, İ. (2015). Endüstri 4.0. PWC Türkiye. Web: https://www. okul. pwc. com. tr/images/uploadfile/content/635863141496551266. pdf adresinden15(06), 2016.

AKSOY, B., Cenk BAYRAKÇI, H., BAYRAKÇI, E., & UĞUZ, S. (2017). BÜYÜK VERİNİN KURUMLARDA KULLANIMI. Suleyman Demirel University Journal of Faculty of Economics & Administrative Sciences22.

ÇİFÇİ, M. A. Büyük Veri (Big Data).

 

Devamını oku
kadir doğanlar Aralık 13, 2018 0 Yorum
WhatsApp chat