Veriyi daha çok mahremiyet ve gözetim bağlamında tartışıyoruz. Fakat verinin çıkarılması ve kullanımının 21. yüzyıl kapitalizminde merkezi bir yere sahip olduğunu atlamamak gerekiyor. Bazıları veriyi doğal kaynak olarak görmektedir. Ancak veriyi hammadde olarak değerlendiren yaklaşımlar veri bilimi çalışmaları ve uygulamaları dikkate alındığında daha yerindedir.
Rahip Brunson krizi sonrasında Cumhurbaşkanı Recep Tayyip Erdoğan’ın “Daha çok üreteceğiz, daha çok ihraç edeceğiz. Amerika’nın elektronik ürünlerine biz boykot uygulayacağız.” sözlerine Adanalılar sahte dolar yakarak destek verdiler. Ayrıca “Bundan sonra Amerikan malı hiçbir şey kullanmayacağız” diyen Adanalılar artık iPhone yerine Çin ve Türk malı cep telefonlarını kullanacaklarını belirttiler. Başka yerlerde iPhone’ların balyozla parçalandığı protestolar gerçekleştirildi. Bir diğer Amerikan tekeli Microsoft’un ürünlerine karşı doğrudan bir boykot olmadı. Fakat kriz, 2005 yılında ilk sürümü duyurulan ve on yıldır iki adım ileri bir adım geri atarak ilerleyen GNU/Linux dağıtımımız Pardus’u bir kez daha gündeme getirdi. Bu “yerli/milli işletim sistemi”ni kullanan kurumların yabancı şirketlere gidecek bütçenin vatandaşın cebinde kalmasını sağlayacağı hatırlandı (https://www.yenisafak.com/gundem/pendik-belediyesinden-dev-tasarruf-3390142).
GNU/Linux kullanımının vatandaşların ödediği vergilerin bilişim tekellerine aktarılmayacağı anlamına geldiğinin hatırlanması sevindiricidir. Bu nedenle, Adanalıların ya da balyozla iPhone kıranların tepkileri anlık olsa da Pardus’u ayrı bir yere koymak gerekiyor. GNU/Linux’u yaygınlaştırmak için (kamu kurumlarının içinden ve dışından) yıllardır ciddi bir çaba harcanıyor. Pendik ve diğer belediyelerin Brunson krizi öncesinde alınan Pardus’a göç kararı, bu çabanın ürünü (https://www.pendik.bel.tr/haber/detay/9-belediye-pardusa-gecti). Fakat çağımızda teknolojinin gelişim hızı düşünüldüğünde Pardus’un çok yavaş yayıldığını da kabul etmek gerekiyor. Pardus’un ilk sürümünün 2005 yılında çıktığını dikkate alırsak bugün özellikle kamu kurumlarında ve belediyelerde çok daha yaygın olması, özellikle Milli Eğitim’in Pardus’a yönelmiş olması, öğretmen ve öğrencilere Pardus’u tavsiye ediyor olması gerekirdi. Bu durumu açıklamak için çeşitli nedenler öne sürülebilir. Ama bence asıl sorun, Pardus hakkında son zamanlarda çıkan haberlerden de görülebileceği gibi, karar vericilerin Pardus’u daha çok bir tasarruf aracı olarak görüyor olmaları. Dolayısıyla özel mülkiyetli yazılımlar düşük fiyatla ya da ücretsiz verildiğinde geri adım atılabiliyor. Aslında sorunun temelinde Pardus’un özgür yazılım olduğunun kabul edilmemesi, açık kaynaklı yazılım tanımlamasının neden olduğu bulanıklığın bir adım daha öteye taşınarak Pardus’un yerli/milli yazılım olarak tanımlanması var.
İşin kötüsü GNU/Linux kullanımını yaygınlaştırmaya çalışan birçok insan, yararcı düşünerek GNU/Linux’u özgür yazılım, serbest yazılım (2000’lerin başında bazı şirketler yaygınlaştırmaya çalışmıştı), açık kaynaklı yazılım veya yerli/milli yazılım olarak adlandırmanın önemli olmadığını, asıl meselenin GNU/Linux’un yaygınlaştırılması olduğunu savunuyor. GNU/Linux’un yaygınlaştırılmasına neden gerek var? Bu soruya, özgür, açık kaynaklı ya da yerli/milli kelimelerini tercih edenlerin farklı yanıtları vardır.
Yerli/milli yazılım nedir? Türk yazılım geliştiriciler tarafından geliştirilen yazılım mı? Microsoft Windows’u da GNU/Linux’u da çok farklı milletlerden yazılımcılar geliştiriyor. Microsoft’ta çalışan çok sayıda Türk var. GNU/Linux’un geliştirilmesine katkıda bulunan Türkler de var. Hatta yazılımları kodlayanlar dikkate alındığında Microsoft’un milliliği daha fazla bile olabilir. Yerliliğin ve milliliğin ölçüsü ne?
En baştan başlayalım.
Pardus, yüzlerce GNU/Linux dağıtımından biridir (https://distrowatch.com/). Dağıtım, “Linux çekirdeği, GNU araçları ve bir masaüstü ortamının bir araya gelmesiyle, bu birlikteliği sürdürülebilir şekilde yönetecek bir yapılandırma araçları seti, yazılım güncelleme araçları vb. ile oluşturularak tam teşekküllü bir işletim sistemi haline gelen uygulamalar bütününü ifade eder” (https://www.pardus.org.tr/Faq_quare/soru2/). Pardus sıfırdan oluşturulan bir dağıtım değil, birçok GNU/Linux dağıtımı gibi Debian tabanlıdır (Debian tabanlı olmak, kötü bir şey değil). Bu arada, Debian’ın kendisini “Evrensel İşletim Sistemi” olarak tanımladığını da eklemek isterim.
Çeşitli topluluklara özel dağıtımlar geliştirilebilir, dağıtımlara yenilikçi katkılar yapılabilir. Ama yapılan yenilikler paylaşıldığı ve bu yeniliklerin kopyalanıp geliştirilmesinin önünde telif hakkı engelleri olmadığı için bir dağıtımdaki yenilik hızla diğer dağıtımlara yayılır. Katkıda bulunan Amerikan, Alman, Çinli ya da Türk olabilir. Ama isteyen her dağıtım geliştirilen yeniliği alıp kendini geliştirebilir.
Çünkü GNU/Linux bir özgür yazılımdır. Kullanıcı, herhangi bir yazılımı (özgür ya da özel mülkiyetli olması fark etmez) kendisi dışında bir üretim faaliyeti için kullanabilir. Ancak sadece özgür yazılım, kendisi için tam bir üretim aracıdır. İsteyen her birey, her ulus özgür yazılımı (örneğin GNU/Linux’u) kendi gereksinimlerine göre değiştirip geliştirebildiği ve böylece onu yeniden üretebildiği için özgür yazılım, bilişim tekellerine karşı bir alternatiftir. Ucuz ya da ücretsiz olduğu için değil. Bunun yanında, telif ve patent engellerine takılmadan özgür yazılımı yeniden üretebilenler, yalnız yazılımı değil kendilerini de yeniden üretip geliştirirler. Özel mülkiyetli yazılım, kullanıcıyı salt tüketiciye indirgerken; özgür yazılım, kullanıcının yazılımı özgürce üretmesinin koşullarını sağlayarak tekellere balyozsuz, aklıyla karşı koyabilecek işgücünün gelişmesine yardımcı olur.
Pardus ya da GNU/Linux tartışmasının artık daha fazla oyalanmadan bir an önce tüketilmesi gerekiyor. Masaüstü bilgisayarlarda Microsoft Windows’a karşı GNU/Linux tartışması daha çok 2000’li yılların tartışma konusuydu. Web tabanlı uygulamalarının artması ve insanların internete çoğunlukla tablet ve akıllı telefonlarla bağlanmaya başlamasından sonra masaüstünde de GNU/Linux’a geçiş her zamankinden kolay oldu. Fakat diğer yandan, masaüstü bilgisayarlardaki işletim sistemi hâlâ önemli olmakla beraber, birkaç yıl içinde yaygınlaşacak nesnelerin interneti uygulamaları ve akıllı şehirler konusu daha kritik bir çalışmayı gerektiriyor: Verinin kamusal mülkiyeti.
Özgür yazılımın dışa bağımlılığı azaltması, bilişim tekellerinin bilinçli olarak uyguladığı satıcıya bağımlılık (vendor lock-in) stratejisini alt etmesi, teknik işgücünün gelişimi için ortam yaratması gibi verinin kamusal mülkiyetinin sağlanması da benzer yararlar sağlayabilir.
Veri nedir?
Veri, en basit tanımıyla gerçek dünyadaki bir öğenin soyutlanmasıdır. Söz konusu öğe, bir insan, nesne ya da olay olabilir. Öğeler, birtakım özniteliklerle tanımlanırlar. Örneğin kitabın soyutlanmasıyla elde edilen bir veri yazar adı, başlık, konu, tür, yayıncı, basım tarihi, sayfa sayısı, kelime sayısı vb özniteliklere sahip olabilir. Soyutlamada bazı özniteliklerin seçilip bazılarının dışarıda bırakılması bir tercihtir. Bu nedenle soyutlama sonucu elde edilen veri hiçbir zaman gerçek öğenin birebir aynısı olamaz. Kelleher ve Tierney’in (2018) Alfred Korzybski’den aktardığı gibi bir harita temsil ettiği bölge değildir. Ama bölgeye benzer bir yapıya sahipse harita kullanışlı olacaktır.
Soyutlama, aşağıdaki VEBB (Veri, Enformasyon, Bilgi, Bilgelik) piramidinin ilk adımıdır. Enformasyon, işlenmiş, yapılandırılmış, belirli bir bağlama oturtulmuş ve böylece insana anlamlı gelen veridir. Bilgi, insanlar tarafından yorumlanan ve anlaşılan enformasyondur. Bilgelik ise bilgiye göre davranmaktır.
VEBB piramidinin ilk örneklerine yazıdan önce rastlamak da mümkündür. Yazıdan önce insanlar basit kayıtları tutmak için sopaların üstüne çentikler atıyorlardı. MÖ 3200’de Mezopotamya’da yazı, ticari kayıtların tutulması için kullanılır. Alımsatımsal (transactional) veri olarak adlandırılan bu kayıtlar ticaretin gelişmesine paralel olarak toplumsal yaşamda giderek daha önemli bir yer işgal etmeye başlar. Demografik veriler gibi alımsatımsal olmayan verilerin toplanmasının da köklü bir geçmişi vardır. MÖ 3000’de, Eski Mısır’da yönetenler topraklarında ne kadar insan yaşadığını öğrenmek isterler. Kelleher ve Tierney (2018), bu dönemlerde toplanan verinin iki temel işlevi olduğuna işaret etmektedir: Vergileri ve askerleri artırmak.
Bilgeliğe giden yol zorludur. Piramidin tabanının zenginliği ve niteliği (ayrıntılı ve doğru veri kaynakları ) piramidin üst katmanlarının kalitesini etkiler. Verinin elde edildiği kaynakları ikiye ayırabiliriz. Birincisi, doğrudan veri toplama etkinliklerinden elde edilen veridir. Doğrudan bir gözlem veya ölçüm sonucunda, belirli bir konuda toplanırlar. Alımsatımsal kayıtlar ve nüfus sayımları bu tip verilerdir. Burada birincil amaç, hedefi önceden tanımlanmış verileri toplamaktır. İkinci veri kaynağı ise Kelleher ve Tierney’in (2018) atık veri (exhaust data) adını verdiği, birincil amacı veri toplamak olmayan süreçlerden elde edilen veridir. Sosyal medyanın (en azından görünürdeki) amacı insanların birbiriyle bağlanmasını sağlamaktır. Fakat insanların birbirine bağlanırken gerçekleştirdiği etkileşimler (video paylaşmak, beğenmek, takip etmek) sonucunda atık veriler ortaya çıkar: Kim paylaştı, kim neyi görüntüledi, bu işlemleri ne zaman, hangi cihazla yaptı gibi sorulara yanıt verebilen veriler. Sosyal medyada olduğu gibi e-ticaret sitelerinden yapılan alışverişler, göz atılan ürünler veya sitede ne kadar kalındığının bilgisi site sahibinin daha çok satış yapabilmesine yardımcı olabilecek verilerdir. Sosyal medya ve insanların web sitelerindeki etkileşimi veri miktarı ve veri çeşitliliğini artırmış, veri sahiplerine doğru kişileri hedefleyebilmede önemli avantajlar sağlamıştır. Atık veri, kullanıcı için veri toplama anlamına gelmeyen, ama platform sahibi şirketin bilinçli olarak yönettiği süreçlerin sonucunda elde edilmektedir. “Bedava” kullanılan Facebook, kullanıcıların sitede daha fazla vakit geçirmesi için elinden geleni yapar, türlü oyuncaklar geliştirir. Başta Google olmak üzere yapay zekâ üzerine çalışan şirketler, önümüzdeki birkaç yıl içinde yaygınlaşacak yapay zekâ hizmetlerine veri girdisi sağlamak için “bedava” ürünler sunarlar.
Piramitte yukarıya tırmanmak için kullanılan yöntem ve teknolojilerin gelişmişlik düzeyi de piramitteki tırmanışta kritik bir parametredir. Dijitalleşme bu tırmanışı hızlandırmıştır. Ancak büyük veri ve sosyal medyanın sağladığı devasa veri miktarına ek olarak,
– Hesaplama gücündeki hızlanma,
– Bellek maliyetlerinin düşmesi,
– Yapay öğrenme gibi güçlü veri analiz ve modelleme yöntemlerinin gelişimi
gibi gelişmeler bilgeliğin yeniden tanımlandığı bir sürecin de önünü açmıştır.
Veriyi daha çok mahremiyet ve gözetim bağlamında tartışıyoruz. Fakat verinin çıkarılması (extract) ve kullanımının 21. yüzyıl kapitalizminde merkezi bir yere sahip olduğunu atlamamak gerekiyor. Bazıları veriyi doğal kaynak olarak görmektedir (https://www.ibmbigdatahub.com/infographic/big-data-new-natural-resource). Ancak Srnicek’in (2016) veriyi hammadde olarak değerlendiren yaklaşımı veri bilimi çalışmaları ve uygulamaları dikkate alındığında daha yerindedir. Srnicek (2016), Marx’ın hammadde tanımından yararlanır:
“Başlangıçtan beri insanlara yiyecekleri, hazır geçim araçlarını sağlayan toprak (iktisadi anlamda su da bunun içindedir), insanın faaliyetinden bağımsız olarak, insan emeğinin genel nesnesidir. Emeğin yalnızca çevreleriyle dolaysız ilişkilerinden kopardığı her şey, doğanın kendiliğinden sağladığı emek nesneleridir. Yaşadığı ortam olan sudan çıkarılarak avlanan balık, ormandan kesilen ağaç, topraktaki damarından ayrılan maden cevheri bunun örnekleridir. Buna karşılık, emek nesnesi olan şey, deyim yerindeyse daha önce harcanan emeğin eleğinden geçmişse, ona hammadde diyoruz. Örneğin, çıkarılmış bulunup da yıkanmaya hazır olan maden cevheri böyledir. Her hammadde emek nesnesidir; ama her emek nesnesi hammadde değildir. Emek nesnesi ancak daha önce harcanan emekle bir değişiklik geçirdikten sonra hammadde haline gelir.” (s.182-183)
Veriden yararlanarak,
– Çevrim içiyken hangi reklamların gösterileceği,
– Hangi film, kitap ve arkadaşlık bağlantısının tavsiye edileceği,
– Telefon hattı satın aldığınızda size hangi servislerin teklif edileceği,
– Kişiye özel fiyatlandırmanın nasıl yapılacağı,
– Sigorta priminizin ne kadar olacağı
gibi konularda şirketler uygulamaya yönelik daha etkili kararlar alabilmektedir.
Verinin bu çeşitli kullanım alanları nedeniyle, veri bilimi son yılların en dikkat çekici çalışma alanlarından biri olmuştur.
Veri bilimi nedir?
Veri bilimi, geniş veri kümelerinde ilk başta göze çarpmayan yararlı örüntüleri çıkarmak için kullanılır ve bir dizi ilkeyi, problem tanımlarını, algoritmaları ve süreçleri kapsar. Veri bilimi, yapay öğrenme (machine learning) ve veri madenciliği terimleri sıklıkla birbirinin yerine kullanılmaktadır. Sonuçta her biri veri analizi ile karar almayı iyileştirmeye çalışmaktadır. Yapay öğrenme, veriden örüntülerin elde edilebilmesi için kullanılan algoritmaların tasarım ve değerlendirmesine odaklanır. Veri madenciliği ise daha çok yapılandırılmış verinin analizi ile ilgilidir ve özellikle ticari uygulamalara bir vurgu vardır. Veri bilimi, bu disiplinlerin çalışmalarından yararlanır ama daha kapsamlıdır. Yapılandırılmamış sosyal medya ya da web verisinin elde edilmesi, temizlenmesi ve uygun formata dönüştürülmesi; büyük, yapılandırılmamış veri kümelerinin saklanması ve işlenmesi için büyük veri teknolojilerinin kullanımı; veri etiği ve düzenlemeleri de veri bilimi kapsamındadır (Kelleher ve Tierney, 2018).
Benzer tartışma veri bilimi ve istatistik arasında da vardır. Bazı istatistikçiler, veri biliminin aslında yıllardır bilinen istatistik olduğunu iddia etmektedir; istatistik yeniden markalandırılmaktadır. Diğer yanda ise tarihsel bilgi birikimini inkâr eden ve veri bilimini, büyük veriyle uğraşan Google ve Facebook gibi şirketlerin bir mucizesi olarak görenler de vardır. Fakat yazının devamında aktaracağım gibi veri bilimi, birçok disiplini içeren, tek bir kişinin alanın tümüne hakim olmasının zor olduğu çalışmalar içerir. Tamamen yeni bir şey olmadığı gibi eskinin bir tekrarı da değildir. O’Neil ve Schutt (2013) veri biliminin kendisini bilim olarak adlandırması hakkındaki eleştirilerde haklılık payı olabileceğini kabul etmekte, veri bilimini bir bilimden çok zanaat olarak görmektedirler.
Veri bilimi, 1990’ların ikinci yarısında tarih sahnesine çıkar. Büyük veritabanlarındaki geniş ve karmaşık veri kümeleri, istatistikçilere yeni olanaklar sunmaktadır. Buna bilgisayar biliminde, hesaplama algoritmalarındaki gelişmeler de eklenince istatistik ve bilgisayar biliminin birlikteliğinden oluşan bir veri biliminin gerekliliğinden söz edilmeye başlanır. Breiman’a (2001) göre istatistikteki veri analizinin birincil amacı, doğrusal regresyonda (1) olduğu gibi verilerin nasıl oluşturulduğunu açıklayan (gizli) olasılıksal veri modelini tanımlamaktır. Bilgisayar biliminde ise doğru tahmin modelleri oluşturmak için algoritmaların kullanımına odaklanılmaktadır. Breiman’ın (2001) makalesinde bir araya gelmesini istediği iki kültür, 2000’li yıllarda buluşur ve veri biliminin temelini oluşturur.
Kelleher ve Tierney’in (2018) belirttiği gibi veri bilimi, istatistiğin yeniden tanımlanmasından fazlasıdır. Veri bilimi insanın yeteneklerinin yetersiz olduğu, bilgisayarın hesaplama gücüne ihtiyaç duyulan yerde başlar. Araştırmacı, bir veri kümesindeki örüntüleri, herhangi bir algoritmaya başvurmadan kendi başına fark edebiliyorsa veri bilimine gerek yoktur. Veri bilimi, belirli bir problemin çözümüne yardımcı olabilecek, açık seçik olmayan örüntüleri araştırır fakat amaç sadece bu örüntüleri keşfetmek değil, problemin çözümü için kullanmaktır. Örneğin, bir telefon operatörü başka bir şirkete geçen abonelerini bu kararlarından vazgeçirmek istiyor. Bunun için eski müşterilere ait kayıtlar incelenebilir ve başka operatöre geçen abonelerin davranış örüntüleri saptanabilir. Operatörü terk eden aboneler belki müşteri hizmetleriyle uzun bir görüşmeden sonra bu kararı vermiştir. Belki de başka operatöre geçmek isteyen aboneler bunun öncesinde telefon görüşmelerini azaltmaktadır. Başka operatöre geçiş nedenlerinden çok başka operatöre geçme riski yüksek abonelerin tespiti önemlidir. Çünkü ikinci aşama bu abonelerin cazip tekliflerle kalmaya ikna edilmesidir.
Veri bilimi projelerini, hedeflerine göre beş başlık altında inceleyebiliriz:
– Kümeleme (bölümleme)
– Anomali tespiti
– İlişki kuralı madenciliği
– Kestirim
– Regresyon
Kümeleme
Veri biliminin piyasada en çok kullanıldığı alanlardan biridir. Şirketler herkese aynı biçimde hitap etmek yerine müşterilerini farklı kümelere bölerek bu kümelere yönelik kampanyalar uygularlar. Sektörü iyi tanıyan uzmanlar sezgisel olarak müşterileri farklı gruplara ayırabilir. Fakat bu yetenek sınırlı olacaktır. “Çocuklu ev kadınları” diye bir küme varsayılabilir. Ama bir veri bilimi projesi, pazarlamanın daha etkili olmasını sağlayabilecek daha farklı kümeler çıkarabilir: tüm gün evin dışında çalışan ve çocuğu olan anneler, yarı zamanlı çalışan ve çocuğu liseye giden anneler, yiyecek ve sağlıkla ilgili ama çocuğu olmayan ev kadınları gibi.
Çalışmanın başında öğelerin hangi özniteliklerinin dikkate alınacağı hangilerinin kapsam dışında bırakılacağı önemlidir. Müşterinin yaşı, bölgesi, aylık kazancı, ne kadar sıklıkla alışveriş yaptığı gibi özniteliklerden hangilerinin analize katılacağı çalışmanın çıktılarını etkiler. Ya da veri biliminden yararlanan şirket, tüketicilerin satın aldığı ürünlerden önemli bilgiler elde edebileceğini düşünüyorsa bağlılık kartı (mağazaların sürekli müşterilerine verdiği kart) sahiplerine çeşitli avantajlar sağlamak gibi bir stratejiye başvurabilir.
Kümeleme, sadece hedefli reklâmcılık ve pazarlama ile ilgili değildir. Kelleher ve Tierney (2018) aşağıdaki kullanım alanlarını verir:
– Bir derste ilave yardıma veya farklı bir yaklaşıma ihtiyaç duyan öğrenci gruplarının saptanması.
– Bir konu külliyatı içerisindeki benzer belgelerin bulunması.
– Biyoenformatikte mikrodizi analizinde gen dizilerinin incelenmesi.
Ayrıca temel görevi kayıtların bölümlemesi olmayan veri bilim çalışmalarında, verinin daha iyi anlaşılabilmesi için çalışmanın başında kümeleme algoritmalarına başvurulabilir.
Kümelemede kullanılan yapay öğrenme algoritmaları içinde en bilineni k-ortalama algoritmasıdır. K-ortalama algoritması, verileri k tane kümeye bölümler. Küme içi benzerliğin en fazla, kümeler arasındaki benzerliğin ise en az düzeyde olması hedeflenir. Veri üzerinde çalışan algoritma benzerliklere göre çeşitli kümeler oluşturur. Oluşturulan kümelerin anlamlı olup olmadığı uzman gözüyle değerlendirilir. Algoritma tekrar çalıştırılarak kayıtların daha anlamlı kümelenmesi denenebilir.
Anomali tespiti
Önce başımdan geçen iki olayı paylaşayım.
2009’da oğlumun doğumu için gece yarısı hastaneye gittik ve saat 02:00 civarında doğum işlemleri için kredi kartıyla ödeme yaptım. Birkaç dakika sonra banka tarafından arandım. Kredi kartımla x TL harcama yapıldığını söyleyen ve bunu onaylayıp onaylamadığımı soran bir ses kaydı çıktı. Sanırım harcamanın benim için olağandışı bir saatte ve miktarda olması bankanın bilgisayar sisteminin harekete geçmesine neden olmuştu. Bankayı takdir ettim.
2016’da başıma gelen ikinci olayda ise bankanın güvenlik sistemi âdeta (bu sefer başka banka) uyuyordu. Ay sonunda kredi kartı ekstremi kontrol ettiğimde 5000 TL’lik bir harcamayla karşılaştım. Ayrıntılara bakınca kredi kartımla Ankara’daki bir firmadan kamyon lastiği alındığını öğrendim. Harcama kredi kartının fiziksel kopyası kullanılmadan, kartın üzerindeki numaralar söylenerek yapılmıştı. İlk başta 5000 TL çekilmişti. Daha sonra da tekrar 5000 TL çekilmek istendiğinde kart limiti yetersiz kalmıştı. Bu sıra dışılıklara rağmen banka işlemin gerçekleştirilmesine onay vermiş ve beni uyarma gereği bile duymamıştı. Dolandırıcılığı günler sonra ekstreden öğrendim. O zaman tespit edememiş olabilirler demiştim, geçmiştim.
Kelleher ve Tierney’in (2018) anomali tespiti hakkında yazdıklarını okuyunca bu olaylar aklıma geldi ve ikinci dolandırıcılığa göz yuman bankaya daha çok kızdım. Kelleher ve Tierney (2018), kredi kartı dolandırıcılığında kredi kartını ele geçiren hırsızların kartı önce fiyatı düşük bir şeyi satın almak için kullandıklarını ve böylece kartın geçerli olup olmadığını öğrendiklerini, geçerli olduğunu anlar anlamaz da karttan büyük bir meblağ çeken alım yaptıklarını, bunun da kredi kartı dolandırıcılığının çok bilinen örüntülerden biri olduğunu yazıyordu. Böyle bir işlem gerçekleştiğinde bankanın bu basit örüntüyü fark ederek ve hemen alarma geçmesi gerekirdi. Üstelik bu bile anomali tespitinde geri bir uygulama. Kelleher ve Tierney’in (2018) belirttiği gibi bu tip kural tanımlı yaklaşımlar, dolandırıcılık önceden bilinen örüntüler üzerinden gidilerek saptanabildiğinden daha önce karşılaşılmamış anomalilerin bulunabilmesinde yetersiz kalmaktadır. Veri bilimi kural tanımlı örüntü algılamayı geliştirerek kümelemeye benzer bir yaklaşım uygular. Kümelemenin amacı benzer kayıtları tespit etmekken, anomali tespiti için verinin bütününden farklı özelliklere sahip veriler aranır. Bunun için farklı yöntemler uygulanabilir. Birincisi, normal verinin aynı kümede bir araya getirilerek anomalilerin farklı kümelerde toplanmasıdır. Böylece anomalileri içeren küme daha küçük olacağından normal kayıtlar içeren diğer büyük kümelerden ayrılır. İkinci yöntem ise örneklerin kümenin merkezinden uzaklığını ölçmektir. Merkezden daha uzak kayıtlarda anomali olasılığı daha yüksek olacaktır. Üçüncü yöntem ise örneklerin anomali veya değil diye ayrıldığı karar ağacı gibi kestirim modellerini eğitmektir. Bu yöntemi uygulayabilmek için normal ve anomali içeren kayıtlara sahip bir eğitim veri kümesine ihtiyaç vardır. Modelin işleyişi için ideal koşul normal ve anomali içeren kayıtların yarı yarıya olmasıdır. Fakat normalde anomali, tanım gereği tüm kayıtların % 1-2’sinden az olduğu için bu model dolandırıcılık tespiti için pek uygun olmayabilir. Bu tip durumlarla ilgilenmek için geliştirilmiş yapay öğrenme algoritmaları da vardır. Veri bilimciler farklı modeller deneyip sonuçları karşılaştırarak bir sonuca varmaya çalışırlar.
Anomali tespiti kredi kartı dolandırıcılığı dışında aşağıdaki alanlarda da uygulanmaktadır:
– Dolandırıcılık ya da kara para aklama şüphesi içeren işlemlerin daha ayrıntılı soruşturma için saptanmasında.
– Sigorta tazminat talebinin gerçekliğinin araştırılmasında.
– Sibergüvenlikte çalışanlar tarafından gerçekleştirilebilecek iç saldırıların ve sıra dışı davranışların tespitinde.
– Tıpta, hastalıkların teşhisinde yararlı olabilecek anomalilerin saptanması, tedavilerin vücut üzerindeki etkilerinin araştırılmasında.
– Nesnelerin interneti uygulamalarında algılayıcılardan gelen verilerdeki anomalileri tespit ederek çıkabilecek sorunlara karşı hızla harekete geçilmesinde.
Birliktelik kuralı madenciliği
Kümeleme ya da anomali tespitinden farklı olarak kayıtlardaki benzerlikleri ve farklıları araştırmak yerine kayıtların içerdiği öznitelikler arasındaki ilişkiyle ilgilenir. Aynı anda gerçekleşen olayları araştırır. En bilineni beraber alınan ürünleri tespit ederek müşterilere yeni ürünler önermektir. İlişki kuralı madenciliği şirketlerin aşağıdaki gibi sorulara yanıt verebilmesine yardımcı olur:
– Pazarlama kampanyası işe yarıyor mu?
– Müşterinin alım örüntüsü değişti mi?
– Müşterinin hayatını değiştiren büyük bir olay var mı?
– Ürünün yeri, satın alma davranışını etkiliyor mu?
– Yeni ürün için kimleri hedeflemeliyiz?
Bu hedef için kullanılan temel algoritma apriori (önsel) algoritmasıdır. Algoritma veri kümesini adım adım inceleyerek birliktelik kurallarını çıkarmaya çalışır. A ve B ürünlerini satın alanlarının C alma ihtimallerinin yüksek olduğu hesaplanabilir. Bazen çok ilginç ilişkiler ortaya çıkar. Örneğin bir rivayete göre, 1980’lerde ABD’deki süpermarketlerde kullanılan ilk bilgisayar sistemleri bebek bezi ile bira satışı arasında bir ilişki keşfetmiştir. Fakat birlikteliğin yararlı olabilmesi için kayda değer bir oranda olması gerekir. A, B ve C’yi aynı anda satın alanlar tüm kayıtların ihmal edilebilecek bir oranı için doğruysa bulunan kural fazla yararlı olmayacaktır. “A ve B alanların % 40’ı C alıyor” sonucuna varıldığında modelin güvenirlik derecesi belirtilmiş olur. Bu nedenle ilişkiye farklı öznitelikler dahil edilerek modelde oynama yapılabilir. Örneğin, müşteri erkek ve 40 yaş üzerindeyse, A ve B’nin yanında C alma ihtimali % 90’dır sonucuna varabiliriz. Ama bu durumda da “erkek, 40 yaş üzerinde, A ve B’nin yanında C alan” müşterilerin oranı “A ve B’nin yanında C alan” müşterilerin oranından düşük olacaktır.
Birliktelik kuralı aşağıdaki alanlarda kullanılmaktadır:
– İnternet servis sağlayıcıların müşterilerine sunduğu A,B,C vs hizmetlerini içeren demet ürün pazarlamalarında.
– Tıpta yeni ve eski tedaviler/ilaçlar arasında bir etkileşim olup olmadığını kontrol etmede.
– Bankacılık ve finans hizmetlerinde müşterilere ilgi duyabilecekleri ürün ve hizmetlerin teklif edilmesinde.
Bu modellere zaman özniteliği de eklenebilmektedir. Örneğin, “A ve B alanlar üç ay sonra C alıyor” gibi bir ilişki tespit edildiyse A ve B alanlar 2,5 ay sonra C almaları için bir reklâm bombardımanına tutulabilir.
Sınıflandırma: Eğilimin saptanması
Müşterilerin olası hareketlerini öngörebilmek ve buna göre hareket etmek müşteri ilişkilerindeki hedeflerden biridir. Sınıflandırmada müşterinin harekete geçme eğilimi modellenir. Müşterinin öngörülmek istenen hareketi, pazarlamaya tepkisi, vadesi geldiğinde borcunu ödeyemez duruma düşmesi ya da yukarıdaki telekom operatörü örneğinde olduğu gibi hizmet aldığı şirketi değiştirmesi olabilir. Veri biliminin buradaki görevi tahminde bulunmaktır: Pazarlamaya olumlu tepki verebilecek müşteriler, borcunu ödeyemeyecek banka müşterileri, başka bir servis sağlayıcıya geçebilecek aboneler sınıflandırılır.
Bu görevin yerine getirebilmesi için geçmiş bilgisine gereksinim vardır. Daha önce hangi müşterinin, hangi koşullarda harekete geçtiği hakkında veriler varsa önce eski veri üzerinde çalışarak bir model geliştirilir ve geliştirilen modelin isabetli kestirimler yapması beklenir. Müşteri eğilim modelleri geliştirilirken ilk olarak müşterinin yaş, cinsiyet, yaşadığı yer, meslek gibi demografik verilerinden yararlanılır. Bunun yanında modelde çalışılan alana özgü özniteliklerin de atlanmaması gerekir. Telekom operatörleri için abonenin sözleşme sonuna yaklaşması, fatura ortalaması, faturalarındaki değişim, gecikmiş ödemeler, kullanım oranı, paket aşımı yapıp yapmadığı modelin sonucunu etkileyebilir. Ayrıca belirli bir zaman ve mekâna ait verilerle oluşturulan model başka zaman ve mekânda geçerli olmayabilir.
Regresyon: Değeri tahmin etmek
Bir arazinin ya da bir arabanın ne kadara satılması gerektiği sorusu sınıflandırmadaki gibi eğilimin saptanmasına benzer. Her ikisi de bazı özniteliklerden yararlanarak başka bir özniteliğin eksik değerini bulmaya çalışır. Ama sınıflandırmada kategorik bir öznitelik, regresyonda ise sürekli bir özniteliğin değeri tahmin edilir. Bir evin değeri tahmin edilirken evin büyüklüğü, oda sayısı, kaç katlı olduğu, bölgedeki evlerin ortalama fiyatı, bölgedeki evlerin ortalama büyüklüğü gibi özniteliklerinden yararlanılır.
Bir galerici, tecrübelerine dayanarak bir otomobile bir fiyat biçebilir, ürünü satabileceği en yüksek fiyattan satışa koyarak kafasındaki alt sınıra kadar inebilir. Regresyon bu işlemi geçmiş verilerin yardımıyla yapar. Arabaların marka, yaş, gidilen kilometre, motor büyüklüğü, kapı sayısı, renk vb özniteliklerini değerlendirerek bir tahminde bulunabilir. Böylece fiyatlandırma tecrübesi olmayan bir satıcı bile, galerisine yeni bir araba geldiğinde alt ve üst sınırları önceden bilerek pazarlığa başlar. Regresyonun başlıca kullanım alanları şunlardır:
– Sosyal bilimlerde işsizlik ve nüfus gibi konularda gelecek hakkında tahminler yapmak.
– Ekonomide enflasyon ve faiz oranlarını tahmin etmek.
– Yer bilimlerinde ozonun gelecekteki kalınlığı gibi tahminler yapmak.
– İki olgu arasındaki bağımlılık ve ilişkiyi araştırmak.
– Tepkime deneylerinde bileşenlerin en uygun karışımını bulmak.
– Portföy riskini en aza indirmek.
– Şirketin satışlarıyla reklâm giderleri arasındaki ilişkiyi açıklamak.
– Hisse bedellerinin faiz oranlarından nasıl etkilendiğini bulmak.
Veriden bilgeliğe
Kelleher ve Tierney’in (2018) belirttiği gibi veri bilimi, istatistiğin yeniden tanımlanmasının ötesindedir. Bir veri bilimi çalışmasının başarılı olabilmesi için bilgisayar bilimi (yapay öğrenme) ve istatistiğin yanında aşağıdaki konularda bilgi ve yeteneğe ihtiyaç vardır:
– Matematik,
– Üzerinde çalışılan problem hakkında özel uzmanlık,
– İletişim ve sunum,
– Veri görselleştirme.
Veri bilimcinin tüm bu konularda çok iyi olması beklenemez. Matematik ve istatistik konusunda çok iyi olan biri yapay öğrenmede daha zayıf, iletişim ve sunum konusunda başarısız olabilir. Ya da veri görselleştirme ve sunumda başarılı olan biri matematikte yetersiz olabilir. Dolayısıyla proje ekibinin bu yetersizlikleri ortadan kaldıracak biçimde oluşturulması gerekir. Veri bilimi projelerinin nasıl işlediğine geçmeden önce veri bilimi hakkındaki bazı mitlere bakalım.
Bu mitlerin başında veri biliminin insan müdahalesi olmaksızın kendi kendine işleyen bir süreç olduğu gelmektedir. Veriler girilir, yapay öğrenme algoritmaları çalıştırılır ve istenen sonuç alınır. Ne yazık ki iş bu kadar basit değildir ve araştırmacıların projenin her aşamasında etkin katılımı gereklidir. Araştırmacı problemi belirlemeli, veriyi tasarlamalı ve hazırlamalı, hangi yapay öğrenme algoritmalarını kullanacağına karar vermeli, analiz sonuçlarını eleştirel bir gözle değerlendirmeli ve analizin sağladığı içgörüyle uygun eylemi planlamalıdır.
İkinci büyük mitse her veri bilim projesinin büyük veri ve derin öğrenmeye (2) ihtiyaç duyduğudur. Kelleher ve Tierney (2018) fazla verinin yardımcı olduğunu ama doğru veriye sahip olmanın daha önemli olduğunu savunmaktadır. Google, Microsoft ve Baidou kadar verisi ve donanımsal kaynağı olmayan kuruluşlar da veri biliminden yararlanabilmektedir. Ayda yaklaşık 100 sigorta tazminat talebi alan sigorta şirketleri, 10000’den az öğrencisi olmasına rağmen öğrencilerin kayıt sildirme eğilimlerini inceleyen okullar, üyelikten istifaları tahmin edip bunu engellemeye çalışan sendikalar veri biliminden yararlanabilmektedir.
Üçüncüsü, veri bilimi yazılımlarını kullanmanın kolay olduğu ve dolayısıyla veri biliminin kolay bir iş olduğudur. Kelleher ve Tierney’in (2018) vurguladığı gibi veri bilimi için kullanıcı dostu yazılımlar vardır. Özellikle Python ve R yazılım geliştirme tecrübesi olmayanlar için bile kullanışlıdır. Fakat çalışılan alan ve kullanılan veri hakkında uzmanlık olmadan, farklı yapay öğrenme algoritmalarının altındaki varsayımları dikkate almadan, kısacası yapılan çalışmanın özü kavranmadan hatalı adımlar atmak çok kolaydır. Hataların en büyüğü de yazılımın çıktılarını körü körüne kabullenmek olacaktır.
Dördüncü mit, veri biliminin hemen bir mucize yaratacağıdır. Şirketler altyapı ve veri bilimciler için yaptıkları yatırımın hemen karşılığını almak isteyebilir. Bu hemen olmayabileceği gibi bir süre sonra veriden bir içgörü elde edilse bile koşullar değiştiğinde bu içgörü geçerliliğini kaybedebilir. Dolayısıyla veri bilim çalışmasında süreklilik gerekir. Ayrıca veri bilimden işe yarar hiçbir içgörü elde edememek de ihtimal dahilindedir.
Veri biliminde en çok kullanılan süreç olan CRISP-DM’nin (Cross Industry Standard Process for Data Mining – Veri Madenciliği İçin Endüstriler Arası Standart Süreç) aşamaları incelendiğinde bu mitler daha anlaşılır olacaktır.
CRISM-DM, verinin merkezde olduğu altı aşamada gerçekleşir:
1) İşin anlaşılması
2) Verinin anlaşılması
3) Verinin hazırlanması
4) Modelleme
5) Değerlendirme
6) Dağıtım (deploy)
Aşağıdaki diyagramda gösterildiği gibi bu adımların doğrusal takibi zorunlu değildir. Bir aşamadayken önceki aşamalara dönülebilir, aynı aşama tekrarlanabilir veya sonraki aşamaya geçilebilir.
Birinci aşamada, işin ihtiyaçlarının ve çözülmek istenen problemin belirlenmesi gerekir. Daha sonra ikinci aşamaya geçilmeli ve kuruluşun sahip olduğu veriler incelenerek eldeki verilerin problemin çözümü için uygun olup olmadıklarına karar verilmelidir. Eldeki verilerle çözülemeyecek bir problem varsa çözülmek istenen problemin gözden geçirilmesi ve değiştirilmesi gerekir.
Verinin hazırlanması aşamasında farklı veri kaynaklarının birleştirilmesi çok sık karşılaşılan bir gereksinimdir. Böylece verilerin birleştirilmiş tek bir görünümüne kavuşulur. İlk başta kolay gibi görünebilir ama farklı sistemlere ait ilişkisel veritabanlarını birleştirmek ve aralarındaki uyumsuzluğu gidermek bile çoğu zaman zahmetli bir iştir. Hastanelerdeki hasta kayıtlarını birleştirmeye çalıştığımızı düşünelim. Her hastane aynı yazılımı kullanmadığından hastalar hakkındaki verilerin öznitelikleri farklı olabilir. Bir hastane, kayıtlardaki bir özniteliği (örneğin ağırlık) tam sayı, bir başkası ondalık, diğeri metin olarak saklıyor olabilir. Sonraki aşamaya geçilebilmesi için bu tip uyumsuzlukların giderilmesi gerekmektedir. Kayıtlarında eksiklikler ya da yanlışlar olabilir. Bazı hastaların ağırlıkları yanlış girildiyse (76,4 yerine 764 gibi) ya da eksik öznitelikler varsa bunlar ayıklanmalıdır. Verideki hatalar modelleme aşamasındaki analizlerin performansında ciddi sorunlara neden olabilir.
Dördüncü aşamada, yapay öğrenme algoritmalarıyla verideki örüntüler çıkarılır ve bu örüntüleri kodlayan modeller üretilir. Bilgisayar biliminin bir alanı olan yapay öğrenme, bu algoritmaların tasarlanması üzerine çalışır. Yapay öğrenme algoritmalarının veri kümesinde hedeflediği örüntüler, çeşitli biçimlerde temsil edilebilir: Karar ağaçları, regresyon modelleri, sinir ağları vb. Örüntülerin bu temsilleri “modeller” olarak adlandırıldığından CRISP-DM döngüsünün bu safhasına modelleme safhası denir. Oluşturulan model analizlerde kullanılır ve bazı durumlarda modelin yapısı, alandaki önemli özniteliklerin neler olduğunun açığa çıkarılmasında yararlı olabilir. Örneğin, sağlık alanında felç geçirmiş insanlardan oluşan bir veri kümesine uygulanacak bir yapay öğrenme algoritması, felç ve bununla güçlü ilişkileri olan etkenleri belirleyebilir. Model, etiketleme ve sınıflandırma işlemine yardımcı olabilir. İstenmeyen (spam) e-postaları filtrelemek için oluşturulan modelin temel görevi e-postayı istenmeyen ya da istenen diye etiketlemektir. İstenmeyen e-postaların niteliklerini ortaya çıkarmak değil.
Veri bilimci, en uygun örüntünün hangisi olduğunu en başta bilemeyebilir. Veriyle eğitilen model, başka bir veri kümesiyle test edildiğinde istenen sonucu vermiyorsa model gözden geçirilir. Ayrıca model oluşturulurken üzerinde çalışılan veri kümesinin ana kitleyi temsil edip etmediğine dikkat etmek gerekir. Diyabet konulu bir sağlık araştırmasında siyah erkeklerin yoğun olduğu veri kümesinde çalışıp modeli genele uygulamak yanlış sonuçlar verebilir.
Modelleme aşamasındaki test, modelin veri kümesi için doğruluğuna odaklanır. Değerlendirme aşamasında ise ulaşılan sonuçların birinci aşamada belirtilen problemin çözümüne katkıda bulunup bulunmadığı değerlendirilir. Modelin, birinci aşamada ortaya konan problemin çözümüne yardımcı olacağı sonucuna varılırsa model dağıtılır (deployment).
Dağıtım aşamasında hazırlanan modelin iş süreçlerine ve kullanılan diğer sistemlere nasıl dahil edilebileceği üzerinde durulur. Ayrıca periyodik olarak modelin performansının değerlendirilmesi için bir plan yapılmalıdır. Model bir süre sonra geçerliliğini kaybedebilir. İşletmenin hedefleri değişebilir, modelin temel aldığı süreçler (örneğin müşteri davranışları) değişebilir, veri kaynakları değişebilir. Bu nedenle model sürekli izlenmeli ve gerektiğinde CRISP-DM süreci yeniden başlatılmalıdır.
Bu aşamalardan kuşkusuz en etkileyici olan dördüncü aşama, modellemedir. Modellemenin sihri nedeniyle en kritik aşamanın bu olduğu düşünülerek diğer adımlar önemsiz görülebilir. Ama sanıldığının aksine bir veri bilimci (kişi ya da ekip), vaktinin çoğunu model kurmaya ve bunu iyileştirmeye harcamaz. Asıl vakit alan ilk üç aşamadır: İşi ve veriyi anlayarak projenin hedeflerini doğru koyabilme ve verinin hazırlanması. 2016 yılında yapılan bir araştırmaya göre bir veri projesinde zamanın % 19’u veri kümelerinin toplanması, % 60’ı verinin temizlenmesi ve organize edilmesi, % 3’ü verideki eğitim kümelerinin kurulması, % 9’u örüntüler için veri madenciliği, % 4’ü algoritmalarının iyileştirilmesi ve % 5’i de diğer işler için harcanmaktadır. Kelleher ve Tierney’e (2018) göre bu dağılım, veri analiziniz ne kadar iyi olursa olsun doğru veri olmadan yararlı örüntülerin keşfedilemeyeceği gerçeğini göstermektedir.
Sonuç
Bu yazıda veri nedir, veri bilimciler veriden ne gibi sonuçlar elde etmeye çalışırlar, veriden bilgeliğe giden yolda neler yapılır sorularına kısaca yanıt vermeye çalıştım. Verinin gözetim dışında başka kullanımları olduğunu atlamamak gerekiyor. Veriden yararlanarak,
– Çevrimiçiyken hangi reklâmların gösterileceği,
– Hangi film, kitap ve arkadaşlık bağlantısının tavsiye edileceği,
– Hangi e-postalarınızın spam kutusuna gideceği,
– Telefon hattı satın aldığınızda size hangi servislerin teklif edileceği,
– Sigorta priminizin ne kadar olacağı
gibi konularda uygulamaya yönelik daha etkili kararlar alınabilmektedir. Bunların dışında veriden yararlanarak kişiye özel sağlık uygulamaları hakkında araştırmalar vardır. Daha verimli ve ayrıntılı takip sistemleri ile kişilerin ilaçlara karşı tepkileri daha hızlı ve doğru analiz edilebilmekte, daha etkili tedaviler uygulanabilmektedir.
Sosyal medyanın toplanan veri miktarını artırmasıyla büyük veriden konuşmaya başladık. Ama nesnelerin interneti uygulamalarının yaygınlaşmasıyla daha büyük bir sıçrama yaşanacak, şehirler bu nesnelerden elde edilen devasa verinin yardımıyla yeniden inşa edilecektir. Bunun ilk denemelerini Singapur, Barselona, Londra ve Oslo’da izlemekteyiz. Google, Toronto’da geleceğin şehrini kuruyor. Dikkat edilmediği takdirde veri, özel mülkiyetli yazılımlardan kaynaklı satıcıya bağımlılıktan çok daha büyük sorunlara neden olacak. Verinin mülkiyetini elinde bulunduran kurumlar bunu kamu çıkarları aleyhine kullanabilecek.
Teknoloji havarilerinin büyük veri, nesnelerin interneti, akıllı şehirler vb hakkında ortaya attığı mitler hepimizi heyecanlandırıyor. Cukier ve Mayer-Schoenberger (2013) hayatın her alanının verileştiğini ama verileşmenin analog içeriğin bir ve sıfırlarla kodlanarak bilgisayarların anlayabileceği biçime dönüştürülmesinden farklı olduğunu iddia ediyor. Google’ın artırılmış gerçeklik gözlüğü bakışı, Twitter’ın ise başıboş düşünceleri, Linkedin profesyonel ağları verileştiriyor. Katılıyorum. Ama Cukier ve Mayer-Schoenberger’in (2013) şu sözlerini gözden kaçırmayalım:
“Şeyleri verileştirdiğimizde, onların amacını dönüştürebilir ve enformasyonu yeni değer biçimlerine dönüştürebiliriz.”
Buna karşı O’Neil ve Schutt’in (2013) iki basit sorusu vardır: “Biz” kimdir ve söz konusu “biz” ne türde değerleri tercih etmektedir? Cukier ve Mayer-Schoenberger’in (2013) örneklerinden “biz”in bu veri sistemlerini modelleyenler ve insanları bir şeyler satın almaya ikna eden girişimciler olduğu anlaşılıyor. “Değer” ise otomasyonla elde edilen verimlilik artışı.
Temel değerleri “eşitlik, özgürlük ve bağımsızlık” olan “biz”i gelecek hakkında söz ve karar sahibi yapmak gerekiyor.
Dipnotlar
1) İki veya daha çok değişken arasında doğrusal bir ilişki olup olmadığının bulunması ve bu doğrusal ilişkinin bir doğrusal denklemle nasıl ifade edildiğinin gösterilmesi.
2) Bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanı.
Kaynaklar
1) Bonnin, R. (2017), Machine Learning for Developers: Uplift your regular applications with the power of statistics, analytics, and machine learning, Packt Publishing.
2) Breiman, L. (2001), Statistical Modeling: The Two Cultures. Statistical Science 16.
3) Cheney-Lippold, J. (2017), We are data: Algorithms and the making of our digital selves. NYU Press.
4) Cukier, K., & Mayer-Schoenberger, V. (2013), The rise of big data: How it’s changing the way we think about the world. Foreign Aff., 92, 28.
5) Kelleher, J. D., & Tierney, B. (2018), Data Science. The MIT Press.
6) Mayer, Jonathan, and Patrick Mutchler (2014), “MetaPhone: The Sensitivity of Telephone Metadata.” Web Policy, March 12. http://webpolicy.org/2014/03/12/metaphone-the-sensitivity-of-telephone-metadata.
7) O’Neil, C. ve Schutt, R. (2013), Doing data science: Straight talk from the frontline. “O’Reilly Media, Inc.”.