Açık Erişim simgesi
Şekil 1. Açık erişimin simgesi

Bilimsel araştırmaların kalitesini artırma, mevcut araştırmaların yeniden kullanılmasını sağlama potansiyeli sunan ham veriye açık erişim fırsatının önünde artık büyük engeller yok.

“Açık erişim yalnızca ilk adımdı.”
Emma Ganley, PLoS Biology kıdemli editörü

 Geçen ay açık erişimli dergilerin yayın niteliğinden -övgüyle- bahsetmiştim. Ama bitmedi. Açık erişim yalnızca bilimsel makalelerin herkese erişimini sağlamakla kalmıyor, aynı zamanda araştırmaların ham verilerinin herkese açılmasına ön ayak oluyor. Bu yazıda bunun neden önemli olduğunu açıklamaya çalışıyorum.

 “Ham” veri nedir?

Bir araştırmada elde edilen verilerin analiz edilmeden önceki haline “ham” veri diyoruz.

Meselâ bu sayımızda yazarımız Tevfik Uyar’ın astrologların kehanetleri üzerine yaptığı bir araştırmayı yayınlıyoruz. Bu araştırma için Tevfik’in hazırladığı ankete birçok kişi cevap verdi. İşte bu cevapların tümü, araştırmanın ham verisidir. Bundan sonra bu verilerle yapılan hesaplamalar ise verilerin analizidir.

Şekil 2’deki örnek ise kendi deneylerimden… Şekil 2A’da sinek beyninden boyanmış bir kesit var. Bu görüntü, mavi lazer kullanarak, bir mikroskopa bağlı dijital kamera ile çekildi. Şekil 2B’deki görüntü ise aynı kesitten, ama yeşil lazerle elde edildi. Bu iki görüntü, dokunulmamış, ham veridir.

Şekil 2. Ham veri ve üst-veri
Şekil 2. (A ve B) Boyanmış sinek beyni kesitlerinden elde edilmiş ham veriler. (C) A ve B’deki görüntülerin birleştirilmesiyle elde edilmiş bir görüntü. (Ç) A ve B’deki görüntülerin elde edildiği ayarları gösteren üst-veri (Mikroskop görüntüleri: Ç. Yalgın ve H. T. Jacobs)

Şekil 2C’de ise A ve B’deki görüntülerin farklı renklerde birleştirilmesiyle oluşturulmuş yeni bir görüntü var. Bunu, önceki iki görüntüyü mukayese edebilmek için yaptım, bu şekilde verilerimi analiz ettim. Bu bir analizdir, ham veri değildir.

Ancak ham veri kendi başına bir anlam taşımaz, hangi yöntemlerle elde edildiği çok önemlidir. Şekil 2Ç’deki metin bu yöntemlerin bir parçası: Şekil 2A ve B’deki görüntülerin tam olarak hangi ayarlarla çekildiğini gösteriyor. Mikroskoba bağlı bilgisayarın görüntüye kendiliğinden iliştirdiği bu bilgilere genel olarak üst-veri (meta data) diyoruz.

“Ham veri”nin faydaları

Bu tür verileri bilim insanları eskiden isteseler de paylaşamıyorlardı. Çünkü basılı akademik dergilerde yer sınırlıydı ve bütün bu bilgileri oraya sıkıştırmak mümkün değildi.

Ama devir değişti. Yeni birçok salt çevrimiçi akademik dergi çıktı. Üstelik basılı dergiler de zaten daha çok internet sitelerinden okunuyor, ve basılı makalelerin ana metinlerine ek olarak çeşitli dosyalar, videolar kolayca sunulabiliyor. Yani sonuçların yanı sıra ham verilerin de sunulması için gerekli altyapı hazır.

İyi de niye sunulsun bu veriler? Bunun birkaç sebebi var:

İlk sebep makaledeki sonuçların doğrulanması: Makalede verilen ham verileri, tarif edilen yöntemlerle analiz ettiğimde ben de yazarlarla aynı sonuca ulaşmalıyım. Bu durum öncelikle yazarların ham verileri uygun değil de işlerine gelen yöntemlerle analiz etmelerini önleyecektir. Zira verilere uyguladıkları işlemler çok daha saydam olacak, başkalarınca denetlenebilecek, sorgulanabilecektir.

Ayrıca, araştırmacılar doğru analizi yaparken bir hata yapmış olabilir. Ham verilere başkalarının erişimi bu hataların ortaya çıkmasına katkıda bulunacaktır.

İkinci sebep, yeniden kullanılabilirlik: Verilere erişebilenler, aynı verileri başka bir açıdan inceleyebilir. Belki de araştırmacılar verilerindeki ilginç bir şeyleri gözden kaçırmışlardır. Ya da uzmanı olmadıkları bilim dalına ait bir bilgiyi görememişlerdir. Bunun sonucunda aynı verilerden, yeni deney yapmadan yeni bilgiler ortaya çıkarılabilir.

Ayrıca ham verilerin sunumuyla araştırmaların birbiriyle birleştirilmesi, mukayesesi daha kolay olacaktır. Bu, özellikle klinik araştırmalar için geçerlidir. Günümüzde birçok hastalık ve tedavileri üzerine irili ufaklı klinik araştırmalar yapılıyor. Bunların bazıları çok küçük hasta sayısına sahip olduğundan istatistik analizler için yetersiz kalıyor. Cochrane gibi bilimsel işbirlikleri, bu irili ufaklı araştırmaları, yöntem kalitesini de göz önüne alarak birleştiriyor. Bunun için en iyi yol, her çalışmanın, her bir denekten gelen veriyi olduğu gibi aktarması, gerektiğinde farklı araştırmalardan gelen bu verilerin birleştirilmesi olacak.

Engeller, itirazlar

İş klinik çalışmalara gelince biraz karışıyor. Bu tür araştırmalarda ham veri dediğimiz aslında bir insanın sağlık durumuyla ilgili, yani mahrem bilgiler. Özel hayatın gizliliği ilkesi bir yana, kötü ellere geçerse suistimal edilebilecek bilgiler bunlar. Meselâ bir kişinin AIDS hastası olduğunun herkesçe bilinmesi, dışlanmasına yol açabilir. Ya da bir kişinin bir hastalığa kalıtsal yatkınlık taşıdığının ortaya çıkması, uygun şartlarla sağlık sigortası yaptıramamasına sebep olabilir. Bu soruna kafa yoranlar, ham verilerdeki kimlik bilgilerinin mümkün olduğunca ayıklanmasını, ek olarak bunlara erişimin ancak bunun için izin alacak araştırmacılarla sınırlandırılmasını savunuyorlar. Bu, makul bir itiraz.

Ama tek sorun bu değil, bazıları başka sebeplerle de ham veriyi paylaşmaya ayak diriyor. Görünürde bunun ilk sebebi şu: Büyük emekle elde ettikleri ham verilerden yalnızca kendileri yayın çıkarmak istiyorlar. Bu da makul sayılabilir, ama abartmamak şartıyla: Meselâ klinik bir deney yaptıysanız, yani insanlar bilimin gelişmesi, ileride kendileri gibi hastaların tedavi edilebilmesi için fedakarlık yaparak denek olmayı kabul ettiyse, bu insanlardan elde edilen verileri makul bir sürede erişime açmak ahlâki bir borçtur.

Kolayca itiraf edilmeyecek diğer bir sebep ise, önceden değindiğim denetlenebilirlik. Denetleyen için bir avantaj olan bu ilke, denetlenen için bir sıkıntı kaynağı: “Ya bir hatamı bulurlarsa? Ya rezil olursam?” Bunun için de herkesin doğru analiz yapamayıp bazılarının verileri saptıracağı, hattâ her araştırmanın kendine göre nüanslarını başkalarının aynen tekrar edemeyeceği gibi itirazlar geliyor. Bunlardan ilkinde bir haklılık payı var, ama denetlenebilirliğin faydaları bu riskleri çok aşıyor. İkincisini ise yalnızca bir bahane olarak görüyorum, çünkü araştırmaların başkalarınca tekrarlanabilecek şekilde yapılması ve duyurulması önemli bir ilkedir.

Bu isteksizliğin üstesinden nasıl gelinir? Bunun cevabı ufukta beliriyor. Ham verilerin yayınlanması, hem araştırma ödeneği veren kurumların, hem de araştırmayı yayınlayacak, özellikle yüksek etkili dergilerin aradığı bir şart haline geliyor. Araştırmacıların en çekindiği bu iki güç, ham veri erişimine ivme kazandıracaktır.

Verinin biçimi önemli

Özellikle açık erişimli dergiler, ham verileri yayınlamaya gönüllü… Bir diğer seçenek de sanal veri depoları. Bu hizmeti veren şirketler ve kamu kurumları halihazırda mevcut.

Ama verinin nerede depolanacağı kadar ne şekilde depolanacağı da önemli. En basitinden, bir çizelgeyi bir PDF yerine Excel dosyasında sunmak, kullanılabilirliğini artırıyor. Genler, proteinler, mikroskop görüntüleri ve diğer bilimsel veri çeşitlerinin, yeniden-kullanılabilirliğini artıracak standartlara göre depolanması gerekli. Bu standartların üst-verileri de kapsaması, verilerin yeniden kullanılabilirliğini çok artıracaktır. Bu standartlaştırma için özellikle Amerika Birleşik Devletleri’nin kamu bilim kurumlarının ön ayak olduğunu görüyoruz.

Sonuç

Ham verinin herkese açılmasının faydaları büyük, riskleri bertaraf edilebilir. Bunu sağlayabilecek teknolojik imkânlar artık mevcut, ve bilim dünyası da kendini buna uydurmaya başladı.

 Kaynaklar

yorum

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

  • Türkiye’de de lisans düzeyinde mühendislik okuyan bir çok öğrenci, bitirme projelerini yapmaya başladığında bu konunun eksikliğini hissediyor sanırım. Bilgisayar bilimleri için örnek vereyim; bir görüntü işleme projesi için belli bir niteliğe sahip video ya da fotoğraflara ihtiyaç duyulabiliyor. Bu nitelik görüntünün teknik detayları ile ilgili olabileceği gibi, ’80 km üzerinde hıza sahip kamyon’ gibi test verisi olmasını sağlamakla ilgili de olabiliyor. Yahut bir doğal dil işleme projesinde, ‘yüz’ kelimesinin Türkçedeki her bir anlamı için en az 3000 kelime uzunluğunda yüzlerce metine ihtiyaç duyulabiliyor.

    Sonuç olarak öğrenciler oturup kendi imkanları ve bin bir gayretle bu ham verileri toplayıp projelerinde kullanıyorlar. Ancak bu hem verilerin kalitesini konusunda tartışma yaratıyor, hem zaman-enerji kaybı anlamı taşıyabiliyor hem de proje bittikten sonra bu verilerin kaderi merak konusu oluyor. Kısaca şahit olduğum kadarıyla bu tarz ham veriler akademisyenlerin ellerinde toplandığı zaman, benzer çalışma alanındaki diğer akademisyenlerle paylaşılabiliyor. Ancak tabii burada da bahsettiğiniz ‘paylaşmamak için ayak direme’ sebepleri kendisi gösterebiliyor olabilir.

    Her araştırmacı kendi konusu için böylesi veritabanlarına ulaşmaktan büyük mutluluk duyacaktır sanıyorum, ancak aynı veri kümesinin nasıl besleneceği de tartışma konusu. Burada insanların ‘bilinçli, iyi niyetli ve sorumluluk sahibi’ davranmasını beklemek kısa vadede veri kümesi toplayıcılarının endişelerini artırabilir ve hevesleri kırabilir (biz dağ bayır uğraşıp topluyoruz, millet hazıra konuyor gibi). O yüzden belki özel torrent ağlarında olduğu gibi, bir veriyi indirmek için başka verileri paylaşma(seed) zorunluluğu getirmek denenebilir :) .

    Onun dışında tüm çalışma alanları için tek bir veritabanı olması (Wikipedia gibi) kanımca işleri bir hayli kolaylaştıracaktır -çünkü bu verileri sistematik bir biçimde tutmak, veri kümesinde nitelikli veriyi korumak vs. tecrübe ile öğrenilecek konular, üstelik erişimi ve hem yeniliklerden hem diğer çalışma alanlarından haberdar olmayı çok kolaylaştıracaktır-. Yine de üniversitelerin ticari kaygıları, rekabet, reklam vs. konular düşünülürse bu tarz bir ortaklık pek mümkün olmayabilir. Belki de yekpare bir veritabanı yerine çalışma alanlarına özel başarılı ‘ham veri’ veritabanlarına da şahit olabiliriz.

    Güzel bir yazı olmuş, elinize sağlık.

  • Ham veri üretenlerin emeklerinin zayi olmaması ve bu emeklerinin karşılanması şarttır. Aksi takdirde veri üretme motivasyonu ve veri üreten sayısı düşecektir.

    Bilgi insanlığın malıdır. Bu bilgiyi ve veriyi ortaya çıkaran kişiye verilecek ücret bilginin piyasa değeri değil o kişinin emeği ve risklerini karşılamak olmalıdır. Bu bedelin karşılanmasında topluma ve bilime en çok katkısı olanın öncelik taşıması gerekir.

    Üretilen bilginin topluma mal edilmesi gerekir . Aksi takdirde o bilgi sadece o ücreti ödeyecek kişilerin elinde olacaktır. Bu ise o bilgiye toplumun gelişimini engellediği gibi o bilgiyle yapılacak çalışmalara mani olacaktır.

    Bilgi bir maden gibidir. Madenler devletin malı olduğu gibi bilgi de tüm insanlığın malıdır. O bilgiyi bulan kişiye sadece bulma ücreti verilebilir.

    Bilgi üretimi önündeki engellerden biri de üretilen verinin yanlış olması durumunda doğan yasal sorumluluklardır. Bu sorumluluklar o kadar ağır olabilmekte ki insanları veri üretmez has da bunu sunmaz duruma getirmektedir.

    Verileri kişisel çıkarları için manipule aracı olarak kullananlara ağır cezalar verilmesi gerekirken istenmeyen hatalar da ise ceza uygulanmamalıdır.

    Topluma faydalı verilerin kamulaştırılması halka mal edilmesi gerekir. Bu veriler en etkili şekilde halka sunulmalıdır.

Çağrı Yalgın

Tampere Üniversitesi'nde doktora sonrası araştırmacı olarak mitokondri hastalıklarını genetik yöntemlerle inceliyor. Daha önce de Japonya'daki RIKEN Beyin Bilimleri Enstitüsü'nde sinir hücrelerinin uzantılarının oluşumundaki ırsi etmenleri inceleyerek Saitama Üniversitesi'nden doktora almıştı. Marmara Üniversitesi Tıp Fakültesi ve Bornova Anadolu Lisesi mezunu.