Çoook uzun zamandır üniversitede çalışıyor olmanın etkisiyle yüksek lisans yapmak kaçınılmaz olmuştu … Ders dönemi hızlı geçse de. Tez aşaması öyle olmadı 🙂
Konu bulmak bile 6 ay sürmüştü… Hey gidi günler…
Uzun zamandır merak ettiğim kafamı kurcalayan “imkansız gibi görünen” bir konu vardı. Dilimiz sondan eklemeli dil ailesine mensup olduğu için bunun ne kadar zor olduğunu defalarca okumama rağmen bu konuyu seçtim. 6 ay sadece bununla ilgili tezleri, makaleleri okudum. Başka bir şey yapamadım.
TÜRKÇE DOĞAL DİL İŞLEME ASLINDA DAHA ALT KATEGORİYE İNDİĞİMİZDE DUYGU ANALİZİ (Sentiment Analysis ), FİKİR MADENCİLİĞİ, METİN MADENCİLİĞİ bu konu başlıkları birbirinden çok uzak konular değil aslında. Birbirini tamamlayan kimisi üst grupta kimisi onun alt grubuna giren disiplinler. Bu kadar iç içe geçtiği içinde defalarca tez başlığım değişti.
Velhasıl bulmuştum konumu verdim TEZ ÖNERİ FORMU nu kabul edildi. Danışman hocam Prof. Dr. Gültekin Özdemir’ di. Hocalığının yanında abiliğini, samimiyetini özlediğim nadir insanlardan…
Bu yazı dizisi ile peyder pey dil olarak; PYTHON, JAVA, R VE C#, büyük veriyi depolamak için MSSQL kullandığım projede yaşadığım tüm tecrübeleri kaynak kodlarıyla beraber paylaşmayı düşünüyorum. Neden bu kadar çok dil kullandın sorusu gelecektir. Bir örnek vereyim; veri görselleştirmede R dili biçilmiş kaftan. Her dili bir amaç için kullandım. Neyi neden kullandığımı da detaylarıyla bu yazı dizisinin ilerleyen makalelerinde bulabileceksin.
Tez konusunu belirleyip; sağ tık create project yaptığım tarih ile, tez savunmamı yapıp mezun olduğum tarihe kadar yaklaşık 2-3 yıl geçti. İş hayatı, evlilik süreci ve özellikle belirsiz bir konu üzerinde çalışıyor olmam bu sürenin uzamasında etkili oldu. Ama çok şey öğrendim pişman değilim 🙂
Bu yazı dizisini tamamladığımda genel hatlarıyla şu çerçeve çizilmiş olacak
- WEB KAZIMA PROGRAMI
Konu veri işlemek olunca veriyi bulmak lazım. Veriyi bulunca elde etmek lazım. Elde edince işleyebilmek için kaydetmek ve saklamak lazım. - VERİ İŞLEME
Elde ettiğim veriler internet verileri olduğu için bir çok ön işlemden geçirmem gerekti. veri çekme işini bitirdiğimde milyonlarca işlenmemiş ham veri oldu elimde örneğin bir tanesi şöyleydi “tlfnları açn yk bn yndm sz ynmayn”.
İşte burda bu cümleyi runtime da “telefonları açan yok ben yandım siz yanmayın” olarak programa düzelttirmem gerekti. Kelime köklerini bulmam gerekti. Ve bu aşamada ki diğer bir çok sınıflandırma yöntemleri algoritmaları, n-gram çıkarımları, terim frekanslarını bulma, ters döküman sıklığı, ağırlıklandırma vb. birçok doğal dil işleme adımı, sonrasında duygu analizi adımları… Aklıma şimdi gelmeyen bir çok diğerleri… - VERİ GÖRSELLEŞTİRME
Veri işlendikten sonra bunu görselleştirmem gerekiyordu. Daha anlaşılır bir hale getirmem gerekiyordu.
3 ana kategoride bu çerçeveyi çizmiş olacağım…