Gökhan Akgün¹, Gülfize Coşkun², Fikret Dirilenoğlu³, Cavit Kerem Kayhan⁴, Dionysis Goularas⁵
¹Technomind Dijital Sistemler A. Ş., BÜDOTEK Teknopark Ümraniye, İstanbul, Türkiye
²Marmara Üniversitesi, Fen Bilimleri Enstitüsü, Mekatronik Mühendisliği, İstanbul, Türkiye
³Yakın Doğu Üniversitesi Tıp Fakültesi, Tıbbi Patoloji Anabilim Dalı, Le&oşa, Kıbrıs
⁴Acıbadem Üniversitesi, Maslak Hastanesi, Patoloji Laboratuvarı, Istanbul, Türkiye
⁵Yeditepe Üniversitesi, Bilgisayar Mühendisliği Anabilim Dalı, Mühendislik Fakültesi, Istanbul, Türkiye
ÖZET
Amaç:
Yapay zeka destekli pap smear tanısı alanında yapılan birçok çalışmada Herlev ya da SIPakMed isimli iki veri setinden biri kullanılmıştır. Bu çalışmalarda, tek merkezden gelen veri setlerinde kullanılan modeller yüksek tanı doğruluk oranı sağlarken, farklı merkezlerden gelen veriler ile bir karışık veri seti oluşturulduğunda geliştirilmiş olan yapay zeka yazılımlarının doğruluk oranı oldukça düşmektedir. Amacımız, sürekli öğrenme (continual learning) yöntemini kullanarak karışık veri setlerinde yüksek bir tanı doğruluğuna ulaşacak bir yapay zeka modeli geliştirmektir. Gereç ve Yöntem: Çalışmamızda açık erişime sahip Herlev ve SIPakMed veri setleri kullanılmıştır. Bu kaynaklardan Herlev’de patologlarca belirlenen yedi tanı kategorisi ve 256x256 kare görüntüde toplam 917 hücre; SIPakMed’de ise beş tanı kategorisi ve 4049 hücre görüntüsü bulunmaktadır. Bu veri setlerini kullanan çalışmalar, model geliştirme aşamasında ResNet, VGGNet gibi modelleri kullanmışlardır. Bu çalışmada, iki veri setini karıştırarak 3980 hücrede continual learning modeli geliştirilip sonuçlar elde edilmiştir
Bulgular:
Herlev ve SIPakMed veri setlerini geliştiren ekibin gerçekleştirdiği çalışmalardan Herlev veri seti ile eğitimde, test veri setinin aynı olması durumunda yedi tanı kategorisinde doğruluk oranı %95.11, sensitivite %91 ve F1 skoru %93’tür. SIPakMed veri seti ile eğitimde ve test veri setinin aynı olması durumunda beş tanı kategorisinde modelin doğruluk oranı %98.77, sensitivite %99 ve F1 skoru %99 bulunmuştur. Veri setleri birleştirilerek Herlev modeli ile eğitim ve teste tabi tutulduğunda yedi tanı kategorisinde modelin doğruluk oranı %72.76, sensitivite %79 ve F1 skoru %71’e düşmüştür. Aynı karışık veri setinde continual learning modeli uyguladığımızda doğruluk oranı %95.11, sensitivite %94 ve F1 skoru %95 olarak bulunmuştur.
Sonuç:
Çalışmamızda kullanılan continual learning modeli ile farklı merkezlerden gelen pap smear dijital verilerinde yedi tanı kategorisi içeren sınıflamada başarılı sonuçlar elde edilmiştir. Bir sonraki aşamada kendi veri setimizi oluşturmak üzere çok sayıda merkezden 5.000 adet sıvı bazlı pap smear preparatı ve klinikopatolojik veriler talep edilmiş olup, continual learning çalışmasına dahil edilecektir.
Anahtar Kelimeler: Derin Öğrenme, Dijital Patoloji, Sıvı Bazlı Pap Smear, Yapay Zeka
Amaç:
Serviks kanseri dünya çapında kadınlar arasında en ölümcül ve yaygın görülen hastalıklardan biridir. Erken bir aşamada tespit edilirse tamamen tedavi edilebilir, ancak uzun ve maliyetli teşhis uygulamaları, toplum bazında tarama yapılmasını zorlaştırmaktadır. Yeni teknolojilerin sunduğu imkanlar ile dijital patoloji ve yapay zeka çalışmaları, modern ve dijital laboratuvar ortamında giderek önem kazanmaktadır (1). Pap smear tanısı için yapay zeka kullanılan çok sayıda çalısmada Herlev ya da SIPakMed isimli iki veri setinden biri kullanılmıştır. Bu çalışmalarda, tek merkezden gelen veri setlerinde kullanılan modeller yüksek tanı doğruluk oranı sağlarken, farklı merkezlerden gelen veriler ile bir karışık veri seti oluşturulduğunda geliştirilmiş olan yapay zeka yazılımlarının doğruluk oranı oldukça düşmektedir. Amacımız, continual learning (sürekli öğrenme) yöntemini kullanarak karışık veri setlerinde yüksek bir tanı doğruluğuna ulaşacak bir yapay zeka modeli geliştirmektir.
Gereç ve Yöntem:
Smear görüntülerinin analizinde hücre çekirdeği özellikleri büyük önem taşır. Bu nedenle, smear görüntülerinin analizi, görüntüden hücreleri ve çekirdek bölgelerini tespit etme (segmentasyon) (2) ve bu hücrelerin özelliklerine göre sınıflandırılması olmak üzere birbirini izleyen iki kısım şeklinde planlanmıştır. Bu iki kısım için de kullanıma açık olan veri setleri kullanılarak ön çalışma yapılmıştır. Bu çalışmada hem klasik görüntü işleme yöntemleri hem de evrişimsel sinir ağı bazlı derin öğrenme yöntemleri kullanılmıştır. Derin öğrenmenin doğası gereği veri miktarı arttıkça sonuçların daha iyiye gideceği de göz önünde bulundurularak ön çalışma çıktılarının oldukça iyi sonuçlar vadettiği gözlemlenmiştir. Bu çalışmada açık erişime sahip Herlev ve SIPakMed veri setleri kullanılmıştır. Bu kaynaklardan Herlev’de patologlarca belirlenen yedi tanı kategorisi ve 256x256 kare görüntüde toplam 917 hücre görüntüsü bulunmaktadır.
Yedi tanı kategorisi şu şekilde sınıflandırılmıştır: Normal, süperfisyel skuamöz epitel, intermediate skuamöz epitel, kolumnar epitel; anormal: hafif skuamöz non-keratinize displazi, orta derecede displazi, şiddetli displazi ve karsinoma in situ (3). SIPakMed’de ise beş tanı kategorisi ve toplam 966 preparattan oluşan 4049 hücre görüntüsü bulunmaktadır. Beş tanı kategorisi şu şekilde sınıflandırılmıştır: süperfisyel-intermediate hücreler, parabazal hücreler, koilositik hücreler, metaplastik ve diskeratotik (4). Her iki veri setini kullanan çalışmalar, model geliştirme aşamasında ResNet, VGGNet gibi modelleri kullanmışlardır. Bu tek merkezli veri setinde çalışmalar yürüterek %95,11 ve %98,77 gibi doğruluk oranları elde edilmiştir (5). Bu çalışmada, iki veri setini karıştırarak toplam 3980 hücreden oluşan bir karışık veri seti elde ederek continual learning modeli geliştirilip sonuçlar elde edilmiştir.
Bulgular:
Herlev ve SIPakMed veri setlerini geliştiren ekibin gerçekleştirdiği çalışmalardan Herlev veri seti ile eğitimde, test veri setinin aynı olması durumunda yedi tanı kategorisinde doğruluk oranı %95.11, sensitivite %91 ve F1 skoru %93’tür. SIPakMed veri seti ile eğitimde ve test veri setinin aynı olması durumunda beş tanı kategorisinde modelin doğruluk oranı %98. 77, sensitivite %99 ve F1 skoru %99 bulunmuştur. Veri setleri birleştirilerek Herlev modeli ile eğitim ve teste tabi tutulduğunda yedi tanı kategorisinde modelin doğruluk oranı %72. 76, sensitivite %79 ve F1 skoru %71’e düşmüştür. Aynı veri setlerinde karışık halde continual learning modeli uyguladığımızda doğruluk oranı %95.11, sensitivite %94 ve F1 skoru %95 olarak bulunmuştur.
Sonuç:
Bu çalışmada, karışık veri setlerinde yüksek bir tanı doğruluğuna ulaşmak için continual learning yöntemi kullanan bir yapay zeka modeli geliştirmeyi amaçladık. Bu amaçla, açık erişime sahip Herlev ve SIPakMed veri setlerini birleştirerek toplam 3980 hücreden oluşan bir veri seti oluşturduk ve bu veri setinde continual learning modelimizi test ettik. Bu model ile farklı merkezlerden gelen dijital Pap smear verilerinde yedi tanı kategorisi içeren sınıflamada başarılı sonuçlar elde edilmiştir. Bir sonraki aşamada kendi veri setimizi oluşturmak üzere çok sayıda merkezden 5.000 adet sıvı bazlı pap smear preparatı ve klinikopatolojik veriler talep edilmiş olup, continual learning çalışmasına dahil edilecektir.
Kaynaklar:
1. Şensu, Sibel, Nusret Erdoğan, and Yeşim Saliha Gürbüz. Patolojide Dijital Çağ ve Yapay Zekâ: Temel Bilgiler. Türkiye Klinikleri. Tip Bilimleri Dergisi 40.1 (2020) : 104-112.
2. ZHOU, Yanning, et al. IRNet: Instance relation network for overlapping cervical cell segmentation. Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13–17, Proceedings, Part I 22. Springer International Publishing, (2019) : 640-648.
3. Jantzen, Jan, et al. Pap-smear benchmark data for pattern classification. Nature inspired smart information systems (NiSIS 2005) (2005) : 1-9.
4. Plissiti, Marina E., et al. SIPAKMED: A new dataset for feature and image based classification of normal and pathological cervical cells in Pap smear images. 25th IEEE International Conference on Image Processing (ICIP). IEEE, 2018.
5. Ke, Jing, et al. Quantitative analysis of abnormalities in gynecologic cytopathology with deep learning. Laboratory Investigation 101. 4 (2021) : 513-524