Orhun Emre Çelik’in yazısı: Aktüerya ve Makine Öğrenmesi

Makine öğrenimi gibi uygulamalar teorik olarak aktüeryanın bulunduğu her alanda kullanım imkanına sahip. Ancak çalışmalar ağırlıklı olarak fiyatlandırma üzerine odaklanmış ve özellikle hasar tahminleri ve buna bağlı fiyat modelleri oluşturulmasında ciddi yol kat edilmiş durumda.

Yapay zekanın ne kadar geniş bir kavram olduğu, aktüerya ve sigortacılığı nasıl değiştirebileceği Sigorta Dünyası’nın bir önceki sayısında etraflıca ele alınmıştı. O sayıda belirtildiği üzere günümüzde yaygınlık kazanmaya başlayan makine öğrenmesi uygulamalarının aktüerya alanında yansımalarını da görmeye başladık. Nitekim Aktüerler Uluslararası Kongresi (ICA) 2018’de de birçok sunumda bu konudaki çalışmalardan bahsedildi.

Makine öğrenimi gibi uygulamalar teorik olarak aktüeryanın bulunduğu her alanda kullanım imkanına sahip: Teknik fiyatlandırma, satış tarifesinin oluşturulması, hasar ve suiistimal tespiti, risk yönetimi, sigortalı/müşteri değer yönetimi gibi. Ancak çalışmalar ağırlıklı olarak fiyatlandırma (pricing) üzerine odaklanmış ve özellikle hasar tahminleri ve buna bağlı fiyat modelleri oluşturulmasında ciddi yol kat edilmiş durumda.

Tüm modeller yanlıştır, ama bazıları kullanışlıdır!

Bu konuda güzel bir örnek setine Friedrich Loser’in ICA 2018’de yaptığı konuşmasından ulaşabiliyoruz. Loser, George Box’a atfedilen şu önemli hatırlatma ile başlıyor: Tüm modeller yanlıştır, ama bazıları kullanışlıdır. Buradan yola çıkarak makine öğrenimi metotlarının istatistiksel varsayımlar gerektirmemesi, eniyileme (optimizasyon) ve performans odaklı olması ve veriye bağımlı yapısına vurgu yapıyor. Ardından Kaggle’da sigortacılık hasar veri setleri ile yapılan üç uygulama örneğini ele alıyor:

Birinci senaryo Aralık 2016’da yapılan ve hasar şiddetini tahmin etmeyi hedefleyen Allstate verisi ve 188.318 adet hasar kaydını içeriyor. Bu veri ile yapılan çalışmalarda lineer yöntem sonuçlarının içerdiği istatistiksel hatanın rassal orman (random forest) yöntemi ile ulaşılan sonuçlardan en az %10 daha fazla olduğu görülüyor. İkincisi, yangın hasarlarını öngörmeyi amaçlayan Liberty senaryosu ve bu branşta sıkça karşılaşılan bir durum olarak sadece 1188 hasar kaydını içeriyor. Buradaki düşük örnek sayısı nedeniyle aşırı uyum riski ortaya çıktığı görülmüş ve bunun için çapraz geçerlilik sınaması (cross-validation) yapılmış. Üçüncüsü senaryoda ise bir sürücünün sonraki yıl hasar getirip getirmeyeceğini tahmin etmeyi amaçlayan Porto verisi. Bu veri 595.212 gibi yüksek sayıda bir gözlem sayısına sahip ancak diğer verilerden farklı olarak eksik veri gibi problemler içeriyor. Kazanan güdümlü ve güdümsüz öğrenme içeren 6 farklı modelin eşit ağırlıklarla dikkate alındığı bir çözüm olmuş. Bu uygulama şeklide Loser tarafından modellemenin geleceği olarak ifade ediliyor. Ancak burada da hem yüksek işlemci gücü gereksinimi hem de çok büyük modeller ortaya çıkması gibi aşılması gereken problemlerin varlığına dikkat çekiliyor.

Devrim değil ama aktüerlere katkı sağlayacak

Modelleme sürecinin sadece en iyi metodu tespit etmek olmadığını, hangi verilerin var olduğuna ve bu verilerin en azından fikir edinmemize yarayacak şekilde nasıl dönüştürülebilecekleri, hedeflenen değişkenin uygun model yapısının ne olduğunun tespit edilmesi, modeller arası veri aktarımının nasıl yapılabileceği gibi konuların da bu sürecin önemli bir parçası olduğunu unutmamak gerekiyor. Makine öğrenmesi aktüerlere tüm bu sorularda mevcut yöntemlerin yanında önemli katkı sağlayabilecek gibi görünüyor.

Ancak burada unutulmaması gereken nokta aktüerlerin hesap verebilme yükümlülükleri. Bu yükümlülükler sözleşmeye bağlı olmanın ötesinde yasal zorunluluklara dayanıyor. Makine öğrenmesinde ulaşılan sonucun performansı çok iyi bile olsa bu sonuca nasıl ulaşıldığının tespitinde ve dolayısı ile denetiminde yaşanan eksiklikler yasal yükümlülüklerin yerine getirilmesini zorlaştıracaktır. Diğer taraftan veride var olabilecek yanlılıkların tespiti de makine öğrenmesi açısından özel bir önem taşıyor.

Netice olarak makine öğrenmesinin, aktüeryal uygulamalar açısından bir devrimden ziyade teknolojik gelişmeler ve biriken verinin getirdiği doğal bir gelişim olarak değerlendirilmesi ve metotların hızlı bir şekilde günlük uygulamalara dönüşmesi için gerekli veri, yazılım, donanım ve eğitime yatırım yapılması büyük önem arz ediyor.

Yazıda bahsi geçen siteler:

Allstate : https://www.kaggle.com/c/allstate-claims-severity

Liberty Mutual : https://www.kaggle.com/c/liberty-mutual-fire-peril

Porto Seguro : https://www.kaggle.com/c/porto-seguro-safe-driver-prediction

Kaggle hakkında daha detaylı bilgi için: https://aktuerdunyasi.wordpress.com/2018/07/23/kaggle-nedir-ne-degildir/