
Modern AI araçlarıyla çalışırken karşılaştığınız en sinir bozucu durumlardan biri muhtemelen şu: Elinizdeki 50 sayfalık raporu yapay zekâya yüklüyorsunuz, analiz etmesini istiyorsunuz, ancak ya hiç yanıt alamıyorsunuz ya da ilk birkaç sayfaya dayalı yüzeysel bir analiz geliyor. Soruna gidip 100 sayfalık belge yüklediğinizde ise sistem tamamen çıldırıyor ve birbirinden bağımsız sonuçlar üretmeye başlıyor.
Bu durum, LLM'lerin (Large Language Model) sahip olduğu hafıza sınırı veya context window problemiyle doğrudan ilgili. Kısacası, bu sistemler aynı anda işleyebilecekleri veri miktarında fiziksel bir üst sınıra sahipler ve bu sınır aşıldığında performansları dramatik şekilde düşüyor.
Günümüz LLM'lerinin en temel kısıtlılığı, aynı anda işleyebilecekleri token (kelime parçacığı) sayısıdır. Bu sınır aşıldığında sistem ya belgenin sadece bir kısmını işler ya da halüsinasyon denilen yanlış bilgi üretme sürecine girer.
İlginç olan nokta ise beklentilerimizin ne kadar hızlı değiştiği. Birkaç yıl önce ChatGPT'ye 3 sayfalık bir belge analiz ettirmek büyülü gelirken, bugün 100 sayfalık dosyalar yüklüyor ve aynı kalitede analiz bekliyoruz. Teknoloji gelişiyor ancak beklentilerimiz her zaman bir adım önde.
Token kapasiteleri sürekli artırılsa da, kullanım senaryolarımız da aynı hızla büyüyor. Dolayısıyla bu problem tam anlamıyla çözülmüş sayılmaz.
Büyük belgelerle çalışırken gözlemlenen en ilginç fenomenlerden biri şu: İlk analiz görece makul sonuçlar verirken, aynı sistem üzerinde ikinci veya üçüncü sorgu yapıldığında sonuçların tamamen değişmesi. Bu durumun arkasında iki temel neden var.
İlki, context window'un dolması. Sistem yeni bilgiyi işlemek için eski bilgiyi "unutmak" zorunda kalıyor. İkinci neden ise istatistiksel karşılaştırma algoritmalarının sınırları. Özellikle benzerlik analizi yapan sistemlerde, büyük veri setleriyle yapılan tekrarlı sorgular sonucunda tüm sonuçlar birbirine benzemeye başlıyor.
Bu sınırlamalarla başa çıkmanın birkaç yolu var. İlk ve en etkili yöntem, belge segmentasyonu. 100 sayfalık bir belgeyi 15-20 sayfalık parçalara bölerek her birini ayrı ayrı analiz etmek, sonrasında sonuçları elle birleştirmek.
İkinci yöntem ise database tabanlı yaklaşım. Her belgeyi ayrı bir veritabanı kaydı olarak saklayıp, karşılaştırma işlemlerini tek seferde yapmak yerine parça parça gerçekleştirmek. Bu yöntemde her sorgu sıfırlanarak daha tutarlı sonuçlar alınabiliyor.
Üçüncü seçenek de hibrit analiz: Belgenin özet çıkarımı için AI kullanıp, detaylı analizleri manuel olarak yapmak.
Bir kurumsal proje kapsamında, Turnitin benzeri bir sistem kurulması denenmişti. Word belgeleri arasında benzerlik analizi yapan bu sistem, başlangıçta oldukça başarılı sonuçlar veriyordu. Ancak birkaç tur test sonrasında "sıvıtmaya" başladı - tüm belgeler birbirine benzer çıkmaya başladı.
Aynı sistemde üç farklı karşılaştırma algoritması test edildiğinde, özellikle istatistiksel karşılaştırma modülü sorunlu çıktı. İlk karşılaştırma sonrası tüm sayılar birbirine benzemeye başlıyordu.
Bu deneyim gösterdi ki, büyük belgelerle çalışırken sistem sıfırlama ve belge boyutu kontrolü kritik önemde.
Ne kadar büyük belgeler güvenle işlenebilir?
Güncel sistemlerde 15-30 sayfa arası belgeler en güvenilir sonuçları veriyor. Bu boyutta karşılaştırma ve analiz işlemleri oldukça başarılı.
Neden aynı belge farklı sonuçlar veriyor?
Context window dolduğunda sistem önceki bilgiyi unutuyor. Aynı belgeyi tekrar yüklemek farklı sonuçlar doğurabiliyor.
Bu problem ne zaman tam çözülecek?
Token kapasiteleri sürekli artıyor ancak kullanım beklentileri de aynı hızla büyüyor. Yakın gelecekte büyük iyileşmeler beklense de, tam çözüm henüz mevcut değil.
Büyük belge analizinde yaşanan hafıza problemi, AI teknolojisinin mevcut sınırlarını net şekilde ortaya koyuyor. Bu sınırları bilerek çalışmak ve beklentileri ona göre ayarlamak, hem zamandan tasarruf sağlıyor hem de hayal kırıklığını önlüyor. Belki de asıl mesele, teknolojinin her şeyi yapmasını beklemek yerine, en iyi yaptığı işlerde onu kullanmayı öğrenmek.
Selamlar biz de şeyde denemiştik iki belgenin Word tarafında birbirine benzerlik kıyasında kendi içimizde ...büyük bir veri topluluğunu, Word belgelerini... ...açıkçası hep benzerliklerini ayarlamayın. Yani kurum için bir Turnitin gibi bir şey ayarlamayın. Orada benzerlikte de mesela verilerde... ...bazen çok tutarlı sonuçlar varsa da... ...özellikle birkaç... ...tourdan sonra şey yapmaya başladı, sıpıtmaya başladı. Verilen benzerlik yüzleriyle bir anda... ...hepsi aynı hale gelmeye başladı. Büyük ihtimalle halüsinasyondan dolayı. Olabilir, aynen. Ya hepsini tekte mi yükleyip yaptık? İyi konuda denedik. Database oluşturup bir tane kıyasladığımızda... ...her seferinde sıfırlaştığınız doğru... ...hani güzel bir benzerlik şeyi veriyor. Orada bir de benzerlikle ilgili algoritmada... ...üç tip bir algoritma karşılaştırması vardı isimlerin. Tam hatırlayamadım şu an. Oradaki özellikle istatistiksel karşılaştırmada... ...ilk karşılaştırmayı, ondan sonra bir anda tüm rakamlar... ...birbirine benzemeye başlıyor. Özellikle ikinci, üçüncü sorgudan sonra... ...gerçekten çok kötü sonuçlar veriyor. Ya LLM'lerin hemen çok... Teknik bileyim de LLM tarafında... ...çok arka tarafını bilmemekle beraber... ...en büyük problemi şey zaten işte memoria veya context window. O yüzden çok büyük belgelerde, dosyalarda... ...şey yapıyor... ...problem yaşıyorum hemen de. Orada nasıl çözülecek o? Ya hala çözülemeyen bir şey. Bu token şeyini arttırıyorlar ama... ...istediğimiz seviye de artıyor bence. Yani eskiden ChatGPT'ye böyle 3 sayfalık bir şey verip analiz edince... ...çok şaşırıyorduk. Şimdi 100 sayfa veriyoruz. Beklentimiz de çok hızlı değişti orada. Yani daha böyle küçük şeyler için bence şu an faydalı. Yani çok da küçük değil yani 15-20 sayfa, 30 sayfa... ...iyi analizler ve işte karşılaştırmalar yapabiliyor.
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus sodales leo id commodo ornare.
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus sodales leo id commodo ornare.
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus sodales leo id commodo ornare.