Yapay Zekâ
ABD Hükümetinin PDF Dağını Bilgisayarlı Görüntü İşleme ile Aşmak

Adobe’un PDF formatı, ABD hükümeti belgeleri管道larında öyle derinlemesine yerleşmiştir ki, şu anda var olan devlet tarafından yayınlanan belgelerin sayısı muhafazakar bir tahmine göre yüz milyonların üzerindedir. Çoğu zaman opak ve metadata içermeyen bu PDF’ler – birçokları otomatik sistemler tarafından oluşturulmuş – topluca hiçbir hikaye veya saga anlatmaz; tam olarak ne aradığınızı bilmiyorsanız, muhtemelen hiçbir zaman ilgili bir belge bulamayacaksınız. Ve eğer biliyorsanız, muhtemelen aramaya ihtiyacınız yoktu.Fakat yeni bir proje, bilgisayar görüşü ve diğer makine öğrenimi yaklaşımlarını kullanarak, neredeyse yaklaşılması imkansız olan bu veri dağını, araştırmacılar, tarihçiler, gazeteciler ve akademisyenler için değerli ve keşfedilebilir bir kaynak haline getirmeyi amaçlıyor.
ABD hükümeti, 1990’larda Adobe’un Taşınabilir Belge Formatını (PDF) keşfettiğinde, bunu beğendi. Düzenlenebilir Word belgelerinden farklı olarak, PDF’ler çeşitli şekillerde “pişirilebilirdi” ki bu da onları daha sonra değiştirmeyi zor veya imkansız hale getirirdi; yazı tipleri gömülebilirdi, böylece platformlar arası uyumluluk sağlanırdı ve yazdırma, kopyalama ve hatta açma gibi işlemler ayrıntılı bir şekilde kontrol edilebilirdi.
Daha da önemlisi, bu temel özellikler, formatın en eski “temel” spécifikasyonlarında mevcuttu, bu da arşiv materyalinin daha sonra erişilebilirliklerini sağlamak için yeniden işlenmesine veya yeniden ziyaret edilmesine gerek kalmayacağı anlamına geliyordu. Hükümet yayıncılığı için几乎 her şey 1996’ya kadar yerine getirilmişti.
Blockchain kanıtları ve NFT teknolojileri on yıllar uzakta iken, PDF, ortaya çıkan dijital çağın “öldürülmüş” analog bir belgeye ulaşabileceği en yakın şeydi, sadece bir kavramsal aksaklık uzakta bir faksdan.
PDF Hakkında İç Çatışma
PDF’lerin ne kadar kapalı, işlenemez ve “sosyal” olmadığı, Kongre Kütüphanesi’nde format hakkında bulunan belgede karakterizedir, bu belge PDF’i “tercih edilen format” olarak favori kılar:
‘PDF/A formatının birincil amacı, elektronik belgeleri, zaman içinde statik görsel görünümünü koruyacak şekilde temsil etmektir, bu amaçla kullanılan araçlar ve sistemlerden bağımsız olarak.’
PDF formatına yönelik devam eden coşku, erişilebilirlik standartları ve minimum sürüm gereksinimleri, ABD hükümeti bölümleri arasında çeşitlilik gösterir. Örneğin, Çevre Koruma Ajansı bu konuda destekleyici ancak katı politikalar uygularken, resmi ABD hükümeti web sitesi plainlanguage.gov kabul ediyor ki ‘kullanıcılar PDF’den nefret ediyor’ ve doğrudan 2020 Nielsen Norman Group raporuna bağlı PDF: İnsan Tüketimi İçin 20 Yıl Sonra Hala Uygun Değil başlıklı bir bağlantı içeriyor.
Bu arada, irs.gov, 1995 yılında vergi ajansının belgelerini dijital olarak geçirmek için oluşturulmuş ve hala bir PDF savunucusudur.
PDF’lerin Viral Yayılması
PDF’lerin temel spécifikasyonlarının Adobe tarafından açık kaynak olarak yayınlanmasından bu yana, bir dizi sunucu tarafı işleme aracı ve kütüphaneler ortaya çıktı, birçokları artık saygın ve yerleşik ve 1996 tarihli PDF spécifikasyonları kadar güvenilir ve hata dirençli, ve yazılım satıcıları, PDF işlevselliğini düşük maliyetli araçlara entegre etmeye çalıştı.
Sonuç olarak, sevilmiş veya sevilmemiş olsun, PDF’ler, ABD hükümeti bölümlerinin iletişim ve belgeleme çerçevelerinde yaygın olarak kalıyor.
2015 yılında Adobe’un Belge Bulutu için Mühendislik Başkan Yardımcısı Phil Ydens, tahmin etti ki 2,5 trilyon PDF belgesi dünya üzerinde mevcut, ve formatın web içeriğinin %6-11’ini oluşturduğuna inanılıyor. Teknoloji kültürü eski teknolojileri bozmaya alışkınken, PDF, barındırdığı yapıların merkezi bir parçası haline gelen “pas” haline geldi.

2018’den. Henüz güçlü bir rakip yok. Kaynak: https://twitter.com/trbrtc/status/980407663690502145
Washington Üniversitesi ve Kongre Kütüphanesi’nden araştırmacıların son bir çalışmasına göre, ‘ABD hükümeti tarafından web’e yayınlanan yüz milyonlarca benzersiz PDF belgesi, kütüphaneler tarafından arşivlendi.’.
Fakat araştırmacılar, bunun sadece “buzdağının görünen kısmı” olduğunu iddia ediyor:
‘Önde gelen dijital tarihçi Roy Rosenzweig, 2003 yılında, akademik çalışmalar için doğu-dijital birincil kaynaklar söz konusu olduğunda, milyarlarca dijital kaynağa ölçeklenecek yöntemler ve yaklaşımlar geliştirmek gerektiğini belirtmişti. Şimdi bu ölçekte yaklaşım geliştirmek必要.
‘Örneğin, Kongre Kütüphanesi web arşivi şimdi 20 milyardan fazla bireysel dijital kaynağı içeriyor.’
PDF’ler: Analize Dirençli
Washington araştırmacılarının projesi, bir dizi makine öğrenimi yöntemini, Kongre Kütüphanesi’nden seçilen ve kamuya açık ve annotated corpus olan 1.000 belgeye uyguluyor, amacı, metin ve görsel tabanlı sorgular için hızlı ve çok modlu geri çağırmaya olanak tanıyan sistemler geliştirmek, bu sistemler hükümette ve diğer birçok sektörde mevcut (ve büyüyen) PDF hacimlerine ölçeklenebilsin.
Araştırmacılar, 1990’larda ABD hükümeti bölümlerinin dijitalleştirme sürecinin hızlanmasının, politika ve uygulamaların farklılaşmasına yol açtığını, sık sık da metadata kalitesinin düşmesine neden olan PDF yayınlama yöntemlerinin benimsenmesine yol açtığını belirtiyorlar.
Bu dönemin bozulmasını tartışırken, yazarlar şunları kaydeder:
‘Bu çabalar, hükümet yayınlarının niceliğinde patlayıcı bir büyümeye yol açtı, bu da bu yayınlar için tutarlı metadata üretimi ve kütüphaneler tarafından bu yayınların edinilmesi için genel yaklaşımın bozulmasına yol açtı.’
Sonuç olarak, tipik bir PDF dağı, doğrudan bağlantısı olan URL’ler dışında hiçbir bağlam olmadan var olur. Ayrıca, dağdaki belgeler kapalıdır, kendi kendine referanslıdır ve mevcut arama metodolojileri tarafından muhtemelen anlaşılacak hiçbir “saga” veya anlatıya dahil değildir, böyle gizli bağlantılar şüphesiz var olsa da.
İncelenen ölçekte, manuel anotasyon veya küratörlük imkansız bir perspektiftir. Araştırmacıların 1000 Kongre Kütüphanesi belgesinin türetilmiş olduğu veri kümesi, 40 milyondan fazla PDF içeriyor, ve araştırmacılar bunu yakın gelecekte adreslenebilir bir zorluk haline getirmeyi amaçlıyor.
Bilgisayarlı Görüntü için PDF Analizi
Önceki araştırmaların çoğunda, yazarlar tarafından atıfta bulunulan, PDF materyallerinden özellikler ve yüksek düzeyli kavramlar çıkarmak için metin tabanlı yöntemler kullanılır; buna karşılık, projeleri, PDF’leri görsel düzeyde incelemeye dayanır, bu da mevcut araştırmaya paralel olarak, haber içeriğinin çok modlu analizine uygunluk sağlar.
Makine öğrenimi, Semantic Scholar gibi sektöre özgü şemalar aracılığıyla da PDF analizine uygulanmıştır, ancak yazarlar, bilim yayıncılığı veya diğer dar sektörlerin kısıtlamalarına göre ayarlanmış olan daha dar sektörlere değil, geniş bir yayın yelpazesinde uygulanabilir yüksek düzeyli çıkarma boru hatları oluşturmayı amaçlıyor.
Dengesiz Verileri Adresleme
Araştırmacılar, bir ölçüt şeması oluştururken, verilerin en azından her bir öğenin büyüklüğü açısından nasıl çarpık olduğunu dikkate almak zorunda kaldılar.
Seçilen veri kümesindeki 1000 PDF’den, %33’ü sadece bir sayfadan oluşuyor ve %39’u 2-5 sayfadan oluşuyor. Bu, belgelerin %72’sinin beş sayfadan az olduğunu gösteriyor.
Sonrasında, bir sıçrama var: kalan belgelerin %18’i 6-20 sayfadan oluşuyor, %6’sı 20-100 sayfadan ve %3’ü 100 sayfadan fazla. Bu, en uzun belgelerin bireysel sayfaların çoğunluğunu oluşturduğu anlamına gelir, daha az granül bir yaklaşım ise daha çok sayıda daha kısa belgilere dikkat çekecektir.
Bununla birlikte, bu, ilginç metriktir, çünkü tek sayfalık belgeler genellikle teknik şemalar veya haritalardır; 2-5 sayfalık belgeler genellikle basın açıklamaları ve formlardır ve çok uzun belgeler genellikle kitap uzunluğundaki raporlar ve yayınlardır, ancak uzunluk açısından, tamamen farklı zorluklar sunan büyük otomatik veri dökümleri ile karıştırılırlar.
Bu nedenle, araştırmacılar, bu dengesizliği, kendi içinde anlamlı bir anlamsal özellik olarak ele alıyorlar. Buna rağmen, PDF’ler her bir sayfaya göre işlenmeli ve nicelendirilmelidir.
Mimari
Sürecin başında, PDF’nin metadata’sı, tablo verilerine parse edilir. Bu metadata’nın eksik olması mümkün değildir, çünkü bilinen miktarlar içerir, örneğin dosya boyutu ve kaynak URL.
PDF daha sonra sayfalarına bölünür, her sayfa ImageMagick aracılığıyla JPEG formatına dönüştürülür. Resim daha sonra, ikinci son katmandan 2.048 boyutlu bir vektör üreten bir ResNet-50 ağına beslenir.

PDF’lerden çıkarma için boru hattı. Kaynak: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
Aynı zamanda, sayfa pdf2text aracılığıyla metin dosyasına dönüştürülür ve scikit-learn aracılığıyla TF-IDF özellikleştirme elde edilir.
TF-IDF, Terim Sıklığı Ters Belge Sıklığı anlamına gelir, bu, her bir ifadenin belge içindeki yaygınlığını, tüm veri kümesindeki sıklığına göre ölçer, 0 ile 1 arasında ince bir ölçekte.
Araştırmacılar, sistemlerinin TF-IDF ayarlarında en küçük birim olarak tek kelimeleri (unigramlar) kullanmışlardır.
Her belgenin bir kaynak URL’si ile ilişkili olması, sistemi belgelerin provenansını veri kümesi boyunca belirlemesini sağlar.

Bu, binlerce belge için önemsiz gibi görünse de, 40 milyondan fazla belge için oldukça önemli olacaktır.
Yeni Metin Arama Yaklaşımları
Projenin amaçlarından biri, metin tabanlı sorgular için arama sonuçlarını daha anlamlı hale getirmektir, böylece önceden fazla bilgiye gerek kalmadan verilerin keşfedilmesine olanak tanınır. Araştırmacılar şunları belirtiyorlar:
‘Anahtar kelime araması, sezgisel ve yüksek oranda genişletilebilen bir arama yöntemidir, ancak sınırlı da olabilir, çünkü kullanıcılar alakalı sonuçları elde etmek için anahtar kelime sorgularını formüle etmekle sorumludurlar.’
TF-IDF değerleri elde edildikten sonra, en sık görülen kelimelerin hesaplanması ve korpus içindeki “ortalama” belgenin tahmini mümkündür. Araştırmacılar, bu korpuslararası anahtar kelimelerin genellikle anlamlı olduğunu, bu sürecin, yalnızca her bir belgenin metninin bireysel indekslenmesiyle elde edilemeyecek ilişkiler oluşturduğunu iddia ediyorlar.
Görsel olarak, bu süreç, çeşitli hükümet bölümlerinden gelen kelimelerin “mood board”unu sağlar:

Çeşitli ABD hükümeti bölümlerinden TF-IDF anahtar kelimeleri, TF-IDF ile elde edilmiştir.
Bu çıkarılan anahtar kelimeler ve ilişkiler daha sonra, arama sonuçlarında dinamik matrisler oluşturmak için kullanılabilir, PDF’ler korpusu, bir konu veya tema için “hikayeler” anlatmaya ve “saga” oluşturmaya başlar.
Araştırmacılar, k-means kümeleme kullanarak, ortak bir kaynağı paylaşmasalar bile ilgili belgeleri tanımlar. Bu, veri kümesi boyunca uygulanabilir anahtar kelime metadata’sının geliştirilmesini sağlar, bu da katı bir metin aramasında terim sıralamaları veya daha dinamik bir keşif ortamında yakın nodlar olarak ortaya çıkabilir:

Görsel Analiz
Washington araştırmacılarının yaklaşımının gerçek yeniliği, veri kümesindeki PDF’lerin rasterleştirilmiş görünümüne makine öğrenimi tabanlı görsel analiz tekniklerini uygulamaktır.
Bu şekilde, metinde hiçbir ortak temel bulunmasa bile görsel temelde bir “REDACTED” etiketi üretmek mümkündür.

Yeni projede bilgisayar görüşü tarafından tanımlanan redakte edilmiş PDF ön sayfalarının bir kümesi.
Ayrıca, bu yöntem, sıklıkla redakte edilmiş materyalin olduğu hükümet belgeleri için bile bu etiketi türetebilir, böylece bu uygulamaya yönelik kapsamlı ve eksiksiz bir arama mümkün hale gelir.
Haritalar ve şemalar da benzer şekilde tanımlanabilir ve kategorilere ayrılabilir, ve yazarlar bu potansiyel işlevselliğe ilişkin şunları söylüyor:
‘Sınıflandırılmış veya diğer şekilde duyarlı bilgilerin açıklanmasıyla ilgilenen akademisyenler için, bu tür materyalin tam olarak bu kümesini analiz ve araştırma için izole etmek özellikle ilgi çekici olabilir.’
Makale, hükümet PDF’lerine özgü görsel göstergelerin de, belgeleri sınıflandırmak ve “saga” oluşturmak için kullanılabileceğini belirtiyor. Bu “token”ler Kongre mührü veya diğer logolar veya tekrar eden görsel özellikler olabilir ve metin aramasında anlamsal varlıkları yoktur.
Ayrıca, sınıflandırılmayan veya ortak olmayan bir kaynaktan gelen belgeler, düzenlerinden, sütunlardan, yazı tiplerinden ve diğer ayırt edici özelliklerinden tanınabilir.

Yalnızca düzen, gruplama ve sınıflandırma için bir görsel arama alanı sağlar.
Araştırmacılar, metni ihmal etmediği halde, açıkça görsel arama alanının bu çalışmayı sürdüren şey olduğunu belirtiyorlar.
‘PDF’leri görsel özelliklerine göre arama ve analiz etme yeteneği, böylece mevcut çabalara görsel analiz ekleyerek ve doğu-dijital içerik için arama ve analiz ne olabilir, bunu yeniden hayal ederek kapsamlı bir yaklaşımdır.’
Araştırmacılar, çerçevelerini, 2008 Sonu Başkanlık Web Arşivi veri kümesi dahil olmak üzere çok daha büyük veri kümelerini barındırmak için geliştirmeyi amaçlıyorlar, bu veri kümesi 10 milyondan fazla öğe içeriyor. İlk olarak, sistemini on binlerce hükümet PDF’sini ele alabilecek şekilde ölçeklendirmeyi amaçlıyorlar.
Sistem, ilk olarak kütüphaneciler, arşivciler, avukatlar, tarihçiler ve diğer akademisyenler gibi gerçek kullanıcılarla değerlendirilecek ve bu gruplardan gelen geri bildirimlere göre geliştirilecek.
Doğu-Dijital Hükümet Yayınlarının Ölçeğiyle Mücadele: Milyonlarca PDF’yi İşleme ve Arama Boru Hatları Doğru Paul G. Allen Bilgisayar Bilimi ve Mühendisliği Okulu’ndan Benjamin Charles Germain Lee ve Washington, D.C.’deki Kongre Kütüphanesi’nden Trevor Owens tarafından yazılmıştır.
*İçli citasları hiperlinklere dönüştürme.
Aslen 28 Aralık 2021’de yayınlandı












