XPoseImageCaptioner

Bu eklenti, Dosya Gezgini, Microsoft Edge, Google Chrome ve Firefox'ta herhangi bir JPG veya PNG resminin açıklayıcı bir başlığını oluşturabilir. Bunu makine öğrenimini kullanarak yapar ve altyazıyı bir pencerede sunar, böylece altyazının metni de metni seslendirmenin yanı sıra incelenebilir.

Kullanım

Öncelikle Windows Dosya Gezgini'nde veya bir web tarayıcısında bir görüntü dosyası seçin. Chrome, Edge ve Firefox desteklenmektedir. Resim seçiliyken NVDA+x tuşlarına basın. görüntü makine öğrenimi modülü tarafından analiz edilip altyazı eklenirken eklenti, "Altyazı hazırlanıyor, lütfen bekleyin..." şeklinde yanıt verecektir. Makinenizin CPU hızına bağlı olarak altyazı yazma işlemi iki ile beş saniye arasında sürecektir. Altyazı ekleme işlemi tamamlandıktan sonra görselin altyazısını içeren bir pencere açılacak ve altyazı okunacaktır. Altyazıya göz atmayı bitirdiğinizde altyazı penceresini kapatmak için Escape tuşuna basabilirsiniz.

XPoseImageCaptioner'dan en iyi şekilde yararlanma

En iyi sonuçları elde etmek için XPoseImageCaptioner'ı kullanırken dikkat edilmesi gereken birkaç nokta vardır:

  1. XPoseImageCaptioner altyazısı, fotoğraflar, karikatürler veya diğer sanat eserleri için en iyi sonucu verir. Ayrıca memler ve reklamlar için de oldukça iyi çalışabilir. Grafikler için iyi çalışmaz ve OCR'nin yerini almaz. Bir metin belgesinin görüntüsüne sahipseniz XPoseImageCaptioner yerine bir OCR eklentisi kullanın.
  2. AI altyazı size bir görselde ne olduğunu söyleyebilir ancak neden orada olduğunu söyleyemez. ALT metni yine de bir görselin bağlamı hakkında bilgi edinmek için kullanılmalıdır. Örneğin, bir haber sitesinde ALT metni "bir general kongre oturumunda askeri bütçe hakkında ifade veriyor" olan bir görsel görebilirsiniz, YZ alt yazısı "resmi askeri üniformalı bir adam ahşap panelli bir odada otururken mikrofona konuşuyor" gibi bir şey olabilir. YZ yazısı size resimde ne olduğunu söyler, ancak ALT metni ideal olarak size neden orada olduğunu söylemelidir.
  3. XPoseImageCaptioner eklentisinin temel aldığı BLIP sinir ağı yalnızca İngilizce metin çıktısı verebilir. Modelin İngilizce dışındaki dilleri destekleyecek şekilde yeniden eğitilmesi şu anda mümkün değildir.
  4. Üretilen altyazılar şu anda görsellerin yapay zekayla altyazılanması için en son teknolojiye çok yakın olsa da her zaman %100 doğru değildir. Lütfen dikkatli ve sağduyulu kullanın ve asla OCR'nin yerine kullanmayın. Ayrıca tehlikeli veya yüksek riskli durumlar için çıktıya güvenmeyin.
  5. Şu anda XPoseImageCaptioner, oturum açma gerektirmeyen web siteleri için çalışmaktadır. Örneğin, Körler için Rehberlik Eden Gözler veya CNN gibi kuruluşların halka açık sayfaları. Facebook veya Twitter gibi oturum açma gerektiren sayfalar henüz desteklenmemektedir çünkü eklentinin altyazı eklemek için web sitesinden bağımsız olarak bir görsel indirmesi gerekir ve oturum açma gerekiyorsa bunu yapamaz. Geçici bir çözüm olarak, oturum açmayı gerektiren sitelerdeki herhangi bir görüntü yerel makineye indirilebilir ve Dosya Gezgini'ndeki eklenti kullanılarak altyazı eklenebilir.
  6. XPoseImageCaptioner, FireFox'ta yalnızca bir görüntünün ALT metni olmadığında çalışır. FireFox, bir görüntüde ALT metni varsa, görüntü dosyasına ekran okuyucuya doğrudan bağlantı sağlamaz. Bu bilgi olmadan eklenti, yapay zekanın altyazıya ekleyeceği görüntüyü indiremez. Chrome ve Microsoft Edge'de bu sınırlama yoktur ve görselin ALT metin içerip içermemesine bakılmaksızın çalışır.

Telif Hakkı:

Telif Hakkı (c) 2023 Christopher Millsap

NAO OCR eklentisinden, NVDA'daki Windows Dosya Gezgini ile nasıl başa çıktığı konusunda çok şey öğrendim. Bu eklenti üzerindeki çalışmaları için Alessandro Albano, Davide De Carne ve Simone Dal Maso'ya teşekkür ederiz. Ayrıca XPoseImageCaptioner, Salesforce.com'un BLIP sinir ağı ağırlıklarını ve kodunu kullanır, ancak Salesforce.com'a hiçbir şekilde bağlı değildir veya Salesforce.com tarafından desteklenmemektedir.

Lisans

BSD 3 Clause Lisansı ile lisanslanmıştır. Bu eklenti hiçbir şekilde Salesforce.com tarafından desteklenmemektedir.

https://github.com/cmillsap/XPoseImageCaptioner/releases/download/v0.8.4/XPoseImage.Captioner-0.8.4.nvda-addon