XPoseImageCaptioner

Tekijä: Christopher Millsap
Lataa kehitysversio

Tämä lisäosa luo kuvailevan kuvatekstin mistä tahansa JPG- tai PNG-kuvasta resurssienhallinnassa, Microsoft Edgessä, Google Chromessa ja Firefoxissa. Tämä tehdään koneoppimista käyttäen, ja kuvateksti näytetään erillisessä ikkunassa, jotta tekstiä voidaan tutkia sekä puhuttaa.

Käyttö

Valitse ensin kuvatiedosto Windowsin resurssienhallinnassa tai verkkoselaimessa. Tuettuja selaimia ovat Chrome, Edge ja Firefox. Kun kuva on valittuna, paina NVDA+X. Lisäosa ilmoittaa "Kuvatekstiä luodaan, odota...", kun kuvaa analysoidaan koneoppimismoduulia käyttäen ja kuvatekstiä luodaan. Kuvan käsittelyyn voi kulua tietokoneesi suorituskyvystä riippuen 2-5 sekuntia. Kuvatekstin luonnin valmistuttua avautuu ikkuna, jossa teksti näytetään ja puhutaan. Kun olet valmis, sulje ikkuna painamalla Esc-näppäintä.

Parhaan hyödyn saaminen XPoseImageCaptionerista

XPoseImageCaptioneria käytettäessä on otettava huomioon useita asioita parhaiden tulosten saamiseksi:

XPoseImageCaptionerin kuvatekstin luonti toimii parhaiten valokuville, piirroksille tai muulle taiteelle. Se toimii melko hyvin myös meemeille ja mainoksille. Kaavioiden kanssa se ei toimi kovinn hyvin, eikä se korvaa tekstintunnistusta. Mikäli sinulla on kuva tekstidokumentista, käytä mieluummin tekstintunnistusta XPoseImageCaptionerin sijaan.
Tekoälyllä tehty kuvateksti voi kertoa, mitä kuvassa on, mutta se ei pysty kertomaan, miksi se on siinä. Alt-tekstiä tulisi edelleen käyttää kuvan kontekstin selvittämiseen. Saatat nähdä esimerkiksi uutissivustolla kuvan, jonka alt-teksti on "kenraali antaa todistajanlausunnon sotilasbudjetista kongressin kuulemisessa", ja tekoälyn luoma kuvateksti voisi olla jotain sellaista kuin "mies virallisessa sotilaspuvussa istuu puupaneloidussa huoneessa ja puhuu mikrofoniin". Tekoälyn luoma kuvateksti kertoo, mitä kuvassa on, mutta alt-tekstin tulisi ihanteellisesti kertoa, miksi se on siinä.
BLIP-neuroverkko, johon XPoseImageCaptioner-lisäosa perustuu, voi tuottaa ainoastaan englanninkielistä tekstiä. Mallin kouluttaminen tukemaan muita kieliä kuin englantia ei ole tällä hetkellä mahdollista.
Vaikka tuotetut kuvatekstit ovat tällä hetkellä hyvin lähellä tekoälyn tuottamien kuvatekstien huippua, ne eivät ole aina sataprosenttisen tarkkoja. Käytä niitä harkiten ja terveellä järjellä, äläkä missään tapauksessa korvaa niillä tekstintunnistusta. Älä myöskään luota tuotoksen antamiin tietoihin vaarallisissa tai korkean riskin tilanteissa.
Tällä hetkellä XPoseImageCaptioner toimii verkkosivustoilla, jotka eivät vaadi kirjautumista. Esimerkiksi sellaisten organisaatioiden, kuten Guiding Eyes for the Blind tai CNN julkiset sivut. Kirjautumista vaativia sivustoja, kuten Facebook tai X, ei vielä tueta, koska lisäosan täytyy ladata kuva verkkosivustolta itsenäisesti kuvatekstin luomista varten, eikä se pysty tekemään niin, jos kirjautumista vaaditaan. Väliaikaisratkaisuna kuvan voi ladata tietokoneelle kirjautumista vaativilta sivustoilta ja luoda kuvatekstin lisäosaa käyttäen resurssienhallinnassa.
Jos kuvalla ei ole alt-tekstiä, XPoseImageCaptioner toimii vain FireFoxissa. Mikäli kuvalla on alt-teksti, FireFox ei tarjoa ruudunlukijalle kuvatiedoston suoraa linkkiä. Ilman tätä tietoa lisäosa ei voi ladata kuvaa tekoälyn käytettäväksi kuvatekstin luomiseen. Chromessa ja Microsoft Edgessä tätä rajoitusta ei ole, ja ne toimivat riippumatta siitä, onko kuvalla alt-teksti vai ei.

Tekijänoikeus:

Opin paljon NAO-tekstintunnistuslisäosasta siitä, miten se käsittelee Windowsin resurssienhallintaa NVDA:ssa. Kiitokset Alessandro Albanolle, Davide De Carnelle ja Simone Dal Masolle heidän työstään tuon lisäosan parissa. XPoseImageCaptioner käyttää lisäksi Salesforce.comin BLIP-neuroverkon painoja ja koodia, mutta ei ole millään tavoin yhteydessä Salesforce.comiin tai hyväksytty sen toimesta.

Lisenssi

Lisensoitu BSD 3 Clause -lisenssillä. Salesforce.com ei tue millään tavalla tätä lisäosaa.

https://github.com/cmillsap/XPoseImageCaptioner/releases/download/v0.8.4/XPoseImage.Captioner-0.8.4.nvda-addon