Aplikácia s kužeľom ako ikona: AI Content Describer pre NVDA

Popis obrázkov prostredníctvom AI je trendom najmä v mobilných aplikáciách. Pre čítač NVDA máme k dispozícii zatiaľ len doplnok s názvom AI Content Describer. AI Content Describer je užitočný doplnok, ktorý sprostredkuje opis obrázkov pomocou umelej inteligencie. Samozrejme, vždy je potrebné brať ohľad na to, že si AI môže vymýšľať a ak je to možné, v každom prípade je lepšie uprednostniť popis obrázkov od „živej inteligencie“, teda človeka.

Na uvedenie doplnku do funkčného stavu budete potrebovať používateľské skúsenosti a trošku trpezlivosti. Ai Content Describer nainštalujete buď z oficiálneho repozitára doplnkov pre NVDA, alebo od verzie 2023.2 z Katalógu s doplnkami - NVDA > Nástroje > Katalóg s doplnkami.

Jazykové modely a ich výber

Po aktualizácii v máji 2024 pribudli do doplnku viaceré jazykové modely, z ktorých si po získaní API kľúča môžete vyberať:

  • Google Gemini Pro Vision - je zlepšený jazykový model vyvíjaný spoločnosťou Google ešte nedávno známy ako Bard.
  • Claude 3 Haiku - najrýchlejší a najkompaktnejší model od Anthropic pre takmer okamžitú odozvu (aspoň to sa píše v popisku jazykového modelu.

Manage Models - tu si šípkou dolu vyberáte jazykový model, ktorý chcete používať.

Prompt - pokyn, na základe ktorého doplnok popíše obrázok. Je možné ho z angličtiny prepísať do slovenčiny, potom dostanete priamo opis v slovenskom jazyku.

Maximum tokens - vhodné je nastaviť aspoň 1000. Open each result in browseable dialog - pomocou tohto začiarkavacieho políčka určujete, či sa popis obrázku otvorí v dialógovom okne, ktoré si môžete prezerať.

Ako získať API kľúč

Ponúkne vám viacero možností prihlásenia. Pokiaľ chcete, môžete kliknúť na tlačidlo Continue with Google, respektíve Microsoft alebo Apple. Tým pádom sa k platforme OpenAI budete prihlasovať svojím používateľským účtom u daného poskytovateľa. Samozrejme, je otázkou osobnej preferencie každého používateľa, kto dá väčší dôraz na pohodlie a kto na súkromie.

Ak ste sa rozhodli prihlasovať svojím účtom u niektorého zo svetových technologických gigantov, budete musieť iba potvrdiť svoju totožnosť (zadaním hesla alebo pomocou dvojfaktorovej autentifikácie) a povoliť aplikácii OpenAI prístupové práva. Tento postup sa pochopiteľne líši podľa zvoleného typu účtu, ktorým ste sa rozhodli prihlasovať. Na ďalšej stránke potom podobným spôsobom vyplníte a potvrdíte ešte svoje heslo.

V dialógu, ktorý sa objaví, môžete do políčka Name uviesť nejaký názov, prostredníctvom ktorého budete rozlišovať účel API kľúča (Lukáš vo svojom prípade vyplnil "NVDA image describer"). Prepínač Permissions ponecháte v predvolenej polohe All.

Ďalej sa objaví stránka s políčkom iba na čítanie, v ktorom máte svoj novo vytvorený API kľúč. Je potrebné ho skopírovať do schránky. Skopírovaný kľúč potom vložíte do poľa OpenAI API key v nastaveniach doplnku AI Content Describer: Ponuka NVDA > Možnosti > Nastavenia > záložka AI Content Describer > prvé editačné pole v záložke.

Zakúpenie kreditu

Ako som spomenula vyššie, aby doplnok správne fungoval, je potrebné si zakúpiť "kredit", z ktorého sa pri každom úspešnom, ale aj neúspešnom pokuse o rozpoznanie a opis obrázka strhne určitá čiastka. Na webe OpenAI API sa presuňte na stránku Usage. Tu uvidíte skôr neprístupný graf financií, ktoré ste na účet vložili v minulosti, resp. kredit, ktorý ste si kúpili. Ďalej tu nájdete výšku zostávajúceho kreditu a jeho platnosť.

Ak kupujete kredit prvý raz, čo budete musieť urobiť bezprostredne po získaní API kľúča, aby doplnok AI Content Describer mohol fungovať, aktivujete tlačidlo Add payment method, pokiaľ je dostupné. V záverečnom dialogu už budete do klasického formulára s prístupnými poľami zadávať údaje svojej platobnej karty. Ostatné osobné údaje (adresu atď.) môžete vyplniť v podstate ľubovoľným textom.

Ako píše Lukáš: Můžete zde být i kreativní a vyjádřit vyplněnými údaji, co si myslíte o tom, že tato platební brána jich chce sbírat tolik, pokud chcete. Pro mě osobně je to docela oblíbená forma zábavy a rebelie.

Na stránke Billing overview, na ktorú sa dostanete odkazom Buy credits, si následne môžete cez tlačidlo Enable autorecharge prípadne nastaviť automatické dokupovanie kreditu o preddefinovanú čiastku, ak sa priblížite k jeho vyčerpaniu.

Príklady použitia a popisov

V podstate je veľmi jednoduché s doplnkom pracovať. Nižšie uvádzam rozdiely v popise po zvolení jednotlivých položiek.

Príklad 1: Popis pracovnej plochy

Tento obrázok zobrazuje plochu počítača s operačným systémom Windows. Pracovná plocha má množstvo ikon roztrúsených po obrazovke, ktoré predstavujú kombináciu softvérových aplikácií a pomôcok z rôznych kategórií, ako sú prehliadače (napr. Firefox, Chrome), prehrávače médií (napr. VLC media player, Audacity), produktivita a kancelária. aplikácie (napr. Google Meet, Tabuľky, PowerPoint, Excel, Word), nástroje na správu súborov (napr. Total Commander, WinRAR), komunikačné platformy (napr. Zoom, AnyDesk, Thunderbird) a rôzne ďalšie vrátane antivírusového softvéru (napr. Niekoľko ikon je označených v iných jazykoch ako v angličtine, čo znamená viacjazyčné používateľské nastavenie alebo aplikácie špecifické pre miestne nastavenie. Panel úloh v spodnej časti obrazovky zobrazuje pripnuté aplikácie, ponuku Štart, funkciu vyhľadávania a systémovú lištu s časom, dátumom, stavom siete a ďalšími systémovými ikonami. Dátum na systémovej lište ukazuje „28. 2. 2024“ a hodiny ukazujú, že čas je 12:00. Jedinú výhradu mám proti tomu, že by ikony boli roztrúsené. No dovoľ, AI! Moje ikony sú pekne poukladané v mriežke ešte aj podľa abecedy.

Príklad 2: Ikona Google Chrome

Obrázok je malá ikona pre webový prehliadač Google Chrome. Je to štvorec so zaoblenými rohmi so štylizovaným znázornením loga Chrome v strede. Logo pozostáva z modrého kruhu s menším bielym kruhom v strede, ktorý je obklopený červeným, žltým a zeleným vírom, ktorý sa otáča okolo modrej a pripomína točiaci sa alebo obiehajúci efekt. Pod logom je malý tieň, ktorý dodáva pocit hĺbky.

Príklad 3: Ikona VLC Media Player

Na obrázku je ikona prehrávača médií VLC. Pozostáva z bieleho a oranžového dopravného kužeľa s modrou šípkou smerujúcou nahor na pravej strane. Pod kužeľom je čiernym písmom text „VLC media player“.

Po zhotovení záberu pomocou kamery sa doplnok pokúsi opísať, čo ste vyfotili. Funguje to dobre. Len pri prvom pokuse musíte vybrať kameru a povoliť doplnku prístup k nej. Skúšala som vyfotiť seba aj miestnosť, kde som sa nachádzala, a podarilo sa to. Slúži na rozpoznanie tváre v prípade videohovoru. Následne znovu otvorte menu doplnku a vyberte Face Detection > Detect Face Position.

Nastavte si agenta AI pre grafický dizajn za 5 minút pomocou NVIDIA NIM

tags: #ta #aplikacia #s #tym #kuzelom #ako