Új sánc képződött az A.I. háborúban, itt a Google Lumiere, aminek köszönhetően már kamerák nélkül készíthetünk videókat

Új sánc képződött az A.I. háborúban, itt a Google Lumiere, aminek köszönhetően már kamerák nélkül készíthetünk videókat

~4 perc

Egész másképp képzeltük el még 1984-ben, a Terminátor bemutatójának és az első Apple Macintosh-nak az évében, hogy milyen lesz az, amikor az A.I. háborúba indul. Akkor attól féltünk, hogy ellenünk, most már megnyugtató látni azt, hogy inkább értünk, felhasználókért.

ChatGPT, Bard, Copilot és még sokan mások

A mesterséges intelligenciaként hivatkozott nyelvi modellek mögött lévő vállalatok mind igyekeznek meggyőzni bennünket arról, hogy az általuk kínált vagy a szolgáltatásaikba már beépített eszközök mindig egy kicsivel, de jobbak, mint a konkurensek termékei. Ebben nincs is semmi meglepő, sőt egy ilyen születőben lévő teljes termékkategória esetében nem csoda, hogy az egymásra licitáló fejlesztéseikkel igyekeznek megfogni az újítások iránt leginkább fogékony innovátor felhasználókat a piacon. Úgy képzelem, hogy egy szó lehet felvésve a fejlesztésekért felelősök irodáinak bejáratára: újítani, újítani, újítani. (Egy szó ez, de legalább háromszor.)

Ennek fényében, itt a Google Lumiere

A text-to-image, azaz a szöveges promptokból készült képek után a mesterséges intelligencia következő állomása a videós tartalmak készítése, pusztán a begépelt szövegek alapján. A Google nemrég bemutatta Lumiere nevű új videó generátor modelljét, mely a tér-idő diffúziós modell alkalmazásával hozza létre a videókat. A módszer különlegessége abban rejlik, hogy egyszerre generálódik a videó térbeli és időbeli modellje, eltérően a hagyományos videógeneráló módszerektől, amelyek általában kisebb részletek vagy képkockák összeillesztését alkalmazzák. A tér-idő diffúziós modell használatával így egy jóval realisztikusabb videót kaphatunk.

A Google Lumiere text-to-video technológiája szöveges promptok alapján jelenleg 5 másodperces, 1024×1024 pixel felbontású videók generálására képes. Ezenkívül a modell még egyéb széleskörű alkalmazási lehetőségeket kínál, beleértve a már meglévő képek animációvá alakítását vagy referenciaképek alapján más stílusú videók létrehozását.

A Google előnye

Annak ellenére, hogy a Lumiere mindenkit lenyűgözött, aki csak a színes-szagos prezentációkat látta, arról nincs hír, hogy mikor és milyen formában lesz majd végre elérhető a nagyközönség számára. A modell egyelőre kísérleti stádiumban van és ha ki is kerül onnan, akkor nagy eséllyel, az elmúlt hetekben már itthon is mindenki számára elérhető Gemini termékük részeként, amely a Bard utódjaként, (az ígéreteik szerint) minden eddiginél fejlettebb nyelvi modellek alkalmazását teszi lehetővé.

A Google piaci előnyének kedvez hosszú távon a fejlesztési kapacitás és a jóformán végtelen adat, melyből építkezni tudnak, van azonban egy aprócska kellemetlenség. Az A.I. chat-en történő kommunikáció homlokegyenest ellen megy a kereső eddigi üzleti modelljének. Minél többször teszünk fel a Bardnak/Gemininek olyan kérdéseket, amiket addig a Google keresőjébe pötyögtünk be, annál inkább csökkenni fog a fizetett hirdetésekre kattintók száma, amit idővel már minden hirdető megérezhet. Ezt az ellentmondást, érdekellentétet valahogy fel kell oldania a Google-nek a jövőben, vagy az A.I. fejlesztéseit beépítenie a keresőjébe vagy valahogy a keresési hirdetéseket integrálni a chat felületre.

A ChaGTP előnye

Van a ChatGPT-t is fejlesztő OpenAI-nak egy óriási előnye, amit nem a funkcionalitásának köszönhet. Al Ries és Jack Trout még a Terminátor mozis bemutatkozásánál is korábban, 1981-ben megjelent Pozicionálás – Harc a vevők fejében elfoglalt helyért című könyve ki is tér erre az előnyre: Nem jobbnak kell lenni a piacon, hanem elsőnek! A piacon és az emberek, fogyasztók fejében leginkább. Ez az előnye pedig adott a ChatGPT-nek, aki betonbiztosan trónol az első helyen a marketing iránt érdeklődők koponyájában. Az elérhető A.I. képzések nagyobb része is mind a ChatGPT használatához köthető, ahogy a termék neve is előlépett azzá, amire először gondolunk, ha azt halljuk, hogy “A.I.”

FRISSÍTÉS:

Nem telt bele másfél napba és blogcikkünk közzététele után az OpenAI bemutatta következő forradalminak ígérkező modelljét, a Sora képében. A modell szövegből-videó képességei gyakorlatilag felülírnak mindent, amit az eddigi technológia korlátairól gondoltunk. Ijesztő belegondolni, hogy szűk egy éve még így képzelte el a mesterséges intelligencia Will Smith-t, ahogy spagettit majszol, most pedig már ilyen valósághű képalkotásra képes a Sora.

Persze mivel sem a Lumiere, sem a Sora nem lett még elérhető a nagyközönség számára, így kicsit furcsa egyiket a másik fölé helyezni, de ha hihetünk a generált videók “valódiságának”, akkor ez a kormány bizony egyelőre marad az OpenAI kezében.

Forrás