Mikä on OpenAI Sora?

OpenAI, ChatGPT:n takana oleva yritys, esitteli ensimmäisen tekoälyä käyttävän tekstistä videoiksi muuntamisen mallinsa, Sora, torstaina. Yritys väittää sen pystyvän luomaan jopa 60 sekuntia pitkiä videoita. Mutta miksi Sora herättää niin paljon huomiota, kun markkinoilla on niin monia muita tekoälytyökaluja, jotka tekevät saman asian? Tämä on pidempi kuin mikään sen kilpailijoista samalla alalla, mukaan lukien Googlen Lumiere, joka esiteltiin viime kuussa. Sora on tällä hetkellä saatavilla "red teamers" -ryhmälle, kyberturvallisuuden asiantuntijoille, jotka testaavat ohjelmistoja laajasti auttaakseen yrityksiä parantamaan ohjelmistojaan, sekä joillekin sisällöntuottajille. Tekeillä on myös suunnitelma sisällyttää Coalition for Content Provenance and Authenticity (C2PA) -metatieto tulevaisuudessa, kun malli on otettu käyttöön OpenAI:n tuotteessa.

Mikä on OpenAI Sora?


Sora on OpenAI:n kehittämä tekoälymalli, joka perustuu aiempaan tutkimukseen DALL·E- ja GPT-malleista, ja se kykenee luomaan videoita tekstiohjeiden perusteella sekä animoimaan staattisen kuvan muuttamalla sen dynaamiseksi videoksi. Sora voi luoda kokonaisia videoita yhdellä kertaa tai lisätä jo luotuihin videoihin lisää pituutta tehdäkseen niistä pidempiä. Se voi tuottaa videoita jopa yhden minuutin kestoon asti, varmistaen korkean visuaalisen laadun ja tarkkuuden.


OpenAI:n mukaan Sora voi luoda monimutkaisia kohtauksia erilaisilla hahmoilla, tarkoilla toimilla ja yksityiskohtaisilla taustoilla. Malli ei vain ymmärrä käyttäjän antamia ohjeita, vaan se myös tulkitsee, miten nämä elementit näyttäisivät todellisissa tilanteissa.



"Mallilla on syvä ymmärrys kielestä, mikä mahdollistaa sen tarkasti tulkitsemaan ohjeita ja luomaan vetäviä hahmoja, jotka ilmaisevat eloisia tunteita. Sora voi myös luoda useita otoksia yhdessä generoidussa videossa, jotka säilyttävät hahmot ja visuaalisen tyylin tarkasti", OpenAI kertoi blogikirjoituksessaan.


Ilmoittaessaan tekoälyvideogeneraattorista postauksessaan X:llä (aiemmin tunnettu nimellä Twitter), yritys kertoi: "Sora voi luoda jopa 60 sekunnin mittaisia videoita, joissa on erittäin yksityiskohtaisia kohtauksia, monimutkaista kameran liikettä ja useita hahmoja, joilla on eloisat tunteet." Mielenkiintoisesti se väittää luoman videon pituuden olevan yli kymmenen kertaa enemmän kuin mitä sen kilpailijat tarjoavat. Googlen Lumiere voi luoda 5 sekunnin mittaisia videoita, kun taas Runway AI ja Pika 1.0 voivat luoda vastaavasti 4 sekunnin ja 3 sekunnin mittaisia videoita.


Mallin esittelyn jälkeen Altman jakoi Soraan perustuvia luomuksia seuraajiensa pyytämien ohjeiden mukaisesti. Pyöräilevistä delfiineistä oravaan, joka ratsastaa lohikäärmettä, tässä on muutamia näytekuvia, jotka esittelevät Soran monipuolisuutta.

Sora on periaatteessa diffuusiomalli, joka kykenee luomaan koko videoita kerralla tai pidentämään luotuja videoita, jotta ne olisivat pidempiä. Malli käyttää transformer-arkkitehtuuria, joka mahdollistaa ylivertaisen skaalaustehon aivan kuten GPT-malleissa. Tekele esittää videoita ja kuvia kokoelmina pienempiä tietoyksiköitä, joita kutsutaan laastareiksi. Jokainen näistä laastareista on samankaltainen kuin tokenit GPT:ssä. OpenAI totesi, että Sora perustuu aiempaan DALL-E:n ja GPT-mallien tutkimukseen. Se lainaa uudelleenkaappaustekniikkaa DALL-E 3:sta, johon kuuluu kuvallisten koulutusaineistojen kuvailevien kuvatekstien generointi.


Ohjeiden perusteella luotujen videoiden lisäksi malli kykenee ottamaan olemassa olevan kuvan ja luomaan siitä videon. OpenAI:n mukaan se animoi kuvan komponentit tarkasti. Se pystyy myös pidentämään olemassa olevia videoita täyttämällä puuttuvat kehykset.


OpenAI Soran ominaisuudet ja rajoitukset

OpenAI väittää, että Soralla on syvällinen ymmärrys kielestä, mikä mahdollistaa sen tarkasti tulkitsemaan ohjeet ja luomaan hahmoja, jotka ilmaisevat eloisat tunteet. Mielenkiintoisesti Sora kykenee myös luomaan useita kuvakulmia yhdessä luodussa videossa säilyttäen visuaalisen tyylin ja hahmot.


Yritys korosti myös, että Soralla on omat rajoituksensa. Tällä hetkellä malli saattaa kamppailla monimutkaisen kohtauksen fysiikan tarkalla luomisella. Se voi myös kamppailla ymmärtääkseen tiettyjä syy-seuraus-suhteita. Yritys kuvaili tilannetta, jossa henkilö saattaa ottaa puraisun keksistä, mutta keksissä ei ole puraisunjälkeä. Samoin Sora voi sekoittaa spatiaalisia yksityiskohtia ohjeessa, kuten vasemman ja oikean, ja se voi kamppailla tapahtumien tarkkojen kuvauksien kanssa, jotka tapahtuvat ajan kuluessa.


Onko OpenAI Sora turvallinen?

Virallisilla verkkosivuillaan OpenAI on ilmoittanut toteuttavansa useita turvallisuustoimenpiteitä ennen kuin tekee Soran saataville tuotteissaan. Yritys korosti työskentelevänsä asiantuntijatiimin kanssa, joka keskittyy väärän tiedon, vihamielisen sisällön ja ennakkoluulojen torjuntaan. Nämä asiantuntijat testaavat Sora-mallia vastarinnan kautta. Lisäksi yritys rakentaa työkaluja, kuten havaitsemisluokittelijan, joka voi tunnistaa harhaanjohtavan sisällön ja kertoa, onko video luotu Soran toimesta.


Lisäksi OpenAI mukauttaa olemassa olevia turvallisuustoimenpiteitä, jotka on kehitetty DALL·E 3:n kaltaisille tuotteille ja jotka ovat relevantteja Soralle. Esimerkiksi heidän tekstinluokittelijansa seuloo ja hylkää syötteet, jotka rikkovat käyttöpolitiikkoja, kuten ne, jotka sisältävät äärimmäistä väkivaltaa, seksuaalista sisältöä tai vihamielisiä kuvia. Yritys on perustanut vahvoja kuvien luokittelijoita tarkistaakseen jokaisen luodun videon kehyksen noudattaakseen käyttöpolitiikkoja ennen käyttäjäpääsyä.


OpenAI tekee myös aktiivisesti yhteistyötä lainsäätäjien, opettajien ja taiteilijoiden kanssa ympäri maailmaa käsitelläkseen huolenaiheita ja tutkiakseen tämän uuden teknologian positiivisia sovelluksia.


"Me perehdymme lainsäätäjiin, opettajiin ja taiteilijoihin ympäri maailmaa ymmärtääksemme heidän huolenaiheitaan ja tunnistaaksemme positiivisia käyttötarkoituksia tälle uudelle teknologialle. Vaikka olemme tehneet laajaa tutkimusta ja testausta, emme voi ennustaa kaikkia hyödyllisiä tapoja, joilla ihmiset käyttävät teknologiaamme, emmekä kaikkia tapoja, joilla ihmiset käyttävät sitä väärin. Siksi uskomme, että oppiminen todellisen maailman käytöstä on kriittinen osa yhä turvallisempien tekoälyjärjestelmien luomista ja julkaisemista ajan myötä", OpenAI totesi Soraan liittyvässä blogikirjoituksessaan.


Onko OpenAI Sora saatavilla Suomi?

Sora on tällä hetkellä saatavilla vain punaisen tiimin jäsenille - asiantuntijoille alueilla kuten väärän tiedon, vihamielisen sisällön ja ennakkoluulojen torjunta - kriittisten alueiden tutkimiseksi mahdollisten ongelmien tai riskien varalta. Lisäksi OpenAI myöntää pääsyn visuaalisille taiteilijoille, suunnittelijoille ja elokuvantekijöille kerätäkseen palautetta mallin parantamiseksi. Yrityksellä on kuitenkin selvästi aikomus tehdä malli lopulta saataville kaikille käyttäjille. Blogista löytyvä lausunto kuuluu: "Jaamme tutkimuksemme etenemisen varhain, jotta voimme alkaa työskennellä ja saada palautetta ihmisiltä OpenAI:n ulkopuolella ja antaa yleisölle käsityksen siitä, mitä tekoälyn kyvykkyyksiä on tulossa."

Next Post Previous Post