Usein kysytyt kysymykset (UKK)

Kuka Stable Diffusionin on kehittänyt?

Stable Diffusionin ovat kehittäneet kansainvälisen startup-yhtiö Stability AI:n tutkijat. Stable Diffusionin kehittämisessä ovat olleet mukana myös tekoälyteknologiaa kehittävä RunwayML, saksalainen LMU yliopisto Münchenissä ja voittoa tavoittelemattomat EleutherAI- ja LAION-tutkimusryhmät.

Onko Stable Diffusion avointa lähdekoodia?

Kyllä, Stable Diffusion on julkaistu CreativeML Open RAIL-M lisenssin alla.

Onko Stable Diffusion ilmainen?

Stable Diffusion on julkaistu avoimena lähdekoodina ja sitä voi jokainen hyödyntää lisenssin mukaisesti. Stable Diffusionista on sekä suljettuja kaupallisia, että avoimia ja vapaita toteutuksia. Avoimet toteutukset ovat yleensä ilmaisia käyttää.

Avointen lähdekoodien projekteihin käytetään kuitenkin paljon aikaa ja se on yleensä vapaaehtoistyötä. Kehittäjät ansaitsevat tästä korvauksensa, joten harkitse voisitko jotenkin palkita sovellusten kehittäjiä. Monesti kehittäjillä on ns. tippijärjestelmä, jolla jokainen voi kiittää haluamallaan summalla erinäisten maksupalveluiden kautta.

Mihin Stable Diffusionin generoimia kuvia saa käyttää?

Lainsäädäntö tekoälyjen ympärillä on edelleen kesken ja myllerryksessä. Katso yleisempi vastaus kuvataiteen UKK:sta.

Mikään itse Stable Diffusionissa ei kuitenkaan rajoita kuvien käyttämistä, mutta koska Stable Diffusion on julkaistu avoimena lähdekoodina, voivat siitä johdetut toteutukset muuttaa sillä generoitujen kuvien oikeuksia. Varmista siis käyttämäsi toteutuksen lisenssistä mitä ohjelmistolla generoiduilla kuvilla saa tehdä.

Jos tekoälyllä generoidut kuvat ylittävät teoskynnyksen, ovat kuvan tekijänoikeudet nimissäsi ja saat näin hyödyntää kuvia parhaiten näkemälläsi tavalla.

Miten Stable Diffusion toimii?

Stable Diffusion ei ole vain yksi tekoäly, vaan kokoelma eri alaosia ja niiden alaosia, jotka yhdessä muodostavat työkalun, jota kutsumme Stable Diffusioniksi. Alaosia ovat esimerkiksi tekstin enkooderi, kuvageneraattori ja kuvien dekooderi. Pohjimmiltaan Stable Diffusion perustuu diffuusiomalliin.

Jay Alammar on tehnyt hyvän tarkentavan yhteenvedon siitä, miten Stable Diffusion toimii sisäisesti. Voit käydä lukemassa tekstin hänen blogistaan.

Paljonko Stable Diffusionin malleissa on kuvia?

Teknisesti Stable Diffusionin mallit eivät varsinaisesti sisällä kuvia, joita on käytetty mallien kouluttamisessa. Mallit koostuvat kuvien pohjalta jalostetuista numeerisista arvoista, joita tekoäly hyödyntää uuden sisällön generoimisessa.

Eri Stable Diffusionin versiot käyttävät eri määriä koulutusmateriaalia. Esimerkiksi Stable Diffusion 1.5 hyödyntää LAION-2B kokoelmaa, johon kuuluu noin kaksi miljardia kuvaa ja niihin liitettyä metadataa. Stable Diffusion 2.x taas hyödyntää LAION-5B kokoelmaa, johon kuuluu noin viisi miljardia kuvaa lisämateriaaleineen.

Perusmalleista jatkokoulutetut mallit saattavat sisältää kuvainformaatiota tätäkin enemmän. Riippuen siitä mitä malleihin on koulutettu, saattaa perusmallin päälle olla lisätty kuvatietoa kymmenistä tuhansiin kappaleisiin.

Mitä eroa on Stable Diffusionin eri versioilla?

Kirjoittamishetkellä valtavirran käytössä ovat Stable Diffusion 1.5 ja 2.1. Erona malleissa on se, minkälaisella datalla mallit on koulutettu. Huomattava ero mallien välillä on myös se, että versiossa 1.5 perusresoluutio on 512x512, kun taas 2.1 versiossa se on 768x768. Versiossa 2.1 Stability AI on vastannut myös aikaisemman version kritiikkiin tekijänoikeuden alaisen materiaalin käytöstä ja näin kyseistä materiaalia pitäisi olla malleissa huomattavasti vähemmän.

Versiota 2.1 on myös jonkin verran hankalampi käyttää kuin aikaisempaa 1.5 versiota. Myöskään kaikki oheistyökalut eivät vielä tue 2.1 mallia. Aloittelija pääsee Stable Diffusionin kanssa helpommin alkuun käyttämällä 1.5 version malleja.

Onko Stable Diffusionin generoimissa kuvissa vesileima?

Tämä riippuu paljon generoimiseen käytetystä ohjelmistosta, jotkut lisäävät vesileiman ja jotkut taas eivät. Osassa kuvista vesileima on selvästi näkyvillä, kun taas joissain tapauksissa vesileima on piilotettu esimerkiksi kuvan reunoille ihmissilmältä piiloon.

Tekoälyn generoimien kuvien vesileimaaminen on arvokasta, koska näin tulevaisuudessa perinteiset ja generoidut kuvat voidaan erottaa toisistaan ja tulevia tekoälymalleja pystytään kouluttamaan myös sellaisilla kuvilla, jotka eivät ole pelkästään tekoälyjen generoimia.

Miksi generoimani kuvat näyttävät huonommilta kuin muiden tekemät?

Stable Diffusionissa on lukuisia lopputulokseen vaikuttavia parametrejä, joista osalla on dramaattisempia vaikutuksia kuin toisilla. Kuten ei mikään muukaan työkalu, myöskään Stable Diffusion ei pysty ihmeisiin. Sitä on osattava käyttää oikein, että lopputuloksesta tulee juuri sellainen kuin tekijä mielessään näkee.

Yleisimpiä syitä huonolaatuisille tai epätoivotuille kuville ovat:

Liian lyhyt tai epätarkka kehoteteksti
Liian pieni tai suuri CFG-arvo
Liian pieni tai suuri samplerin askelmäärä
Pyydetty resoluutio on jotain muuta kuin millä malli on koulutettu
Satunnaisuus

Lopputulokseen vaikuttaa myös käytetty malli. Tiettyihin tyyleihin erikoistuneet mallit generoivat helpommin esteettisesti kauniimpia kuvia. Huomaathan myös, että kaikki tekoälyillä generoidut kuvat eivät ole pelkästään puhtaasti generoituja, vaan niihin saattaa liittyä paljon manuaalista työtä esim. sisäänmaalaus-työkaluilla ja perinteisillä kuvankäsittelyohjelmilla. Kuvien resoluutiota on myös potentiaalisesti kasvatettu erilaisilla skaalaustekniikoilla.

Oliko kirjoituksesta iloa tai löysitkö siitä virheitä? Voit kommentoida kirjoitusta kommenttikenttään. Muista netiketti!