אם לא לקחתם פסק זמן מהרשתות בחודשים האחרונים, סיכוי קלוש שלא נתקלתם באחד ממודלי הבינה המלאכותית המחוללים תמונה באמצעות טקסט. אם בהתחלה העולם רעש, ובצדק, מהמודל Dall-E של OpenAI, אזי שבהמשך הצטרפו למגרש שחקנים נוספים ומעניינים לא פחות. אחד מהמודלים שתפסו את תשומת לב הישראלים היה אמנם מידג’רני, אך מודל נוסף שתופס את תשומת ליבם של משתמשים רבים ברחבי העולם הוא סטייבל דיפיוז’ן (Stable Diffusion).
אז מה זה Stable Diffusion?
בקצרה, סטייבל דיפיוז’ן הוא מודל בינה מלאכותית היוצר תמונות באמצעות הנחיות טקסט שהמשתמשים כותבים לו. רוצים תמונה של חתול מהלך על פסנתר? רק תכתבו לו. המודל נוצר על ידי חברת Stability AI ויצא לשימוש באוגוסט 2022, כאשר היתרון המרכזי שלו הוא היותו זמין לציבור בקוד פתוח הניתן לשינוי ולשיפור בידי מפתחים שונים מרחבי העולם.
סטייבל דיפיוז’ן אומן באמצעות מערך נתונים ענק בשם LAION-5B, שבו כ-5 מיליארד צמדי תמונות-טקסט שסווגו באמצעות פרמטרים שונים כגון רזולוציה, איכות וסגנון. במערך הנתונים נכללו תמונות ממאגרי מדיה שונים כמו Pinterest, DeviantArt, Flickr ועוד. כך, למד המודל להבדיל בין סגנונות, סוגים ואיכויות של תמונות, ואז ליצור אותן בעצמו.
מלבד היכולת ליצור תמונות חדשות מאפס, מודל ה-Stable Diffusion מאפשר לערוך תמונות קיימות, ולשלב בהן אלמנטים חדשים, או לבצע בהן שינויים בהתאם לטקסט שכותב המשתמש. כמו כן, ניתן להעניק לתיאור מסוים משקל רב יותר בעת היצירה. אם לדוגמה נרצה שהמודל ייצור עבורנו תמונה של חתול משחק עם כדור צמר בדשא, ונרצה שהחתול יהיה המוצג העיקרי בתמונה. בנוסף, כוללת כל תמונה מספר Seed שבאמצעותו ניתן ליצור יצירות דומות שוב ושוב, בדומה לפקודת ה-Seed במידג’רני.
היתרונות והחסרונות היחסיים של סטייבל דיפיוז’ן
אם נבחן את היתרונות של סטייבל דיפיוז’ן נוכל לציין לטובה את אופציות ההרחבה האינסופיות והחיבור למערכות אחרות הודות לקוד הפתוח, יצירת דימויים ברזולוציות גבוהות ויצירה במגוון סגנונות אמנות שונים. יתרון חשוב נוסף הוא היותו מודל חינמי לגמרי, המאפשר למשתמשים ליצור בו ללא הגבלה כלל.
אך למרות הקוד הפתוח שמהווה יתרון על פני המתחרים מידג’רני ודאלי, גם Stable diffusion לא חף מחסרונות. המודל כולל צנזורה ופיקוח בסיסיים ממש, בשונה מהכלים המתחרים דאלי ו-Midjourney. מה שמעלה תהיות ובעיות אתיות.
איך משתמשים בסטייבל דיפיוז’ן?
אם הגעתם עד לכאן, אתם בטח שואלים איך משתמשים בסטייבל דיפיוז’ן. ובכן, בגלל היותו מודל קוד פתוח, ישנם בחוץ לא מעט ממשקים המאפשרים שימוש במודל, כדוגמת Leonardo.ai, ואפילו פלאגין לפוטושופ שמאפשר יצירת דימויים היישר מהממשק עצמו. אם תרצו בכל זאת לעשות שימוש בסטייבל דיפיוז’ן בצורה הרשמית ביותר, תוכלו לעשות זאת באמצעות האתר Dream studio שהקימו יוצרי המודל בפועל.
ממשק ווב נוסף המומלץ לעבודות מורכבות הוא RunDiffusion, המבוסס על Automatic1111.