למרות מגוון החידושים הרחב שמציעים מחוללי תמונות מבוססי בינה מלאכותית, כמו גרסה 5 של Midjourney ו-FireFly של אדובי, המודל שעדיין מאפשר לנו את המרחב היצירתי הכי רחב, יחד עם שליטה מקסימלית הוא Stable Diffusion. מחולל התמונות המבוסס על קוד פתוח מאפשר יצירה באמצעות שלל פלטפורמות כמו Leonardo.AI וחבריו Playground.AI ו-DreamStudio, וגם באמצעות כלי Offline למחשב האישי.
פלטפורמות סטייבל דיפיוז’ן למחשב האישי מאפשרות עבודה מאסיבית ומורכבת ביחס לפלטפורמות האונליין. אך מה עושים יוצרים מתקדמים שמעוניינים ליצור בצורה כזו עם Stable Diffusion אך אין להם מחשב מתקדם וחזק עם מספיק GPU? בדיוק בשביל זה נועד הכלי הבא. הוא מספק פתרון לפרוייקטים מורכבים שדורשים עבודה מאסיבית על סטייבל דיפיוז׳ן, כמו למשל עבודות אנימציה על Deforum או Batch-ים גדולים עם ControlNet וסקריפטים נוספים.
כאשר אין ברשותנו GPU חזק מספיק להתקנה מקומית של סטייבל דיפיוז׳ן, יתכן שנרצה לשכור מכונה בענן שתספק את כח העיבוד הדרוש. דרך אחת מקובלת היא Google Colab אלא שהיא מוגבלת לכמות מסויימת של שימוש ואז זה הופך להיות בתשלום, ולדעתי לפרוייקטים גדולים זה לא תמיד מחזיק. במקום זאת, השירות שאותו אציע במאמר זה נקרא RunDiffusion, והיתרונו שלו הם הגמישות והסקיילינג בעבודה עם סטייבל דיפיוז׳ן.
RunDiffusion הוא בעצם פלטפורמת ווב עם ממשק אינטרנטי עבור Automatic1111, שהוא בעצמו מהווה ממשק משתמש עבור סטייבל דיפיוז’ן. במילים אחרות, RunDiffusion מאפשר יצירה על ממשק Automatic1111 בווב, ולא במחשב האישי שלכם.
מכיוון שאני באופן אישי השתמשתי בשירות הזה במהלך עבודה על קליפ אנימציה ב-Deforum שהצריך לא מעט ניסוי וטעייה של רינדורים בני מאות פריימים – אתייחס בסקירה למה שנגע לצורך הספציפי שלי.
הצצה ראשונית ל-RunDiffusion
באתר RunDiffusion נוכל לפתוח סשן בענן של עבודה על ממשק Automatic1111 או InvokeAI (במדריך זה אתמקד באפשרות של Auto1111 שאיתה יש לי נסיון) בעלות של החל מ-0.5 דולר לשעה. שימו לב שהשימוש הוא כל עוד השרת פתוח ולא עבור זמן עיבוד כפי שאנו מכירים מ-Google Colab או מידג׳רני. אני מודה, הרעיון הזה מלחיץ בהתחלה, שעל כל שניה שעוברת משלמים כסף גם אם לא עושים כלום, אז קודם כל אנחנו מקבלים רבע שעה ראשונה חינם כדי להבין איך בכלל עובד הדבר הזה. שנית, כשחושבים על זה – משמרת עבודה של 8 שעות תעלה לנו ארבעה דולרים בלבד. בזמן הזה תוכלו לייצר הרבה מאוד תוכן, וכאשר מדובר בפרוייקט מקצועי זה באמת סכום זניח. ישנן גם אפשרויות הרחבה ביחס לתשלום הבסיסי כמו שידרוג חומרה שמאיצה את העבודה (עד 2.5 דולר לשעה) והצטרפות ל״מועדון יוצרים״ בעלות 36 דולר לחודש, שבגדול נותן לכם 100GB אחסון לטווח ארוך ומאפשר לכם גם אימון מודלים אישיים וגם התקנת כל תוסף שתרצו, וגם שישה דולרים קרדיט ראשוני לעבוד איתו. אז כן, מדובר בתשלום לא קטן ביחס למה שאנחנו מכירים מעולם המחוללים אבל זה לגמרי תלוי פרוייקט, ובמקרה שלי – הלכתי על זה בשביל הראש השקט.
הממשק של RunDiffusion
למכונה לוקח 2-4 דקות להיפתח, אפשר ללכת להכין קפה, ואז תקבלו צליל של פעמון חביב שמזמין אתכם להיכנס פנימה. למעלה תראו שעון שמתקתק (תוכלו להגביל אותו מראש למספר שעות ליתר בטחון) ואפשר לעצור או לבקש הארכת לזמן השימוש. הממשק של Automatic1111 מצריך לימוד ולא תקבלו יותר מדי הסברים באתר. לצד הממשק ישנה גישה למערכת הקבצים שם תמצאו את כל התמונות שתייצרו ובמידה ואתם חברים במועדון היוצרים, תוכלו גם להעלות מודלים משלכם כדי להשתמש בהם. התוספים החשובים כמו Deforum ו-ControlNet מותקנים כבר ואפשר להתקין תוספים נוספים מתוך רשימה נבחרת או כל תוסף שתרצו אם אתם במועדון.
החוויה סה״כ חלקה, אבל לפעמים שימוש לא מדוייק יכול להביא לשגיאות בממשק. במקרה הזה תצטרכו להסתכל בתוך קובץ ה-logs.txt כדי לקבל את הודעות השגיאה. אפשר לקבל פיד רציף של ה-logs אם תפתחו את ה-shell עם פקודת tail. בנוסף צריך להכיר את הדרך לגשת לקבצים דרך הממשק, צריך לשלב את הנתיב ״/mnt/private״ בתחילת שם הקובץ כדי להגיע.
היה לי נסיון לא מוצלח להעלות מהמחשב שלי מודל אישי בגודל של כמה GB, משום מה כל פעם ההעלאה הפסיקה באמצע, אבל בסוף פתרתי את זה באמצעות פקודת gdown שמאפשרת הורדה ישירה של קובץ מגוגל דרייב ואז זה עבד ממש מהר.
חשוב לא לשכוח לכבות את השעון כשסיימתם לעבוד. לסגור את חלון הדפדפן לא מספיק וחבל על הקרדיטים שילכו לאיבוד. בכל מקרה בכל פעם יש מגבלה אוטומטית ומקסימום השימוש ייפסק מאליו אחרי בזבוז של דולר או שניים.
איך עובדים עם הממשק בפועל?
רוב התמיכה וההדרכה אפשר לקבל בשרת הדיסקורד של החברה, כמו גם באמצעות סרטוני יוטיוב רלוונטיים. ויש גם הדרכה באתר לנושאים המרכזיים.
לפרוייקטים ממש רציניים אפשר גם להקים סשנים נוספים במקביל ולשלם כמובן על כל סשן בנפרד לפי הקרדיטים שרכשתם, למשל אם תרצו לחקור כיוון מסויים לאנימציה דרך כמות גדולה של פריימים אפשריים ובמקביל תרצו לרנדר אנימציה שלוקחת זמן, תוכלו לבצע כמה משימות במקביל דרך ריבוי סשנים.
פתרון אלגנטי וחוויית יצירה חלקה
אחרי שמתרגלים לטוויקים הקטנים שדורשת התאמה לממשק בענן – אפשר להנות מחווית יצירה חלקה עם מעבדים חזקים שעובדים ברקע. כאמור, זה בהחלט לא פתרון אידאלי לכל אחד אבל לדעתי זה פתרון אלגנטי לשימושים כבדים. מוזמנים להצטרף לשרת הדיסקורד ולהתרשם מהפעילות של הקהילה כאן.