אם גם אתם מצאתם את עצמכם מכורים ליצירת תמונות באמצעות בינה מלאכותית, ודאי שמתם לב שלעתים קרובות התוצר שקיבלתם לא תואם במדויק את הציפיות שלכם. בין אם ביקשתם סגנון ריאליסטי וקיבלתם סגנון מופשט, ובין אם ביקשתם תמונה של ילדה מחייכת וקיבלתם אחת עצובה במיוחד. החדשות הטובות הן שהדברים האלו ניתנים לשינוי באמצעות (איך לא?) ה-AI. היכרות מעמיקה יותר עם כלי העריכה שמעניקים לנו מודלי הבינה המלאכותית מאפשרת לנו שליטה מדויקת הרבה יותר על התוצרים שלנו באמצעות עריכת תמונות בבינה מלאכותית.
לא רק טקסט לתמונה
הגישה הבסיסית של מחוללי התמונות היא יצירת תמונה מתוך טקסט, מה שמכונה Text-to-Image. אבל תכונה נוספת שקיימת במחוללים הבולטים נקראת Image-to-Image. במילים פשוטות, מדובר בתכונה שמאפשרת לערב בתהליך היצירה החדשה תמונה קיימת שהמנוע צריך להתחשב בה ולקבל ממנה השראה.
במדריך שלהלן אסביר ואפרט כל מה שאתם צריכים לדעת לגבי עריכת תמונות שכבר יצרתם בבינה מלאכותית, וכעת רוצים לערוך ולשפר עוד יותר. הכל באמצעות מספר טכניקות של Image-to-Image שבאמצעותן נקבל שליטה ודיוק גבוהים יותר בתוצאה.
הגישה של DALL-E 2: עורך מתוחכם
אם עדיין לא השתמשתם ב-DALL-E אז כדאי שתכירו. מדובר במחולל התמונה הראשון שפרץ לתודעת ההמון, והוא נותן לכל משתמש חדש 50 קרדיטים ראשוניים להתנסות איתם. בהמשך בכל חודש תקבלו עוד 15 קרדיטים חדשים, כך שלשימוש מזדמן – יתכן שתוכלו להסתפק בחשבון החינמי. על אף שהתוצאות של דאלי ביצירה חדשה לא מאוד איכותיות ביחס למתחרים, יש לה כשרון מיוחד בכל מה שנוגע לעריכה של תמונה קיימת וזו הסיבה שהתחלנו איתה. הכניסה היא דרך האתר של OpenAI כאן.
בדאלי, ניתן להעלות תמונה חדשה באמצעות לחיצה על Upload an Image. כעת נוכל לבחור בין 2 אפשרויות: יצירת ואריאציות חדשות מתוך התמונה, או עריכת התמונה. ואריאציות זה אופציה חביבה אבל לא מצאתי לה הרבה שימושים מעשיים, לעומת זאת אופציית העריכה שימושית מאוד גם כתהליך בפני עצמו וגם כחלק מתהליך יצירה ארוך יותר שיכול להתחיל גם במחולל אחר ולהמשיך כאן.
אחרי שלחצתם על Edit Image תתבקשו לבצע חיתוך ריבועי בתמונה Crop. הריבוע הוא בגודל 1024×1024 פיקסלים, שזהו שטח העבודה של דאלי. אם נכנסתם מהמחשב אתם יכולים לדלג על החיתוך ובכך לשמר את התמונה המקורית שלכם באיכות מלאה, אבל קחו בחשבון שתהליך העריכה מתרחש רק בתוך הריבוע של שטח העבודה.
הצעד הבא הוא למקם את שטח העבודה שלכם באזור מסוים בתמונה (במידה ולא ביצעתם חיתוך מקדים) ולקחת את כלי המחק ופשוט למחוק את האזור שתרצו לערוך.
בשלב הזה תצטרכו להזין פרומפט בתיבה העליונה. שימו לב: הפרומפט מתייחס למה שנמצא בתוך שטח העבודה, ולא רק לאיזור שמחקתם. כך שלמשל אם יש לכם בתמונה ילד ותרצו דינוזאור שיופיע מאחוריו: עליכם לפנות שטח לדינוזאור להופיע עליו בעזרת המחק ואז לכתוב בפרומפט משהו כמו “A kid with dinosaur behind”. ולא רק “Dinosaur”.
השלמת פריטים בתמונה בהתאם לסגנון
עוד דבר שחשוב לדעת כאשר מבצעים עריכת תמונות בבינה מלאכותית בדאלי: כדי שההשלמה שלו תהיה מוצלחת, אתם צריכים להשאיר בתוך שטח העבודה כמה שיותר מוטיבים מהתמונה המקורית. דאלי מבצע “למידה” של השטח שלתוכו הוא צריך לבצע את ההשלמה באמצעות אותם מוטיבים. אם מדובר בתמונה מצולמת, דאלי ישתדל לתת לכם השלמה ריאליסטית, אם מדובר בציור הוא ינסה ללמוד את סגנון הציור דרך החלק שהשארתם, ולכן חשוב שיהיה בשטח העבודה מגוון של פרטים שדאלי יוכל ללמוד מהם.
אחרי שתלחצו על כפתור Generate תקבלו 4 אופציות לבחור מתוכן. אם לא אהבתם אף אחת, נסו לפנות קצת יותר מקום, או לבחור שטח שיש בו די פרטים ללמוד מהן, או פשוט לנסות ליצור שוב ולראות אולי הפעם תקבלו משהו טוב.
סטייבל דיפיוז’ן: שליטה מלאה בעריכה
היכולות של מודל הבינה המלאכותית Stable Diffusion מגוונות מאוד מכיוון שמדובר במודל קוד פתוח שמדי פעם יוצאים עבורו תוספים חדשים, בין השאר בתחום העריכה. במדריך הזה ניגע בחלק מהתכונות. כדי ליצור בסטייבל דיפיוז’ן, נוכל לעשות זאת באמצעות מגוון אתרים שמתבססים על המודל. אחד האהובים עליי באופן אישי הוא playgroundai.com בגלל הפשטות.
כאשר אנו מחוללים תמונה באזור היצירה באתר Playgroundai, נוכל למצוא בצד שמאל למטה את האזור של image-to-image – לשם נעלה תמונה קיימת. מתחת לתמונה שתופיע ישנו פס שמכונה Image Strength שמייצג באחוזים את ההשפעה של התמונה על היצירה החדשה.
רגע, אבל איך בכלל עובד המודל Stable Diffusion?
כדי להבין טוב יותר את הכלי הזה, מומלץ לחזור מעט לבסיס ולהבין איך עובד המודל: כל תמונה חדשה שנוצרת מתחילה משטח מלא ב”רעש” (Noise) שהוא בעצם אוסף נקודות צבעוניות רבות. הנקודות הללו נוצרות מתוך מספר שנקרא Seed (גרעין) שלרוב הוא מספר אקראי, אבל יש לנו אפשרות לבחור גם אותו במידה שנרצה. המספר קובע את צורת ה”רעש”, ומשם מתחילים צעדים (Steps) לייצור התמונה. בכל צעד יש “ניקוי” של הרעש, שבעצם עובד הפוך מ”הוספת רעש” בעולם התמונות, ובמקביל המודל מנסה לאתר דפוסים בתוך התמונה שמתאימים לפרומפט שהוגדר. אחרי כמות הצעדים שהוגדרה, התהליך נעצר ואנחנו מקבלים את התוצר הסופי.
כאשר נרצה לבצע עריכת תמונות בבינה מלאכותית ונכניס תמונה ב-image-to-image, היא בעצם משתלבת בתוך התהליך הזה, על פי מידת העוצמה (Image Strength) שנתנו לה. למשל – לתמונה עם עוצמה 50, המודל יוסיף רעש כך שתהיה לנו תמונה שהיא 50% אחוז רעש, 50% תמונה, זה אומר שצורת הרעש תזכיר במידת מה את התמונה המקורית, בקווים כלליים, ומכאן והלאה מתחיל תהליך ה”ניקוי” לגילוי התמונה החדשה. מכיוון שנקודת הפתיחה הייתה דומה לתמונה שאנחנו הבאנו – גם התמונה החדשה תצא קרובה לשם. אם נניח היה כתם אדום במרכז התמונה הראשונה – כנראה שגם בתמונה החדשה נקבל משהו אדום באזור ההוא, וכן הלאה.
בשיטה הזו נוכל לשלוט טוב יותר בתוצר הסופי. נוכל למשל לצייר איזשהו אזור ירוק בתחתית התמונה (אפילו באפליקציית ציור פשוטה מאוד) ומעל זה אזור כחול, במרכז הירוק נצייר איזה כתם חום, ואת הסקיצה הזו נזין פנימה ונבקש בפרומפט ״Horse standing outside״. ואז באזור החום שלנו כנראה יתפתח סוס, הכחול יהפוך לשמיים, והירוק לדשא ובאופן הזה השגנו שליטה על כל אובייקט בתמונה, מה יהיה הגודל שלו והמיקום שלו.
אם התוצאה שקיבלתם לא מוצלחת נסו לשחק עם עוצמת תמונת המקור. זה מאוד משמעותי למצוא את ההגדרה המדויקת, והדרך להגיע לשם זה ניסוי וטעייה.
pix2pix Instruct: הנחיות טקסט לעריכה
אם נלחץ על Import image to edit ב-playgroundai עבור תמונה שלנו, או על כפתור edit בתמונה שיצרנו באתר, נגיע לתכונה חדשה המאפשרת לנו לבצע עריכות דרך פרומפט שמתאר שינוי. למשל ״Change the color of the hat to blue״ או “Make the dog to be cat”. בנוסף, נוכל לסמן באמצעות “מסיכה” את האזור הספציפי שבו יחול השינוי וכך להגיע לדיוק טוב יותר. זו תכונה ממש מעניינת, אבל יש צורך לשים לב שהיא לא תמיד מבצעת את המשימה בצורה טובה.
מידג’רני: השראה ללא שליטה
למחולל התמונות מידג’רני יש גישה מאוד מעניינת כשזה קשור לעבודה עם תמונות קיימות. Midjourney לא מאפשר לנו להתערב באופן מדויק ביצירה שלו, אבל הוא יכול לקבל “השראה” מתמונות שאנחנו נותנים לו באמצעות קישורים בתחילת הפרומפט. ההמלצה שלי היא להעלות את התמונות לשרת הדיסקורד ואח”כ לקשר אליהן כפי שהן בדיסקורד, בתחילת הפרומפט. הנה מדריך המסביר איך לעשות את זה.
אופציה נוספת שמאפשר המחולל הוא הפקודה blend/, שבה מעלים מספר תמונות, וכתוצאה תקבלו תמונה החדשה המערבת את המוטיבים השונים מהתמונות שהבאתם – כיד הדמיון הטובה על מידג’רני. זו אמנם דרך נוחה אבל היא לא מאפשרת לכם להוסיף מלל ב-Prompt.
אם שתי האופציות הקודמות לא מספיקות לכם, דרך מדויקת יותר לערוך תמונות במידג’רני היא באמצעות תכונת ה-remix. הרמיקס עובד ברגע שאתם מבקשים וואריאציות נוספות לאחת האפשרויות שקיבלתם בתוצאה, דרך הקשה על כפתור V. אם פונקציית הרמיקס דלוקה, אחרי שתלחצו על V תיפתח לכם חלונית בה תקבלו הזדמנות לתקן את הפרומפט עבור התמונה החדשה שתרצו לקבל. התוצאה תהיה קרובה מאוד למקור, ועם השינוי שביקשתם. שימו לב לא לערוך את הפרומפט יתר על המידה, כי אז התוצאה תהיה לא הגיונית. כדי להפעיל את אופציית הרמיקס גשו להגדרות דרך פקודת settings/ או שפשוט כתבו prefer remix/ (כאשר קריאה נוספת לפקודה הזו מכבה את האופציה).
לא רק בינה מלאכותית: כלים נוספים לתיקון תמונות
משום מה יש נטייה למשתמשים לחפש את כל הפתרונות בכלי בינה מלאכותית ומחוללי תמונה, אבל לפעמים תוכלו לבצע תיקון קטן וחשוב בכלים מסורתיים כמו פוטושופ או אתרים שונים ברשת. בואו נזכור שהבינה מלאכותית נועדה להפוך את חיינו לקלים ונוחים יותר ואיפה שהיא משרתת אותנו נאמץ בשמחה, אבל איפה שאפשר לפתור את הבעיה בצורה קלה יותר עם כלים אחרים – אין סיבה להימנע מזה. במקרה מסוים מצאתי את עצמי מתקן חיוך בפוטושופ עם כלי השליטה על תווי פנים שם. ופעמים רבות אנשים מקבלים טקסט באמצע התמונה והם רוצים למחוק אותו – וזה פתיר בקלות בפוטושופ. אז שוב – אל תחששו.
בין הכלים הנוספים שמומלץ להכיר נמצא את: Vectorizer.ai שיהפוך גרפיקה לוקטור עם איכות אינסופית (מתאים לסוג מסויים של גרפיקות, עם שטחי צבע שטוחים, כמו לוגואים או איורים בסגנון). חשוב גם להכיר את כלי ההגדלה (Upscaling) שיתנו לנו איכות גבוהה יותר ממה שמידג’רני מספק, כמו למשל Gigapixel של Topaz Labs.
בהצלחה!