מחוללי תמונות מבוססי טקסט ובינה מלאכותית הם כבר דבר שבשגרה. תחום שעד לפני מספר חודשים לא היה מוכר כמעט לאף אחד מאיתנו, מאפשר עכשיו לכל אחת ואחד ליצור דימויים ויזואליים ברמה גבוהה באמצעות מספר מילים בלבד. המחולל הבולט הראשון שהגיע לשימוש ההמון היה DALL-E של OpenAI, אך מאז מעט נשכח לטובת מחוללים אחרים כמו Midjourney ו-Stable Diffusion.
לאחרונה, בעקבות גרסה חדשה שעתידה להיות משוחררת לציבור בקרוב, ובמקביל לשיתוף פעולה מעניין בין OpenAI למיקרוסופט, זוכה המחולל דאלי לעניין מחדש.
קצת רקע: מי אתה DALL-E?
כאמור, דאלי הוא מחולל תמונות של OpenAI שהוקמה ב-2015 ומטרתה פיתוח והנגשת כלי בינה מלאכותית. החברה השיקה את המחולל בינואר 2021 הודות לפיתוח מודל השפה הטבעית GPT-3 שעליו הכריזה בשנת 2020. ביולי 2022 שחררה החברה גרסה נוספת, משופרת בהרבה, בשם DALL-E 2.
העולם הגיב להשקות של OpenAI בהתלהבות רבה. אנשים שקיבלו גישה לממשק של דאלי תיארו מודל מהפכני, והתקשורת אפילו החלה להעלות תהיות לגבי המחולל, כמו האם DALL-E הוא אמן או מחשב, ואיך הוא משנה את ההבנה שלנו על היחס בין שפה לתמונה. דאלי לא קצר רק שבחים. היו שהעלו תהיות לגבי האתגרים שיציב המחולל בעיקר בתחום האתיקה וזכויות היוצרים על תמונות שנוצרו ב-AI, אך לא התכחשו לעובדה שמדובר באחד מהכלים החשובים ביותר בתחום הבינה המלאכותית בשנים האחרונות.
יתרונות ותכונות שימושיות
מעבר להיותו מודל בינה מלאכותית חדשני ליצירת תמונות מתוך טקסט, כך שהמשתמש מזין תיאור טקסטואלי ומקבל בתגובה דימוי חזותי, המחולל DALL-E מאפשר עוד מספר שימושים יצירתיים ומתקדמים.
שתי תכונות בולטות במיוחד ב-DALL-E הקשורות לעריכת תמונות קיימות הן Outpainting ו-Inpainting. התכונה הראשונה מאפשרת ליצור ולהשלים פרטים וחלקים של תמונה הנמצאים מחוץ למסגרת המקורית. לדוגמה, להרחיב תמונות שבהן המצולם אינו ממורכז, או שחלק מהראש שלו נחתך ונמצא מחוץ לתמונה.
התכונה השניה, Inpainting מעניינת ושימושית לא פחות. באמצעותה אתם יכולים לסמן אזור מסוים בתמונה, ולערוך אותו בהתאם למידע שקיים בתמונה מסביב. לדוגמה, לא אהבתם השעון שעל הקיר? סמנו אותו, וכתבו בפרומפט לאיזה סגנון שעון אחר תרצו להחליף. בנוסף, תוכלו להשלים פריטים שחסרים בתמונות, כמו להוסיף אוביקט מסוים בצורה חזותית טבעית שמתאימה לסגנון התמונה.
דאלי ביחס למחוללים אחרים
DALL-E היה כנראה החלוץ בתחום מחוללי התמונות מבוססי בינה מלאכותית ששוחררו לשימוש נרחב. כיום, מחוללי תמונות כמו Midjourney וסטייבל דיפיוז’ן התעלו עליו במספר רמות, כאשר ניתן לומר שבעוד שהשניים האחרונים מתמקדים ביצירות מציאותיות, דאלי מצטיין ביצירות אמנות. בכל מקרה, הוא התווה את הדרך והעניק השראה למחוללים אחרים, בעיקר בתחום עריכת התמונות וממשק המשתמש. דוגמה מצוינת לכך הוא מחולל התמונות leonardo.ai המציע ממשק עריכה עם תכונות דומות לאלו של DALL-E.
גרסה משופרת ושת”פ מעניין
בתקופה האחרונה עבדו צוותי OpenAI על גרסה חדשה, משופרת בהרבה עבור DALL-E. הגרסה זמינה בשלב הזה למספר נסיינים מצומצם בלבד, ומציגה יצירות ריאליסטיות בצורה טובה יותר. אך מי שבכל זאת רוצה להתנסות בגרסה הזו, יכול לעשות זאת גם כעת, הודות לשיתוף פעולה מעניין שנוצר בין מיקרוסופט ל-OpenAI. הראשונה שילבה מספר כלים של השניה בתוך הפלטפורמות השונות שלה. אחת מהן, מנוע החיפוש בינג, משלב כעת את היכולות של DALL-E בגרסתו החדשה היישר מממשק הצ’אט, ואפילו יכול לסייע לכם בכתיבת פרומפטים טובים יותר עבור מחוללי תמונות.
וזה לא נגמר רק בצ’אט. מיקרוסופט יצרה ממשק ייחודי משלה, Bing Create, המבוסס גם הוא על דאלי החדש, ומאפשר יצירת מגוון תמונות בצורה מהירה משמעותית ממחוללים אחרים. בלינק הבא תוכלו להשתעשע עם הכלי של מיקרוסופט, ואם תרצו להשתמש בגרסה הציבורית הרגילה של דאלי (בתשלום, חלקית), תוכלו לעשות זאת מכאן.
לחצו כאן כדי לעבור למדריך המלא למתחילים ליצירה ועריכה עם DALL-E.