ביום רביעי האחרון (6/12), Meta, חברת האם של פייסבוק, הציגה את מחולל התמונות החדש שלה, Imagine, המסתמך על טכנולוגית הסינתזה של מודל Emu שפיתחה Meta AI ומציג יכולות מתקדמות. מספר חודשים לפני כן, באוקטובר 2023, OpenAI שיחררה את הגרסה החדשה שלה למחולל התמונות שלה, DALL-E 3 שהביא איתו שיפורים משמעותיים באיכות התמונה, הוספת טקסט והבנת הקשר. ערכתי השוואה בין המחוללים להלן, עם המסקנות לגבי המחולל המנצח.
מחולל התמונות Imagine מול DALL-E 3
כאמור, המחולל החדש של Meta מבוסס על המודל Emu, שהוכשר על 1.1 מיליארד תמונות מפייסבוק ומאינסטגרם, מה שמאפשר לו ליצור תמונות חדשות ומדויקות מתוך טקסט. המחולל מונגש באמצעות ממשק אינטרנט בכתובת הזו. לאחר כתיבת הפרומפט (הנחיה), תקבלו ארבע תמונות כאופציה, בדומה למחוללים אחרים.
עם ההכרזה על המחולל Imagine, מטא הכריזה גם על כוונתה להוסיף סימן מים בלתי נראה לתמונות, במטרה להגביר את השקיפות ולאפשר מעקב טוב יותר אחרי התמונות שנוצרות באמצעות בינה מלאכותית.
נכון לכתיבת שורות אלו, הגישה למחולל של מטא הינה ללא עלות באמצעות חשבון מטא (פייסבוק או אינסטגרם), והשימוש בו פתוח רק למשתמשים בארצות הברית.
DALL-E 3
דאלי בגרסתו החדשה מביא עמו שורת שיפורים, בהם הטמעה ויכולת ליצור תמונות ישירות מהצ’אט למנויי ChatGPT Plus, וכן יכולות יצירה מתקדמות אחרות.
DALL-E 3 VS Imagine with Meta AI
אז יצאתי לערוך השוואה בין שני מחוללי התמונות, DALL-E 3 ו-Imagine, כדי לקבוע איזה מהם הוא הטוב ביותר בעיניי. הבדיקה נעשתה לפי פרמטרים מאוד ספציפיים, כמו יצירת תמונות של דמויות אנושיות, דמויות מפורסמות, שימוש במילים אסורות, תמונות עם טקסט, חיות ועוד.
סגנון, מהירות ודיוק
לפני שארד לפרטים, הדבר הראשון שניתן לראות הוא שמחולל התמונות של מטא מייצר תמונות במהירות גבוהה ביחס ל-DALL-E 3, מבלי להתפשר על איכות התוצאה. בנוסף, ניתן להבחין בהבדלים בסגנונות היצירה של שני המחוללים. ביכולת לבטא רעיונות דמיוניים או מופשטים דרך תמונות, DALL-E 3 מראה פוטנציאל גדול יותר. הוא מסוגל ליצור תמונות פנטזיות וסוריאליסטיות שמתרחקות מהוויזואליות היומיומית. לעומת זאת, התמונות של Imagine נוטות להיות מציאותיות ואמינות יותר.
Imagine with Meta AI מציע יכולת מיוחדת ליצירת דמויות אנימציה מפורסמות כמו טום וג’רי, וכן אפשרות להוספת טקסט לתמונות, אם כי זו תכונה שדורשת שיפורים, ו-DALL-E 3 יודע להתמודד איתה טוב יותר. בנוסף, הוא מצליח לייצר תמונות של כף יד בצורה מדויקת – משימה שמחוללי תמונות אחרים התקשו ועדיין מתקשים בה.
תוכן אלים, שינוי נקודתי וזמינות
שני המחוללים, גם DALL-E 3 וגם Imagine לא מאפשרים ליצור תמונות הכוללות תוכן למבוגרים, גסויות, כלי נשק ודמויות מפורסמות. שניהם גם לא כוללים יכולת Remix להמשך שימוש בתמונה ספציפית, או שינוי נקודתי בתמונות שנוצרו. עם זאת, נקודת זכות למחולל של Meta היא היכולת להוסיף דם על חפצים (בלבד).
יתרון נוסף כלשהו של דאלי 3 שמשמעותי בעיקר עבור משתמשי הקצה, הוא זמינותו בכל שפה, ובכל מדינות העולם, לעומת Imagine שזמין כעת רק בשפה האנגלית ובארצות הברית בלבד. עם זאת, Imagine, בתור כלי חינמי ברשת, נגיש יותר למשתמשים הכלליים, לעומת DALL-E שזמין ללא הגבלה רק באמצעות מנוי ChatGPT Plus, מה שנותן ל-Imagine יתרון בקרב חובבים ומשתמשים ממוצעים.
השורה התחתונה
לכל כלי יתרונות וחסרונות, וכל אחד ימצא בהם ייעוד שונה. עם זאת, מסקנתי היא שרמת איכות התמונה והבנת הבקשה ב-Imagine with Meta AI מתעלה על DALLE-3, מה שיכול להיות שימושי מאוד עבור אנשים המחפשים אלטרנטיבה ל-Midjourney שמצטיינת גם היא ביצירת תמונות מציאותיות.