דיפ-פייק (DeepFake) היא טכנולוגיה המאפשרת ליצור קטעי וידאו מפוברקים של דמויות שאומרות דברים שלא היו ולא נבראו, ומעוררת עניין רב בגלל הפוטנציאל המסוכן שבה. היא קיימת כבר מאז הדור הקודם של הבינה המלאכותית, בתקופה שבה ה-AI (בינה מלאכותית) היה פחות באז-וורד והמילה “,דיפ” שימשה בתור כינוי לכל מה שמנצל “רשתות נוירונים עמוקות” או במילים אחרות “למידה עמוקה” (Deep Learning) כדי לנתח נתונים או ליצור תוכן. מכאן מקור השם דיפ-פייק – זיוף שנשען על יכולות של למידה עמוקה.
בסקירה זו אציג את פרטי הטכניקה ואראה עד כמה זה קל ונגיש היום לכל אחד בחינם ומכל מחשב (אפילו מהטלפון הנייד) ליצור Deep Fake משלו. עם זאת אבהיר שאין בסקירה זו כל עידוד ליצור תכנים לא נאותים, ואזהיר שכדאי לשים לב טוב מאוד מה אנחנו עושים עם הטכנולוגיה הזו – לא מפרים זכויות יוצרים או מייצרים תוכן בעייתי. קחו את זה לתשומת ליבכם ותהיו אחראיים.
יצירת וידאו DeepFake
קיימים היום מספר כלים נגישים ליצירת וידאו מזויף של דמות מדברת, שבה ניתן לקחת דמות מסוימת ולגרום לה להפוך לווידאו, או אפילו לקחת סרטון ולגרום לו להניע את השפתיים בצורה שונה מהמקור. להלן אסקור את הכלים הבולטים והיעילים שמתאימים לכך.
D-ID: הנפשת תמונה סטטית
D-ID היא חברה ישראלית שפיתחה כלי שלוקח תמונה סטטית ומנפיש אותה על פי הקלטה (מוכנה מראש, או סינתטית. על כך בהמשך). היתרון של הטכניקה הזו הוא שלא תצטרכו לצלם כלום או לספק סרטון כלשהו ולכן זה מאוד קל ונגיש אבל החיסרון הבולט שלה זה שברוב המוחלט של המקרים זה פשוט נראה לא טבעי. אולי בעתיד הכלי ישתפר ויתפתח עוד, אבל כרגע זה עדיין לא שם.
אם לא תרצו להוציא כסף על מנוי ב-D-ID, ישנה גם חלופה חינמית ל-D-ID בקוד פתוח שעושה את אותה הפעולה בדיוק, ונקראת Sad Talker.
דיבוב שפתיים באמצעות Wav2Lips
Wav2Lips היא ספרייה בקוד פתוח שלוקחת וידאו קיים ומשנה בו רק את תנועות השפתיים בהתאם לקטע מוקלט מראש. היתרון שלה הוא ריאליזם גבוה יותר מהאפשרות הקודמת כיון שמדובר בתנועות טבעיות של הדמות כפי שהתקיימה בסרטון המקור, אבל תנועות השפתיים לעיתים נראות לא איכותיות, וגם יש בעיה שכאשר הדמות לא מדברת, עדיין מזהים רטט כלשהו בשפתיים שמגיע מהווידאו המקורי.
יתרון נוסף של Wav2Lips הוא שזה לא דורש מכם לצלם וידאו, אלא מספיק שתהיה לכם גישה לאיזשהו סרטון של אדם שתרצו לגרום לו להיראות כאילו אמר דברים שלא אמר.
הטכניקה הותיקה שמוכיחה את עצמה: Face Swap
הטכניקה הוותיקה והמוצלחת ביותר נקראת Face Swap וקיימת באפליקציות ואתרים שונים. מה שהיא עושה בפועל זה להחליף את פני המצולם בסרטון בפנים שאתם בוחרים ומגדירים בעצמכם. לאחרונה שוחררה גם ספריית קוד פתוח בשם ROOP שעושה את זה מדהים. הטכניקה דורשת קטע וידאו מצולם ותמונה של האדם שאותו רוצים להלביש על הווידאו. צריך לשים לב שהדמות בווידאו צריכה להיות קרובה מבחינת צורת הפנים, שיער, מבנה גוף וכו’ לדמות המוחלפת בגלל שהאובייקט המשתנה בעת ההחלפה הוא רק תווי הפנים ולא יותר מזה.
יצירת קול DeepFake
באופן דומה לווידאו, ישנן כמה טכניקות שנועדו ליצור דיבור שלא הוקלט מעולם. להלן הבולטות והיעילות שבהן.
הטכניקה הותיקה Text to Speech
במקביל ל-D-ID או Wav2Lips – הטכניקה הוותיקה Text to Speech היא דיבור סינתטי שנוצר בידי המחשב. הטכנולוגיה הזו קיימת כבר עשרות שנים ברמה כזו או אחרת ומה שהתחדש בשנים האחרונות הוא היכולת לאמן מודל על קול ספציפי עם אופי של אדם ספציפי. הטכנולוגיות השונות בתחום מאפשרות לעשות זאת במנעד רחב של רמות איכות ודרישות מהמשתמש. יש אלגוריתמים שמסתפקים במעט מאוד, למשל כמה שניות בודדות של דיבור של אדם כלשהו, כדי לאמן מודל שמסוגל ליצור הקלטה של כל מה שנרצה שאותו אדם יגיד. האלגוריתמים הללו שהוכחו כאפשריים ע”י מייקרוסופט ומטא נותרו לא נגישים בשל חשש לשימוש לרעה. אבל תהיו בטוחים שהדברים האלה יועתקו או ידלפו בקרוב.
כיום יש כמה אתרים כמו Play.ht או ElevenLabs (בקוד פתוח נוכל למצוא את Uberduck) שנותנים את האפשרות לעשות Voice Cloning שזה למעשה תהליך של אימון על הקלטות עד שיש לנו מודל שמסוגל לדבר מה שכותבים לו. הטכניקות הנגישות עדיין לא תומכות בעברית במובן הזה, אבל בשפות אחרות זה כבר עובד מדהים ויש יוצרי תוכן ששכפלו את הקול שלהם ובכך יכולים לנוח בזמן שהדמות שלהם ממשיכה להריץ דאחקות בפודקאסט הקבוע שלהם.
Voice Convert: החלפת קולות
במקביל להחלפת תווי פנים ישנה גם אופציה להחלפת “תווי קול”, Voice Convert. האופציה קיימת גם בתחום הדיבור וגם בתחום השיר (אפשר לקחת שיר של זמר אחד ולהלביש עליו קול של זמר אחר, או להקליט את עצמכם שרים שיר ולגרום לזה להישמע כאילו זמר אחר שר אותו). בשיטה הזו תצטרכו להביא הקלטה מוכנה או להקליט את עצמכם ואז להחליף אותה במודל שאומן על אדם מסוים, או על עצמכם. כלי בקוד פתוח שמאפשר את זה נקרא RVC ובתשלום יש לנו את Voicify או Musicify (איזה צירוף מקרים, אה?). זו טכניקה מועדפת בגלל הריאליזם הגבוה שלה והיכולת לשלב שינויים טבעיים בטונציה – מה שקשה יותר בטכניקה הקודמת. כמו כן, היא מאפשרת גם דיבור בעברית ובעצם בכל שפה.
אבל גם במקרה של החלפת קולות, כדי להגיע לתוצאה טובה צריך חיקוי קרוב של המקור, בדומה לרעיון של החלפת פנים. באופן הזה נוצר סרטון למשל של ביבי נתניהו שמדבר כמו ילד קטן.
עד כאן הכלים שעונים על השאלה איך ליצור DeepFake. יצרתם משהו נחמד שלא מפר חוקים או זכויות יוצרים? שתפו אותנו בתגובות!
הערה לגבי קוד פתוח: כל ספרייה שמפורסמת בקוד פתוח ניתנת לשימוש בחינם (לעיתים תחת תנאים מגבילים לשימוש מסחרי או באופן אחר) אבל דורשת איזשהו מחשב או שרת שיפעיל אותה. למי שיש מחשב חזק מספיק – אפשר להוריד ולהריץ מקומית, ויש גם שירותים בענן שירצו את הקוד עבורכם למשל “גוגל קולאב” שנותן כמות מסויימת של שימוש חינם לכל משתמש גוגל.