למידה הוליסטית: האם יכולת למידת המכונה עולה שלב?

ריח, דיבור ומגע: אלו השיטות שבהן ישתמשו בעתיד הלא רחוק כדי לאמן מודלים של בינה מלאכותית עבור יצירה מורכבת מקלט בודד אחד

לאחרונה פרסמו חוקרי בינה מלאכותית מטעם מטא, חברת האם של פייסבוק, מאמר מעניין לגבי היכולת של מודל AI ללמוד מתוך מספר מקורות שונים במה שנקרא למידה הוליסטית. זה הדהים אותי מאוד, ולכן סיכמתי אותו עבורכם להלן.

לבני אדם יש את היכולת ללמוד מושגים חדשים מכמה דוגמאות בלבד. בדרך כלל אנחנו יכולים לקרוא תיאור של בעל חיים ואז לזהות אותו בחיים האמיתיים. אנחנו יכולים גם להסתכל על תמונה של דגם לא מוכר של מכונית ולחזות איך המנוע שלה עשוי להישמע. זה בין השאר משום שדימוי בודד, למעשה, יכול “לקשר” יחד חוויה חושית שלמה שכוללת את כל החושים שלנו (ראייה, שמיעה, טעם, ריח ומגע) ולכן הלמידה מהירה יותר ומאפשרת חיבורים גם כשחלק מהנתונים חסרים. לדוגמא נשמע חתול מיילל ונדע שזה חתול גם בלי לראות אותו. 

למידה ממספר מקורות נפרדים במקביל

ב-Imagebind החליטו לחבר בין כמה שיטות של למידת מכונה כדי לייצר למידה מהירה יותר ומדוייקת יותר. המודל של אימג’בינד משלב שש מקורות אינפורמציה: טקסט, אודיו, מפת עומק, מפת חום ו-אי.אמ.יו (מערכת אלקטרונית אשר מודדת את הכוחות והמומנטים הפועלים עליה). כך המודל יכול לפרש תוכן בצורה הוליסטית יותר המחברת בין אובייקטים בתמונה לאופן שבו הם יישמעו, צורתם התלת-ממדית, עד כמה הם חמים או קרים ואיך הם נעים. זה מאפשר לשיטות השונות “לדבר” זו עם זו ולמצוא קישורים מבלי להתבונן בהם יחד. לדוגמה, אימג’בינד יכול לשייך אודיו וטקסט מבלי לראות אותם יחד (עד היום כדי ללמד מכונה הצמדנו את הטקסט לסאונד וככה ידענו שסאונד של חתול מחובר לטקסט “חתול”).

התנהגות זו של אימדג’בינד מאפשרת למודל להחליף או לשפר מודלים רבים של בינה מלאכותית על ידי שימוש בשיטות למידה שונות. לדוגמה, בעוד שמייקאסנס (דומה למידג’, דאלי וכו’) יכול ליצור תמונות באמצעות הנחיות טקסט, אימדג’בינד יכול לשדרג אותו ליצירת תמונות באמצעות צלילי אודיו, כגון צחוק או גשם.

זה יוצר הזדמנויות ייחודיות לג’נרט אנימציות מתוך תמונות סטטיות על ידי שילובן עם הנחיות שמע. לדוגמה, אפשר לקחת תמונה של שעון מעורר ותרנגול, ולהשתמש בהנחיית אודיו של תרנגול קורא כדי לזהות את התרנגול או בצליל של שעון מעורר כדי לזהות את השעון ולייצר רצף וידאו.

כמה דוגמאות כדי להבהיר את היכולות:

  1. מכניסים רק סאונד של אנשים צוחקים – מייצר סרטון וידאו של אנשים צוחקים
  2. תמונה של ילד + סאונד של גשם – מייצר סרטון של ילד בגשם
  3. תמונה של ציפור – מייצר סאונד של ציפור מצייצת

בעתיד: ריח ומגע כחלק משיטות הלמידה

המחקר הנוכחי עשה שימוש בשש שיטות למידה אבל החוקרים מאמינים שבעתיד הכנסת שיטות נוספות שמחברות חושים נוספים כמו מגע, דיבור, ריח ואותות גלי מוח, תאפשר מודלים עשירים יותר של בינה מלאכותית שמחקים באופן מדוייק יותר את למידת האדם. 

נכון לעכשיו, ישנו דמו, עבור מי שרוצה לחוות את המודל כאן. לינק למאמר המלא נמצא כאן.

פוסטים באותו נושא:

השאר/י תגובה

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

פופולרי עכשיו

Social Media Auto Publish Powered By : XYZScripts.com

ברוכים הבאים לבית של היוצרים ב-AI!

כאן תמצאו את כל המידע והמדריכים על כלי ה-AI המתקדמים ביותר עבור יצירת תמונות ודימויים

עוד לא הצטרפתם לניוזלטר שלנו?

בשליחת הטופס את/ה מאשר/ת קבלת דיוור הכולל הודעות ועדכונים מהאתר, כולל תוכן פרסומי. ניתן לבטל את הרישום בכל עת