סגור
באנר דסקטופ כלכליסט טק
דוגמאות לשילוב של חפצים אישיים במחוללי תמונות
הפיתוח של אנבידיה. דוגמאות לשילוב של חפצים אישיים במחוללי תמונות (צילום: אנבידיה)

פיתוח של אנבידיה בישראל מאפשר לשלב במהירות את הכלב שלכם במחוללי תמונות כמו Dall-E

לדברי פרופ' גל צ'צ'יק, מנהל קבוצת מחקרי ה-AI של אנבידיה בישראל, הפיתוח של החברה מאפשר "לאמן" את מודל השפה ללמוד כיצד נראה אובייקט אישי תוך שניות וללא צורך להשתמש בעשרות תמונות, בניגוד לפתרונות אחרים שקיימים בשוק

חוקרי אנבידיה (Nvidia) בישראל פיתחו פתרון שמאפשר למודלי טקסט לתמונה מבוססי AI, דוגמת Dall-E, לשלב חפצים פרטניים ואישיים בתמונות שהם מחוללים.
מודלים של בינה מלאכותית גנרטיבית כמו Dall-E או Stable Diffusion זכו בחודשים האחרונים לתשומת לב תקשורתית וציבורית רחבה, הודות ליכולתם לחולל תמונות יצירתיות במיוחד על סמך הוראות טקסט פשוטות. ואולם, מגבלה משמעותית של מודלים אלו היא שהם יכולים לעשות שימוש רק בחפצים גנריים. כלומר, אפשר לבקש מהמודל ליצור תמונה של כלב מבשל, אבל משתמש לא יכול לבקש ממנו ליצור תמונה של הכלב האישי שלו מבשל.
"באנבידיה הבינו שהרבה פעמים משתמשים לא מבקשים לייצר תמונה כללית, אלא דברים רלוונטיים, כמו הכלב האישי שלהם למשל. או חברת צעצועים שרוצה לחולל תמונות שמשלבות את אחד המותגים שלה, דובי פרי עיצובה ולא סתם דובי כללי", אמר פרופ' גל צ'צ'יק, מנהל קבוצת מחקרי ה-AI של אנבידיה בישראל, בשיחה עם עיתונאים ישראלים היום.

1 צפייה בגלריה
פרופ' גל צ'צ'יק, מנהל קבוצת מחקרי ה-AI של אנבידיה בישראל
פרופ' גל צ'צ'יק, מנהל קבוצת מחקרי ה-AI של אנבידיה בישראל
פרופ' גל צ'צ'יק, מנהל קבוצת מחקרי ה-AI של אנבידיה בישראל
(צילום: אנבידיה)

"אפשר לנסות לתאר את המוצר המבוקש במילים, אבל מודלים יתקשו לתפוס את כל התיאור החזותי של המוצר. התיאור המילולי תמיד יהיה עני יותר".
הפתרון שפיתחו צ'צ'יק ועמיתיו באנבידיה מאפשר להם לקשר מודל טקסט לתמונה קיימת, ללמד אותו לשייך מילה חדשה לחפץ פרטני ולשלב אותו באלגוריתם, וכך להורות לו ליצור תמונות על סמך פרומפט שכולל את המילה הזו. צ'צ'יק, למשל, אימן את המודל לזהות את המילה "מקס" ככלב שלו, וכך יכל לבקש מהמודל ליצור תמונות כמו "מקס קורא ספר", "מקס מבשל ארוחה", או "מקס חובש כובע".
"הליך הלמידה נעשה בתוך שניות, במקום דקות בפתרונות אחרים שפותחו, ויכול להתבצע גם באמצעות תמונה אחת במקום מספר דו-ספרתי של תמונות", הסביר צ'צ'יק. "הפתרון שלנו גם קל משקל, 100 קילו-בייט של זיכרון, בניגוד לפתרונות אחרים דוגמת זה של גוגל שמאמן מחדש את כל המודל והוא מאוד כבד, 7 ג'יגה-בייט של זיכרון, כיוון שהוא מאמן את כל המודל מחדש. זה מאפשר לנו לאמן בקלות על הרבה יותר חפצים אישיים".
הפתרון של אנבידיה יכול להתממשק למודלי טקסט לתמונה קיימים. היום התפרסמו שני מחקרים מדעיים שמתארים את הפתרון של החברה, והיא מתעדת לשלב אותו במוצרים עתידיים שלה ולהנגיש את הקוד למפתחים על מנת שיוכלו לשלב אותו במודלים שלהם.