לייטריקס מציגה: מודל טקסט לווידיאו ישראלי ראשון מבוסס AI
לייטריקס מציגה: מודל טקסט לווידיאו ישראלי ראשון מבוסס AI
המודל החדש, LTX Video, מסוגל לייצר סרטונים איכותיים בני 5 שניות לפי פקודת טקסט, בזמן קצר יותר מאורך כל סרטון. בניגוד למתחרות, את המודל של לייטריקס ניתן להריץ על מחשב ביתי עם כרטיס מסך איכותי, והוא מונגש בקוד פתוח. מייסד ומנכ"ל החברה, ד"ר זאב פרבמן: "אנחנו רוצים לפנות גם לחובבי AI שעובדים עם המחשב הביתי שלהם"
ארבע שניות עיבוד לסרטון של חמש שניות: לייטריקס הישראלית משיקה היום מודל טקסט לווידיאו, שלדברי החברה מסוגל לייצר סרטונים איכותיים על בסיס פקודות טקסט בזמן קצר יותר מאורך הסרטון עצמו. ובניגוד למודלים דומים שדורשים משאבי מחשוב רבים ויקרים ומופצים בקוד סגור, את המודל של לייטריקס ניתן להריץ על מחשב ביתי עם כרטיס מסך איכותי, והוא מונגש בקוד פתוח. "אנחנו רוצים לפנות גם לחובבי AI שעובדים עם המחשב הביתי שלהם", אמר ל"כלכליסט" מייסד ומנכ"ל החברה, ד"ר זאב פרבמן.
בפברואר חשפה OpenAI את סורה, מודל הטקסט לווידיאו מבוסס הבינה המלאכותית הגנרטיבית (GenAI) שמסוגל לספק תוצאות מרהיבות ואיכותיות הרבה יותר ממה שנראה קודם. בכך הציתה החברה, שוב, מהפכת AI שמאיימת להשפיע על תעשיות רבות. אולפנים הוליוודיים גדולים, למשל, כבר החלו לשלב מודלי טקסט לווידיאו בהליכי העבודה שלהם.
עתה, מצטרפת לזירה לייטריקס, עם השקת LTX Video – מודל טקסט לווידיאו ראשון פרי פיתוח ישראלי, שלדברי החברה כולל כמה יכולות שמקדימות מודלים אחרים שקיימים בשוק. אלו כוללות ייצור מהיר של סרטונים קצרים, כאשר זמן העיבוד קצר מאורך הסרטון שמופק, ויכולת להריץ את המודל גם על חומרה ביתית.
"המודל מייצג עידן חדש של וידאו מבוסס בינה מלאכותית", אמר סמנכ"ל הטכנולוגיה של החברה, ירון אינגר, בהודעה לעיתונות. "על ידי תכנון מודל קידוד וידאו חזק שמכווץ את הווידאו בצורה קומפקטית מאוד, השגנו מהירות חסרת תקדים תוך שיפור עקביות התנועה והרציפות החזותית. היכולת לייצר סרטונים מהר יותר ממהירות ההקרנה שלהם פותחת אפשרויות לשימושים מעבר ליצירת תוכן, כמו משחקים וחוויות אינטראקטיביות בביצוע רכישות אונליין, למידה או מפגשים חברתיים. אנחנו נרגשים לראות מה חוקרים ומפתחים יבנו על בסיס מודל היסוד הזה".
התוצאות שמספק המודל מרשימות. כך, למשל, בסרטון אחד נראית אישה שחורה לבושה בגדים לבנים, עומדת בסביבה משרדית ומדברת עם אישה אחרת שגבה למצלמה. באחר המצלמה נעה קדימה בעוד אדם שלגופו שיריון מיישר את גופו ואז מביט אל המרחק. בסרטון אחר, נראים שני שוטרים צועדים לאורך מסדרון, פניהם רציניות ועגומות. סצנות אחרות כוללות סנאי יושב על מדרכה, עדר פילים משוטט, מחנה של שבט ילידי באמריקה, או אדם נוסע ברכב עם נופים חולפים ברקע. כל הסצנות, הגם שקצרות – בנות חמש שניות בלבד – נראות כלקוחות מתוך סדרת טלוויזיה או סרט, כוללות מעברים מורכבים (למשל – בסרטון השוטרים פניהם נכנסות ויוצאות מצללים), ועל פניו קשה לזהות שמדובר בסרטון שנוצר על ידי AI.
לצד הוראות טקסט, הפרומפט של המודל יכול לכלול גם תמונת סטילס שמשמשת נקודת פתיחה ליצירת הסרטון. במקרה אחד, העלה פרבמן למודל תמונה של טיריון לאניסטר ממשחקי הכס (בגילומו של פיטר דינקליג'), עם הוראה לייצר סרטון שלו לוגם משקה מכוס. התוצאה: סרטון של טיריון לוגם משקה, שמעולם לא צולם. משיקולי זכויות יוצרים, החברה לא מפיצה סרטון זה. אם כי עצם קיום היכולת מייצר שאלות בנוגע להגנת זכויות יוצרים שלייטריקס וחברות אחרות בתחום ייאלצו להתמודד עמן במוקדם ובמאוחר.
הסרטונים שמתקבלים אמנם פחות מרשימים מהדוגמאות שהציגה OpenAI עם השקת סורה, אבל פרבמן לא סבור שמדובר בהשוואה נכונה. "דרך הרבה יותר הוגנת זה להשוות למודלים שכבר נמצאים בחוץ", הוא אמר. "סורה כרגע זה רק שיווק, הם הציגו חומרים שיווקיים. לפני שנה וחצי התזה היתה ש-AI יזכה באוסקר. זה לא הולך לקרות, כי אנחנו עדיין לא באיכות הפקה".
למה אפשר לג'נרט רק קליפים של חמש שניות?
"המערכת למדה לייצר 41 עד 257 פריימים. אפשר לייצר סרטונים של 11 או 12 שניות, אבל אם עושים את זה התוצאה הסופית יכולה לכלול יותר טעויות. ככל שמייצרים יותר פריימים יש יותר סיכוי לקבל שגיאות. זה תלוי גם במורכבות של הסצנה. אם זו סצנה לא מורכבת עם אובייקטים נייחים, השגיאות מצטברות יותר לאט".
יתרון מרכזי של LTX Video הוא התגובה המהירה שלו. "פיתחנו מודל שמאפשר עבודה אינטראקטיבית מול מערכות ושמאפשר לשנות דברים מאוד מהר", אמר פרבמן. "זה דבר שאי אפשר לעשות עם מודלים אחרים. אם צריך לחכות 5 דקות אחרי כל פרומפט, זה לא מתאים לעבודה שוטפת. במודל שלנו, לוקח יותר זמן לראות את הווידיאו מאשר לג'נרט אותו. זה מאפשר עבודה מהירה מאוד, לייצר הרבה סרטונים ולחבר אותם ליצירה שלמה. בסוף התהליך, אפשר לעשות שימוש במודל הרבה יותר כבד, להזין בו את מה שיצרת ואז לתת לו לעבוד כמה זמן שצריך כדי לתקן את העיוותים. זה מודל שנוח לעבוד עליו, שאנשים באקדמיה יוכלו בקלות לעבוד אתו כי לא צריך חומרה מתוחכמת כדי להריץ אותו. בהמשך נוציא מודל יותר גדול ויותר איכותי שיאפשרו לשפר את התוצרים של המודל הקיים".
נקודת חוזקה נוספת מבחינת לייטריקס הוא הנגשת המודל בקוד פתוח. "כש-OpenAI חשפו את המודלים שלהם ב-2022 היה רגע של אופוריה ש-AI יהיה פתוח ונגיש לכולם", אמר פרבמן. "אבל בפועל, OpenAI החליטו לנסות למנף את היתרון הטקטי שנוצר להם, והם ואחרים סגרו את המודלים שלהם והגבילו את הגישה אליהם. כיום, המודלים הכי טובים הם מודלים סגורים. מודלי הווידיאו הכי טובים בשוק הם מודלים סגורים. מה הבעיה? מעבר למבנה עלויות שמאוד קשוח לסטארט-אפים, אתה מוגבל מבחינת דברים שאתה לא יכול לעשות. חברות גיימינג רוצות לייצר גרפיקה פשוטה ואז להשתמש במודל כדי לשחק עם סגננות ויזואליים, אבל מודלים סגורים לא מאפשרים דברים כאלו. זה מייצר גם קושי לחוקרים באקדמיה ונותן יתרון לחברות גדולות מאוד.
"לכן, הבנו שאם אנחנו רוצים להיות תחרותיים, המודלים חייבים להיות פתוחים. ויצאנו להרפתקה של הפצת מודל פתוח, כדי שבאקדמיה ובתעשייה ישתמשו במודל שלנו, יוסיפו לו יכולות ופיתוחים, וזה יאפשר לנו להיות יותר תחרותיים. אנחנו רוצים לפנות גם לחובבי AI שעובדים עם המחשב הביתי שלהם. כרטיסי מסך של גיימרים היום מאוד טובים. הם ברמה של מעבדי ה-AI של אנבידיה מבחינת כוח מחשוב, אבל יש להם הרבה פחות זיכרון. עשינו מאמץ מאוד גדול כדי שהמודל יוכל לעבוד גם על כרטיסים גרפיים של חובבי AI, כדי שיוכלו להריץ אותו בבית".
לתפיסת פרבמן, החשיבות של מודלים פתוחים מתגברת לאור העובדה שנראה שהדרכים המסורתיות לאימון מודלי GenAI מתקרבות למיצוי הפוטנציאל שלהן: "כשהטכנולוגיות הגיעו לרמת בגרות מסוימת סם אלטמן (מייסד ומנכ"ל OpenAI, ע"כ), ניסה לשחק שכאילו ל-OpenAI יש ידע מיוחד שאין לאחרים. אבל היום מי שמכיר מבין שהסיפור לא מחזיק מים. יש כבר 10 גופים שונים שנמצאים באותו מקום כמו OpenAI, ולא ברור אם יש עוד הרבה ביצועים שאפשר לסחוט מאותה ארכיטקטורה. OpenAI שפכו המון כסף על אימון של מודלי בסיס, אבל עכשיו אנחנו מבינים יותר טוב איך לאמן את המודלים האלו והעלויות ירדו. סורה עלה 150 מיליון דולר לאמן. האימון של המודל שלנו עלה בסביבות ה-10 מיליון דולר. זו דינמיקה שהרבה משקיעים רק עכשיו מתחילים להבין. הם שפכו מיליארדים על אימון מודלים, אבל זה לא ייצר להם חפיר. מי שרוצה להישאר תחרותי, חייב לעבוד עם קוד פתוח".