הסטארט-אפ AI21 של אמנון שעשוע חושף מודלי שפה חדשים בתמיכה מלאה בעברית
הסטארט-אפ AI21 של אמנון שעשוע חושף מודלי שפה חדשים בתמיכה מלאה בעברית
החברה שהקימו שעשוע, יואב שוהם ואורי גושן חשפה משפחת מודלי שפה חדשים בשם Jamba המיועדת לארגונים. במקביל הושקה גרסת עדכון למודל השפה Jamba 1.5 Mini והיא משחררת את שניהם כמודל פתוח לקהילת המפתחים
חברת AI21 labs חושפת משפחת מודלי שפה חדשים המיועדת לארגונים ולראשונה תומכת באופן מלא בעברית וערבית. המשפחה החדשה שנקראת Jamba ומשיקה את מודל השפה הגדול 'Jamba 1.5 Large', במקביל להשקת גרסת עדכון למודל השפה 'Jamba 1.5 Mini', ומשחררת את שניהם כמודל פתוח לקהילת המפתחים.
בשיחה עם כלכליסט אומר אורי גושן, אחד ממייסדי החברה והמנכ"ל שלה: "השקנו שני מודלי שפה בשם ג'מבה והם תומכים בעברית וערבית בבסיס, כל המודלים האחרים אצלם עברית היא על הדרך. עשינו את התמיכה בעברית מטעמים ציוניים כי זה לא שוק משמעותי עבורנו ואנחנו שחקן מקומי שרוצה שיהיו פה חדשנות ויעשו דברים ב-AI בעברית".
החברה הוקמה בשנת 2017 על ידי פרופ' אמנון שעשוע, מייסד מובילאיי, יואב שוהם ואורי גושן, המשמש כמנכ"ל שלה. שוהם הוא פרופסור בעל שם עולמי בתחום בינה מלאכותית שניהל את מעבדת ה-AI של אוניברסיטת סטנפורד וחזר בשנים האחרונות לישראל. החברה גייסה כ-336 מיליון דולר ממשקיעים מובילים, ביניהם NVIDIA, אינטל, גוגל ואחרות.
"הקלט למודל השפה הוא נושא משמעותי כי הוא מאפשר לאותו מודל AI לתת מידע רלוונטי. עד היום רוב מודלי השפה בשוק מבוססים על ארכיטקטורת טרנספורמר הבעיה היא ככל שמגדילים קלט המודל יותר איטי ושאילתה כזו תיקח מספר ד' . החדשנות במודל שלנו היא שהיא מביאה ארכיטקטורת ממבה שהיא משמעותית מהירה יותר בקלטים ארוכים ויש לה חסרונות כי היא מתפשרת באיכות אבל אנחנו שילבנו בין שתי הארכיטקטורה וככה נוצר ג'מבה. מרוויחים מהאיכות של האחד והמהירות של השני וזה מאפשר טיפול בפלטים מאוד גדולים. אני יכול להכניס את כל הפלטים של שר הטבעות ולהשוות ביניהם", לדבריו.
"הג'מבה יהיה זמין בכל העננים המובילים וגם באנבידיה וסנופלייק והם יציעו אותנו תחת הפלטפורמה ויש מודל עסקי שונה אצל כל אחד. מה שאנחנו מזהים בשוק הוא שחברות במיוחד עם מידע רגיש מעדיפות מודלי AI בתוך החברה והענן שלהם ומאוד זהירות להוציא לענן הציבורי ולכן מציעים מודלים פרטיים לתוך הארגון וחוות השרתים שלהם. זה אמור להיות מקור הכנסה משמעותי שלנו. פתחנו את המודל שיחררנו אותם כך שלשימושי מחקר כל אחד יכול לעבוד איתו ולמסחרי וחברות מעל 50 מיליון דולר יצטרכו לרכוש רישיון לשימוש במודל וזו הטמעה בתוך השרתים של הארגון", אומר גושן.
"אנחנו ממוקדים בארגונים לעומת אנטרופיק ו-OPEN AI, שממוקדים בצרכן הסופי. אנחנו פחות שמים דגש על לייצר תוכן יצירתי אלא לטפל בסוג השאלות שנדרשות בהם אמינות מאוד משמעותית בבריאות, כלכלה פיננסים ", אומר אורי גושן. "יש המון השקעות בתחום שלנו וסכומי כסף אדירים אנחנו ממוקדים במה שצריך לעשות לטובת הארגון ובמובן הזה אמנם גייסנו סכום לא מבוטל וזה מאפשר לנו להיות תחרותיים".
היכולת להזין למודל תוכן באורכים ארוכים במיוחד היא קריטית עבור משימות רבות, מעבר לצריכה, סיכום ועיבוד של מסמכים ארגוניים ארוכים. בהיעדר מגבלות אורך, ניתן לשלוף מסמכים רבים יותר בעת שלב האיחזור, ולהשתמש בהם ללא פיצול או חילוץ של חלקים לא קוהרנטיים - דבר אשר היה נעשה באופן יקר ולא יעיל על ידי קריאות חוזרות ונשנות למודל אשר איננו בעל Context ארוך.
המודלים בעלי קלט (long context window) ארוך של עד K256 טוקנים, יכולת אשר מאפשרת לארגונים לבצע ניתוח ועיבוד של מידע בהיקפי ענק, בין אם מדובר במסמכים ארגוניים רבים, היסטוריות שיחה ארוכות או הנחיות מורכבות לשימוש בכלים חיצוניים. לאור ההצלחה של מודל ה-Jamba המקורי שהושק במרץ האחרון, המודלים החדשים מבוססים גם הם על ארכיטקטורת SSM-Transformer היברידית, ארכיטקטורה ייחודית המאפשרת עלויות שימוש אטרקטיביות לכל ארגון. המשקולות של מודלי ה-Jamba זמינות למפתחים (Open Weights) על מנת שיוכלו להתאים אותן לצרכיהם ולאמן אותן על מערכי נתונים חדשים.
הדגם החדש במשפחת מודלי השפה, Jamba 1.5 Large, נועד להתמודד עם משימות מורכבות ומשיג תוצאות מצוינות מבחינת איכות ומהירות. בהשוואות מקיפות שבוצעו אל מול מודלים בגודל דומה, דוגמת; Llama 3.1 70B, Llama 3.1 405B, ו-Mistral Large 2. המודל של Jamba 1.5 Large, AI21 מהיר עד פי 2.5 באורכים גדולים, דבר המאפשר שימוש יעיל בכל ה-Context הארוך שהוא מציע.
בנוסף, החברה משיקה את Jamba 1.5 Mini, גרסה מעודכנת ומשופרת של מודל ה-Jamba-instruct אשר עוקף בביצועיו מודלים בגודל דומה, בהם Llama 3.1 8B, Mistral Nemo 12B , Mistral-8x7B ו- Gemma 9B, כשהוא מהיר פי 3. שני המודלים החדשים תוכננו בקפידה כך שיהיו ידידותיים למפתחים ומותאמים ליצירת מערכות AI, מורכבות (כדוגמת סוכנים - Agents) תוך שהם תומכים בפיצ'רים שונים, ביניהם; קריאת פונקציות ושימוש בכלים חיצוניים, מצב JSON, הזנת אובייקטים של מסמכים מובנים למודל ועוד.
שני המודלים הינם עם אורך הקונטקסט האפקטיבי ביותר בשוק כיום והיחידים אשר מנצלים את מלוא ה-K256 (context) עליו הם מצהירים, כך על פי מדד RULER אשר הושק על ידי NVIDIA בתחילת השנה, שנועד להעריך מודלים בעלי קלטים (Context Window) ארוכים בקריטריונים שונים כגון: אחזור מידע, מעקב רב שלבי, אגרגציה ומענה על שאלות. משפחת ה-Jamba מציגה אפקטיביות גבוהה ותפוקות איכותיות באופן עקבי ועל פי המדד.
אורי גושן, מנכ"ל-משותף ומייסד-משותף ב-AI21: "היכולת לטפל בקונטקסטים ארוכים הינה פריצת דרך שתאפשר לתעשיית ה-GenAI לתת מענה לצרכי האנטרפרייז, שהיו מוגבלים עד היום. הארכיטקטורה הייחודית שפיתחנו במודלי השפה שלנו מסירה את החסם הזה ותאפשר לארגונים אלו לעבד כיום כמויות עצומות של מידע ביעילות ובמהירות, ללא פגיעה באיכות התוצאות. מכיון שמשפחת מודלי ה-Jamba פותרת אתגר משמעותי עמו התמודדו עד כה ארגוני ענק ולנוכח הדחיפות בהטמעת פתרון ראוי, AI21 מכריזה על שיתופי פעולה בנושא עם התאגידים המובילים בעולם ביניהם; NVIDIA Nim, Google Cloud, Microsoft Azure ,AWS ו- Snowflake".
ארכיטקטורת ה-SSM-Transformer ההיברידית Jamba משלבת את ארכיטקטורות ה-Transformer הקלאסית עם ארכיטקטורת ה-Mamba שהושקה בדצמבר. AI21 חלוצה בגישתה המהפכנית לפיתוח מודלים, כשהיא ממזגת בצורה חלקה את החוזקות של ארכיטקטורת ה-Transformer וארכיטקטורת ה-Mamba כדי להתגבר על המגבלות של שתיהן. שילוב זה מבטיח שהמודלים יעניקו פלט איכותי ומהיר יותר, ובשימוש נמוך יותר במשאבי זיכרון וחישוב, בהשוואה לרוב המודלים בשוק המבוססים על ארכיטקטורת ה-Transformer בלבד.
חברת AI21 בונה מודלי שפה ומערכות AI עבור ארגונים בהם חברות Fortune500, ונחשבת לחברה המובילה בישראל בתחום הבינה המלאכותית. החברה הוקמה ב-2017 על ידי פרופסור יואב שוהם, פרופסור אמנון שעשוע ואורי גושן, וגייסה כ-336 מיליון דולר ממשקיעים מובילים, ביניהם NVIDIA, אינטל, גוגל ואחרות. בנוסף, החברה עורכת שיתופי פעולה ומחקרים משותפים עם תאגידי הטכנולוגיה הגדולים בעולם, כשלאחרונה הכריזה על שיתופי פעולה עם מיקרוסופט ו-Snowflake.