ChatGPT ייעודי לכל משימה: בינה מלאכותית גדולה – בקטנה
ChatGPT ייעודי לכל משימה: בינה מלאכותית גדולה – בקטנה
עם החשיפה ל-ChatGPT למדנו להכיר מושג חדש: מודל שפה גדול, ה"מנוע" שמאחורי הצ'טבוט, שמתאמן על מאות מיליארדי פריטי מידע. עכשיו הגיע זמנם של מודלים קטנים וזולים יותר, שגם יכולים לעשות עבודה נקודתית טובה ומהירה וגם נותנים דריסת רגל תחרותית לשחקניות קטנות יותר
כש־ChatGPT של OpenAI נחשף לציבור בסתיו 2022 והצית את מהפכת הבינה המלאכותית הגנרטיבית (GenAI), הוא לימד את כולנו מושג חדש — מודל שפה גדול (Large Language Model, LLM), מודל AI עם עשרות מיליארדי או מאות מיליארדי פרמטרים, שעל בסיסו ניתן לבנות כלים שמסוגלים להשיב על שאלות, לנהל שיחה, לנתח מסמכים, להמציא פרוזה ועוד, בזכות גישה רחבה לחלק ניכר מהידע האנושי הקיים ויכולת חדשנית.
הוא גם הצית מרוץ חימוש בין חברות AI, ובעיקר בין ענקיות טכנולוגיות, לפיתוח ה־LLM הגדול ביותר, הטוב ביותר. זה מרוץ יקר מאוד. פיתוח GPT—4, ה־LLM המתקדם ביותר של OpenAI שכולל יותר מטריליון פרמטרים, עלה יותר מ־100 מיליון דולר. הפיתוח דורש גישה למשאבי מחשוב ועיבוד יקרים, שנעשו יקרים יותר ונדירים יותר לאור המרוץ העולמי, וגם הרצתם היא יקרה מבחינת כוח עיבוד, צריכת אנרגיה ועלות.
כל זה הותיר את התחום בעיקר בידי החברות שמסוגלות להרשות לעצמן הוצאות מסוג זה, ענקיות טכנולוגיה דוגמת מיקרוסופט, גוגל ומטא. אבל עתה מסתמנת מגמה חדשה בתחום: לא רק מודלים גדולים ויקרים, אלא גם מודלים קטנים יותר, שמכונים MLM (מודל שפה בינוני) ואפילו SML (מודל שפה קטן). אלו יכולים לכלול פחות מ־10 מיליארד פרמטרים, עלות אימונים עד 10 מיליון דולר, והם דורשים פחות משאבים.
הם מותאמים לעתים למשימות ספציפיות, ובתנאים מסוימים יכולים לספק תוצאות טובות יותר או יעילות יותר מאחיהם הענקיים. הם השלב הבא בעולם ה־GenAI, ויכולים להכניס לתחום תחרות גדולה יותר באמצעות פתיחת דלת לסטארט־אפים וחברות עם משאבים מצומצמים יותר.
יכולים גם בלי הענן
"הנושא של מודלים קטנים וממוקדים צובר תאוצה בשוק, ואנחנו רואים את זה", אמר לכלכליסט אורי גושן, מייסד משותף ומנכ"ל AI21 Labs, החברה הישראלית המובילה בתחום ה־GenAI (שני המייסדים האחרים הם פרופ' אמנון שעשוע ופרופ' יואב שוהם). "הסיבה היא שאנחנו בסוף מיישמים את המודלים האלו בתוך אפליקציות, וכשהמודלים קטנים יותר, העלות יותר נמוכה והם מהירים יותר. זה שיקול מרכזי למי שבונה אפליקציה, ארגונית או צרכנית. כל מי שמפתח אפליקציה מגיע לשלב שהוא מסתכל על עלויות וזמני תגובה, כי זה משפיע על החוויה ועל השימושיות שלה".
את המגמה הזו מובילות אותן חברות שהזניקו את המהפכה הנוכחית. מיקרוסופט, שהשקיעה 13 מיליארד דולר ב־OpenAI, מבליטה את משפחת המודלים הקטנה שלה, שמכונה Phi, ושלדברי המנכ"ל סאטיה נאדלה כוללת מודלים עם מאית מהפרמטרים של המודל מאחורי הגרסה החינמית של ChatGPT, אך מבצעים משימות רבות טוב כמעט כמוהו. "יותר ויותר, אנחנו מאמינים שזה הולך להיות עולם של מודלים שונים", אמר ל”וול סטריט ג'ורנל” סמנכ"ל השיווק הצרכני של מיקרוסופט, יוסוף מהדי.
אחד היתרונות של מודלים קטנים הוא היכולת שלהם לרוץ על מכשירים בצורה מקומית, בלי לשלוח מידע לענן ולהישען על דאטה־סנטרים יקרים. מחשבי ה־AI מסדרת +Copilot שהציגה מיקרוסופט במאי, ושצפויים להגיע מכל יצרניות ה־PC - המחשבים האישיים - הגדולות בשבועות או בחודשים הקרובים, כוללים מודלים כאלו שמסוגלים לעשות פעולות כמו ייצור תמונות ומענה לשאילתות בצורה מקומית.
אפל, השחקנית החדשה בתחום מבין הענקיות, מתעתדת גם היא לעשות שימוש במודלים קטנים שימנפו את המעבדים העוצמתיים של החברה על מנת לענות על שאלות בצורה מהירה, מאובטחת ופרטית, ורק במקרים שבהם המודל הקטן לא מסוגל לספק תשובה ראויה יישלח מידע לענן לצורך שימוש במודלים גדולים יותר. גם גוגל וסטארט־אפים מובילים דוגמת אנת'רופיק, Mistral ו־Cohere השיקו השנה מודלים קטנים. אפילו מייסדת ז'אנר המודלים הגדולים, OpenAI, השיקה גרסה קטנה יותר, וזולה יותר לתפעול, של GPT—4, ומתכננת להפיץ מודלים קטנים יותר בעתיד.
"לא צריך קוודריליון (1 ואחריו 15 אפסים — ע"כ) פעולות כדי לחשב כמה זה 2 ועוד 2", אמר איליה פולוסוחין, מייסד חברת הבלוקצ'יין NEAR Protocol, שבתפקידו הקודם בגוגל היה בין מחברי המאמר האקדמי פורץ הדרך, “Attention is all you need”, שהניח את היסודות לבינה מלאכותית גנרטיבית. במאמר זה מתוארת ארכיטקטורה לבניית מודלי AI בשם Transformer, שיישומה איפשר בניית LLMs. המעבר למודלים קטנים יותר מסתמך, בין השאר, על ארכיטקטורה חדשה, בשם Mamba, שפותחה לפני כחצי שנה על ידי חוקרים מהאוניברסיטאות האמריקאיות קרנגי מלון ופרינסטון.
"הבשורה של ממבה היא היכולת של מודל לקבל הקשר ארוך (Context, הקלט שמוזן למודל בשאילתה — ע"כ) יותר מבלי לאבד את היעילות", אמר גושן לכלכליסט. "בטרנספורמר, כשמגדילים את ההקשר, היעילות יורדת ומאוד יקר לטפל בהמון מידע. ממבה היא ארכיקטורה מאוד יעילה, אבל יש משימות שבהן האיכות פחות טובה. זה סחר החליפין. לא מזמן שחררנו מודל שנקרא jamba, שהוא מודל יחסית קטן, שמשלב בין שתי הארכיטקטורות. הצלחנו לייצר מודל שנהנה מכל העולמות, גם יעילות וגם איכות. היום הוא כבר בגרסה השנייה שלו, ויודע לטפל בהקשרים ארוכים בצורה מדויקת.
"זה קשור למודלים קטנים בכך שאם יש לך מודל גדול מבחינת פרמטרים ועם הקשר גדול, צריך הרבה חומרה כדי להריץ אותו. זה מאוד יקר. אנחנו רואים מעבר לכך שחלק מהמשימות אפשר לפתור באמצעות מודלים קטנים יותר, ועם ממבה גם מודל קטן מבחינת פרמטרים אבל עם הקשר גדול יחסית, כך שהוא יכול לקבל הרבה אינפורמציה".
מודלים קטנים אלו יכולים, למשל, להיות מודלים ייעודיים לשימושים מקצועיים, למשל מודל שאומן על פסקי דין ופרוטוקולי בית משפט ומיועד למשפטנים ולעורכי דין. מודלים אלו יעשו שימוש במספר פרמטרים קטן יותר, אך יידרשו לדעת איך להתמודד עם קלט ארוך יותר. זאת, מכיוון ששאלות מצד בעלי מקצוע בתחום התמחותם יהיו לרוב מורכבות ומסובכות יותר מאשר שאלות מצד הציבור הכללי. מנגד, מודלים אלו לא נדרשים לבצע פעולות כלליות ולענות על שאלות מתחומים מגוונים, כך שמספר הפרמטרים שמשמש לאימון שלהם יהיה קטן משמעותית.
שימושים נקודתיים
מודלים קטנים יכולים להיות גם מודלי שפה כלליים ולהשיב על שאילתות מגוונות. "מודל קטן יכול להיות מודל כללי לשאילתות פשוטות, זה תלוי במורכבות השאילתה", הסביר גושן. "כששואלים שאלות על מסמך השאלה יכולה להיות מורכבת, ואז מודל קטן לא יהיה מספיק כדי לייצר תשובה מדויקת. בעתיד נראה שילוב של מודלים קטנים וגדולים. נוכל לטפל בחלק מהדברים בצורה יחסית יעילה, ובחלק לשלם יותר כדי לקבל טיפול שנעשה על ידי מודל חזק יותר. יהיו גם מודלים קטנים שיודעים לטפל במשימות מסוימות בתחומים ממוקדים. למשל מודל קטן שטוב במענה על מסמכים מסוג מסוים. מה שמקובל לעשות זה לקחת מודל קטן, ולעשות לו כיוונון למשימה ספציפית. זה שימושי בעבור ארגון שיש לו הרבה דאטה וצריך לבצע משימה מסוג מסוים. אפשר להגיע ככה לתוצאות אפילו יותר טובות מאשר עם מודל גדול. השילוב של מודל קטן עם הקשר גדול הוא עוצמתי".
יש ארגונים שכבר עושים את זה. לפי "הוול סטריט ג'ורנל", חברת דירוג האשראי Experian עברה משימוש במודלים גדולים למודלים קטנים לצורך תפעול הצ'טבוטים שמשמשים אותה למתן עצות פיננסיות ושירות לקוחות. לדברי סמנכ"ל הדאטה של החברה, עלי קהאן, אחרי שאומנו על המידע הפנימי של החברה, סיפקו המודלים תוצאות טובות כמו אלו של המודלים הגדולים, אבל בשבריר מעלותם. "המודלים מאומנים להתמודד עם בעיות וסט משימות מוגדרים היטב. הם לא יכולים לתת לי מתכון לקינוח", הוא אמר. קלרה שי (Shih), ראשת ה־AI בסיילספורס, הוסיפה: "המודלים הקטנים גם מהירים יותר. עם מודלים גדולים אתה משלם יותר מדי וסובל מבעיות בזמני התגובה. זה overkill".
המודלים הקטנים גם צפויים להחיות את התחרות בתחום ה־GenAI, ולאפשר דריסת רגל גם לשחקניות קטנות יותר, שאין להן ההון או המשאבים הדרושים על מנת לאמן מודלים גדולים. חברות כאלו יכולות, למשל, להתמחות במודלים למגזרים מסוימים ולמשימות מסוימות. או לספק כלים ושירותים לארגונים ליצירת מודלים קטנים משלהם. "נראה את המודלים הקטנים בכל מקום", אמר גושן. "כבר רואים אותם ב־PC. אנחנו נראה אותם בתצורות שונות על מכשירים שונים, ונראה מערכות מאוד חכמות שיעזרו לבחור באיזה מודל להשתמש ומתי".