מודלי שפה לארגונים – הגודל לא קובע
מודלי שפה לארגונים – הגודל לא קובע
במירוץ הבינה המלאכותית, "גדול יותר" נחשב בדרך כלל טוב יותר. מודלי שפה גדולים (LLMs) מאומנים על מאות מיליארדי פרמטרים ומאפשרים יצירת פתרונות מבוססי AI שהם גדולים, וחזקים ונשענים על מידע הקשרי רחב מאוד. כותרות העיתונים המדווחים על השקות מודלים גדולים חדשות לבקרים מעידים עד כמה סוער המירוץ הזה של חברות הטכנולוגיה המוכרות.
אבל האם החוק הלא כתוב הזה חקוק באבן? מודלים גדולים אכן עשויים לעזור לחברות השואפות לפתח בינה מלאכותית כללית (Artificial General Intelligence), אבל זה כלל לא ברור שעסקים צריכים בינה מלאכותית בקנה מידה ענק שכזה כדי לקבל את רוב הערך מהיישומים שלהם. כיום, כשארגונים מחפשים להפריד בין הבאז להפקת ערך עסקי אמיתי מבינה מלאכותית, לא ברור שמודלי שפה, שגדלים בהיקפם מחודש לחודש, תמיד יובילו לפתרונות טובים יותר; ובוודאי לא ברור אם השקעה במודלים גדולים יותר היא ההחלטה המושכלת ביותר לעסקים. לעיתים קרובות, זה בדיוק ההיפך.
עלות עשויה בהחלט להיות המקום הראשון לבחון את תקפות החוק הזה. מודלי שפה גדולים, עם 100+ מיליארד פרמטרים, דורשים הרבה כוח מחשוב בשלב האימון - GPUs רבים ושפע של נתונים כדי להזין את "המכונה". המחיר של מעבדי GPU ידוע היטב, אבל גם עלות הנתונים עולה, במיוחד כשהנתונים האיכותיים המשמשים לאימון מודלי בינה מלאכותית הולכים ונעשים נדירים יותר. ארגון מחקר הבינה המלאכותית Epoch AI אף מצא כי מודלי בינה מלאכותית עלולים למצות את כל נתוני השפה האיכותיים הנוכחיים הזמינים באינטרנט כבר ב-2026.
לעומתם, מודלי שפה קטנים SMLs דורשים משאבי חישוב קטנים יחסית כדי לפתח פתרונות בינה מלאכותית יוצרת מתקדמים למדי, וזו הסיבה שאנו מוצאים כיום גרסאות זעירות רבות של מודלי שפה גדולים וגרסאות מוקטנות של המודלים המוכרים של גוגל ומיקרוסופט. רק בגלל שארגון מצא את הדרך המשתלמת ביותר לאמן מודל גדול, אין זה אומר שהיתרונות האמיתיים שהוא מפיק מאותו מודל יצדיקו את העלויות. חברות רבות שכבר רושמות החזר על ההשקעה ב-AI עושות שימוש במודלים קטנים למשימות כמו סיווג וסיכום מסמכים ומצליחות לחסוך עד פי 50 בעלויות לעומת שימוש במודל גדול.
בנוסף למימד העלות שיכול להיות דרמטי חשוב גם לשקול היבטים נוספים שחשובים לארגונים ועסקים: הפרטיות והריבונות על הנתונים. רוב הארגונים לא אוהבים לשלוח את הנתונים שלהם לענן ומעדיפים לשמור אותם במרכזי הנתונים שלהם - מה שמקשה על יישום מודלים קנייניים גדולים. לעומת זאת, מודלים קטנים מציעים בקרת IP טובה יותר, שמירה על פרטיות ואבטחה, ומסייעת להקל על בעיות רישוי של מודלים גדולים.
סיבה מרכזית נוספת היא ביצועים ושיהוי (latency). מאחר שמודלים קטנים דורשים פחות כוח חישוב, הם אידיאליים לפריסה בסביבות מוגבלות במשאבים ואפילו במכשירים ניידים. ביצוע החישוב וההיסק (inference) קרוב ככל האפשר לנתונים הופכים אותם למהירים יותר ובטוחים יותר מאשר שימוש דרך ספק ענן. זו גם הסיבה לכך שדגמים קטנים יותר נוטים פחות להזיות והטיות - נפח נתוני האימון קטן יותר ובדרך כלל מוגבל לתחום ספציפי, מה שהופך אותם לבטוחים יותר וניתנים לשליטה. דאטה שאינו מכיל מקורות לא ידועים שעלולים לכלול מידע שחוסה תחת זכויות יוצרים מסירים את החשש מתביעות פוטנציאליות שעלולות להגיע במורד הדרך.
השימוש במודלים של שפה קטנים יותר הולך וגובר כחלופה למודלי השפה הגדולים. מודלים קטנים מאומנים על עשרות ואפילו מיליארדים בודדים של פרמטרים מבלי להקריב את הדיוק. הם מסוגלים לסנן מידע בקלות יותר מה שהופך אותם למהירים יותר, ואם יש לארגון נתונים משלו - הם ניתנים להתאמה והופכים אף מדויקים יותר. קל יותר להתאים אותם למשימות כמו ניתוח, תרגום וסיכום, והם מדגימים עמידה במבחנים שאינה נופלת מאלו של המודלים הגדולים. אולי אין להם ידע הקשרי רחב והם לא יודעים לכתוב חמשירים בסגנון שייקספיר, אבל כסוכן חכם לשירות הלקוחות שידע לסכם את השיחה עם הלקוחות ולהעביר action items לנציגים - הם מתפקדים טוב מאוד וזה בדרך כלל מה שבאמת הארגון מחפש עבור העובדים והלקוחות שלו.
המירוץ לבניית מודלים גדולים וחזקים יותר לא צפוי להאט בקרוב, אבל בהמשך הדרך, רוב המומחים מסכימים שנראה גם גל של דגמי בינה מלאכותית קומפקטיים אך עוצמתיים המצטיינים בתחומים ספציפיים ומציעים אלטרנטיבה לחברות המעוניינות לאזן טוב יותר את הערך והעלויות של בינה מלאכותית.
אורי חייק הוא מנהל הטכנולוגיות הראשי (CTO) וראש חטיבת הטכנולוגיה ב-IBM ישראל