סגור
באנר דסקטופ כלכליסט טק
סם אלטמן 1
סם אלטמן, מייסד ומנכ"ל OpenAI. "אנחנו בסופו של עידן המודלים הענקיים" (צילום: Markus Schreiber/AP)

מה אלטמן יעשה כשייגמר הדאטה: המרדף אחר מאגר מידע לא מנוצל

שוק הבינה המלאכותית הגנרטיבית עסוק במרוץ תחרותי חדש אחר משאב קריטי במיוחד: מידע. לפי הערכות, בקרוב המידע הקיים ברשת לא יעמוד בקצב הנדרש ולא יהיה על מה לאמן את המודלים מאחורי שירותים כמו ChatGTP וג'מיני. הפתרונות המסתמנים: תמלול סרטונים והקלטות או פשוט פיתוח טכנולוגי שעוקף את הבעיה

שוק הבינה המלאכותית הגנרטיבית (GenAI) נמצא בימים אלו בעיצומו של מרוץ נסתר מן העין. לא מדובר במרדף אחר נתח שוק וראשוניות שאופייני כל כך לשווקים חדשים. גם לא במרוץ האינטנסיבי אחרי כוח מחשוב, לאור ההיצע המוגבל של שבבים עתירי־ביצועים. מדובר במרוץ אחרי אחד המשאבים הקריטיים לפיתוח מודלים מתקדמים: מידע. כי אף על פי שנדמה שאנו חיים בתקופה של היצע תכנים אינסופי, בעבור מודלי AI גדולים, היקף התכנים שקיים היום ברשת לא ישביע את רעבונם לזמן רב. והחברות השונות בתחום מתכוונות לעשות כל שביכולתן על מנת להבטיח שהן יהיו הראשונות להגיע לחוף המובטח של מאגר מידע לא מנוצל.
סוף לפיתוח?
סיכוי של 90% שעד שנת 2028 הביקוש למידע יעלה על ההיצע
מודלי שפה גדולים (LLMs), שהביאו לנו שירותים דוגמת ChatGTP של OpenAI וג'מיני של גוגל, מצליחים לספק תוצאות מרשימות כל כך בזכות גורמים מגוונים, פריצות דרך בפיתוח אלגוריתמים, למשל, או יכולות מחשוב מתקדמות שמתאפשרות בזכות שבבים עתירי־ביצועים. וגם, במידה רבה, גישה לכמות עצומה של טקסטים וחומרים אחרים, שמאפשרים לחוקרים ללמד ולאמן את המודלים.
הגישה הזו מתאפשרת, כמובן, באמצעות האינטרנט שהפך למאגר הידע האנושי הגדול בהיסטוריה, ושהיצע התכנים שהוא מספק למודלים אלו גדל אקספוננציאלית מיום ליום. המודלים שואבים את כוחם ממגוון מקורות מידע מקוונים - ובכלל כך מאמרים מדעיים, ידיעות חדשותיות, ערכים בוויקיפדיה, פוסטים במדיה חברתית וספרים שתוכנם זמין דיגיטלית. יותר פיסות מידע מובילות, בעיקרון, למודל משוכלל יותר שיכול להניע צ’אטבוט בעל יכולות שיחה והבנה מתקדמות יותר. כל תוכן מפורק ומוזן למודל ביחידות מידע קטנות שמכונות טוקנים (Tokens). לפי הערכות, GPT-4 של OpenAI אומן על 12 טריליון טוקנים.
ואולם, יכול להיות שאפילו המבחר המקוון הבלתי נדלה לכאורה לא יספיק על מנת לאמן מודלים חדשים ומתקדמים יותר. GPT-5, למשל, צפוי להידרש ל־60 טריליון עד 100 טריליון טוקנים. פאבלו וילהלובוס (Villalobos) ממכון המחקר Epoch אמר ל”וול סטריט ג'ורנל” שגם רתימת כל המידע הכתוב והחזותי האיכותי שזמין ברשת, עדיין תותיר פער של בין 10 טריליון ל־20 טריליון טוקנים או יותר. להערכתו ולהערכת עמיתיו, יש סיכוי של 90% שעד 2028 הביקוש של המודלים למידע טקסטואלי באיכות גבוהה יעלה על ההיצע, מה שיאט משמעותית פיתוחים בתחום הבינה המלאכותית.
מאמצים סודיים
חיפוש מקורות מידע לא מנוצלים ודרכים חדשות לאימון המודלים
כתוצאה, דיווח “הוול סטריט ג'ורנל”, חברות AI מנהלות מצוד אחרי מקורות מידע לא מנוצלים, וחושבות על דרכים חדשות לאימון המודלים. "חיסרון במידע הוא בעיה חלוצית", אמר ל”וול סטריט ג'ורנל” מייסד DatologyAI, ארי מורקוס (Morcos), שעבד קודם לכן במטא ובדיפמיינד של גוגל. "אין דרך מקובלת להתמודד עם זה".
OpenAI, למשל, פועלת על מנת לאסוף כל מידע שימושי שקיים ברשת. לפי “הוול סטריט ג'ורנל”, בכירי החברה בוחנים אפשרות לתמלל סרטונים והקלטות אודיו באיכות גבוהה, ובכללם סרטוני יוטיוב פומביים, כדי לאמן את GPT-5. חברות אחרות מתנסות ביצירת חומרי אימונים סינתטיים, כלומר כאלו שנוצרו על ידי מערכות AI. עם זאת, חוקרים מתריעים שמדובר בגישה בעייתית שעלולה להוביל למודלים שמפיקים מידע לא קוהרנטי.
כל המאמצים הללו מתנהלים בסודיות, מכיוון שבכירים סבורים שהם יכולים להקנות להם יתרון תחרותי. בהיבט זה, המרוץ בין החברות דומה למרוץ בין המעצמות האירופיות בראשית התקופה הקולוניאליסטית לגלות ולתבוע בעלות על ארצות ואזורים לא ידועים (באירופה), בפרט באמריקה ובאפריקה, במטרה להשתלט על משאבי הטבע היקרים שנמצאים בהם ולנצל אותם לטובתם. העובדה שאת המעצמות החליפו חברות טכנולוגיה ואת הזהב ומחצבים אחרים החליף מידע היא המחשה יפה לשינויים שעברה החברה האנושית במאות השנים האחרונות.
שימוש יצירתי
איך לעשות יותר עם אותה כמות מידע, ואפילו לחסוך עלויות
פתרונות אחרים מתבססים על שימוש יצירתי במידע הקיים. חברת DatologyAI פיתחה שיטה לעשות יותר עם אותה כמות מידע. בשיטה זו, שמכונה curriculum learning, המידע מוזן למודל בסדר ספציפי, במטרה שהוא ייצור חיבורים חכמים יותר. להערכת מורקוס, שיטה זו מאפשרת להגיע לביצועים דומים לשיטת הלימוד הרגילה, אך עם מחצית מכמות המידע. השיטה גם מצמצמת משמעותית את עלויות האימון והתפעול של מודלי GenAI.
חברות אחרות, ובהן OpenAI, מתנסות בבניית מודלים קטנים משמעותית, שמיועדים למשימות פרטניות. "אני חושב שאנחנו בסופו של העידן שבו יש מודלים ענקיים", אמר מייסד ומנכ"ל החברה סם אלטמן בכנס בשנה שעברה. "נשפר אותם בדרכים אחרים".
בתרחיש קיצון, היעדר מידע מספק יכול להוביל לפגיעה משמעותית, אולי אפילו הרסנית, בפיתוח מודלים חדשים, ולפגיעה ניכרת בהתפחות התחום וכתוצאה מכך בכלכלה.
ואולם, וילהלובוס מעריך שלא מדובר בתרחיש סביר ומשווה את המצב לחששות מתחילת המאה הנוכחית שלפיהם האנושות מתקרבת ל"שיא הנפט", כלומר שתפוקת הנפט העולמית תגיע לשיא, שאחריו ייווצרו מחסורים הולכים וגדלים במשאב. חששות אלו התבדו, בין השאר לאור טכנולוגיות הפקה חדשות כמו פראקינג (שבירה של שכבות סלע עמוקות), שיצרו מקורות נפט חדשים מחד, וירידה בביקושים לאור עלייה בשימוש באנרגיות בנות־קיימא ומכוניות חשמליות מאידך. "ייתכן שנראה התפתחויות דומות בתחום ה־AI", אמר החוקר ל”וול סטריט ג'ורנל”. "חוסר הוודאות הגדול ביותר הוא איזו פריצת דרך נראה".