סגור
באנר דסקטופ כלכליסט טק
דאטה סנטר עתיר ביצועים מהנדסים ממיינים ומתקינים אסדות כרייה בחוות כריית המטבעות הקריפטוגרפיים CryptoUniverse ב-Nadvoitsy רוסיה
דאטה סנטר בחוות כריית קריפטו ב-Nadvoitsy רוסיה (צילום: Andrey Rudakov/Bloomberg)

"הם מתקדמים מהר": מודל ה־AI הסיני מצמצם פערים מהמערב בקצב מסחרר

חברות בינה מלאכותית סיניות כמו דיפסיק ומונשוט מציגות קפיצת מדרגה בלתי צפויה עם "מודל חושב", שמייצר תשובות מעמיקות יותר, בדומה למודל o1 של OpenAI. הממשל האמריקאי מנסה כבר שנתיים לבלום את הסינים עם הגבלות על יצוא שבבים מתקדמים, אלא שהם מצאו שיטות אימון חלופיות שלא כרוכות במשאבי מחשוב תובעניים כל כך 

חברות בינה מלאכותית (AI) סיניות מצליחות לצמצם פערים מול חברות מערביות כגון OpenAI בקצב מהיר יותר מכפי שמומחים בתעשייה העריכו, וחרף מגבלות הממשל האמריקאי על יצוא שבבים מתקדמים לסין. "סין מתקדמת מהר", אמר ל"וול סטריט ג'ורנל" אנדרו קאר, מייסד Cartwheel ויוצא OpenAI. "חוקרים שם הצליחו לשכפל את המודל החושב של OpenAI בתוך כמה חודשים, ולמען האמת רבים מהעמיתים שלי הופתעו מכך".
בספטמבר שעבר חשפה OpenAI מודל חדש בשם o1. המודל, שמכונה "מודל חושב", מקדיש יותר זמן למחשבה על שאילתה שהוצגה לו לפני שהוא מתחיל לג'נרט תשובה, ולכן מסוגל לספק מענה מעמיק ומדויק יותר, עם סיכוי קטן יותר לאשליות. במקרה אחד מדען ביקש מהמודל לספק משוב למאמר מדעי שכתב (ושכבר התקבל לפרסום אחרי שעבר ביקורת עמיתים). "הייתי בשוק מהתובנות שלו", הוא סיפר ב־X. "הן היו הרבה יותר עמוקות משלי, ובנושא שאני מהמומחים המובילים בעולם בו. קשה להבין את עומק הניתוח. אני צריך להתייחס ולכלול את כל התובנות הללו. איך זה אפשרי בכלל?"
התקדמויות מהסוג הזה נחשבות לאחת מנקודות החוזק של תעשיית ה־AI האמריקאית בהשוואה לזו הסינית, שלצד גישה לכישרון המוביל בעולם נהנית גם מאספקה שוטפת של השבבים המתקדמים ביותר, שלפי התפיסה המקובלת היא תנאי יסוד לפיתוח מודלים מתקדמים.
אולם בשבועות האחרונים כמה חברות AI סיניות טענו שהן הצליחו לפתח מודלים שדומים ביכולתיהם ל־o1. דיפסיק (DeepSeek), שנתמכת על ידי אחת מקרנות הגידור המצליחות בסין, חשפה בנובמבר גרסת הדגמה של מודל שפה גדול (LLM) שפיתחה, שלדבריה משתווה ביכולתיו למודל החושב של OpenAI. מונשוט Moonshot AI) AI), שגייסה מעליבאבא וטנסנט, חשפה מודל שמתמחה בפתרון בעיות מתמטיות, ויכולתיו בתחום זה קרובות לאלו של o1. עליבאבא עצמה טענה שמודלים ניסיוניים שלה סיפקו ביצועים טובים יותר מאלו של OpenAI.
הערכה עצמאית של יכולות המודלים בעייתית, בין השאר מכיוון שאין בנצ'מארק מוסכם להערכת ביצועים של מודלי בינה מלאכותית. עם זאת, כלי אפשרי אחד הוא בחינת AIME (American Invitational Mathematics Examination), שמשמשת לאתגור ולהערכת יכולותיהם המתמטיות של תלמידים מתקדמים בתיכונים בארה"ב. הבחינה בת שלוש השעות מורכבת מ־15 שאלות, ויכולים לגשת אליה רק 2.5% בעלי הציון הגבוה ביותר בבחינה מתמטית תיכונית בשם AMC 10.
לטענת דיפקסיק, המודל שלה מנצח את זה של OpenAI בבחינה. אבל בבדיקה עצמאית של "הוול סטריט ג'ורנל", o1 ענה על כל 15 שאלות הבחינה מהר יותר מהמודלים של דיפסיק, מונשוט ועליבאבא. במקרה אחר o1 השיב בתוך 10 שניות, בעוד המודל של דיפסיק סיפק תשובה רק לאחר יותר משתי דקות.
אולם כל המודלים, האמריקאי והסיניים, השיבו את התשובות הנכונות – הישג משמעותי בפני עצמו, שכן מודלי בינה מלאכותית גנרטיבית מוקדמים יותר התקשו אפילו עם שאלות חשבוניות פשוטות.
ההישג של החברות הסיניות מרשים עוד יותר בהתחשב בעובדה שבניגוד ל־OpenAI, אין להן גישה לשבבי הבינה המלאכותית המתקדמים והמהירים ביותר.
מאז אוקטובר 2022 מטיל ממשל ביידן מגבלות נוקשות על יצוא שבבים עתירי ביצועים לסין, ובפרט שבבי AI, במטרה להגביל את יכולות המדינה לפתח מודלי AI מתקדמים ומערכות שמבוססות על שבבים אלו, כגון מערכות נשק.
בשנתיים שחלפו מאז הוחמרו המגבלות כמה פעמים. מהירות העיבוד של השבבים שניתן לייצא הופחתה, וחלו מגבלות נוספות. באוקטובר למשל הגביל הממשל את ההשקעות של קרנות אמריקאיות בחברות AI סיניות, ובדצמבר הוא הגביל יצוא של שבבי זיכרון לסין. ההיגיון מאחורי מהלכים אלו היה לחסום את הגישה של חברות סיניות לשבבים המתקדמים ביותר, שנתפסים כמשאב הכרחי לפיתוח מודלי AI מתקדמים, וכך לפגוע משמעותית ביכולת הסינית לפתח מודלים כאלו, ולספק יתרון אדיר לחברות האמריקאיות.
אנדרו קאר, מייסד Cartwheel ויוצא OpenAI: "חוקרים בסין הצליחו לשכפל את המודל החושב של OpenAI בתוך כמה חודשים, ולמען האמת רבים מהעמיתים שלי הופתעו מכך"

אולם אף שהמהלך של ממשל ביידן אולי הצליח להאט את החברות הסיניות, כפי שמוכיחים המודלים העדכניים שלהן, הוא לא הוציא אותן מהמרוץ, ויש להן סיכוי לצמצם עוד יותר את הפערים. זאת מכיוון שהצורך הוביל אותן לפתח שיטות אימון חלופיות, שלא כרוכות במשאבי מחשוב תובעניים כל כך.
מייסד מונשוט, יָאנְג גְ'ה־לִין, אמר ל"וול סטריט ג'ורנל" שהחברה שלו מתמקדת בשיטת אימון בשם "למידת חיזוק" (Reinforcement Learning), שמחקה את אופן הלימוד האנושי של ניסוי וטעייה. שיטה זו, אמר, דורשת פחות כוח מחשוב אינטנסיבי לצורך שיפור ביצועים.
שיטה אחרת מתבססת על שימוש חכם במספר מודלים מקצועיים וממוקדים במקום במודל כללי וגדול. בשיטה זו, שמכונה "תערובת מומחים" (Mixture of Experts או MoE), כל בעיה מנותבת למודל מתמחה שמתאים ביותר לענות עליה – בדומה לשף במטבח שמכוון הזמנה של סטייק לגרילמן, והזמנה של סלט לפס הקר של המטבח. מודלים מתמחים פשוטים יותר לאימון ותובעניים פחות ממודלים כלליים בכוח העיבוד שהם דורשים.
לדברי טנסנט, מודל MoE שהשיקה בנובמבר מספק ביצועים שווי ערך למודל Llama 3.1 של מטא, שהושק ביולי. חוקרים שבחנו את המסמכים שפרסמו החברות על המודלים שלהן העריכו שהמודל של טנסנט אומן עם עשירית מכוח המחשוב של המודל של מטא.
החברות גם למדו איך לעשות שימוש חכם בשבבים החלשים יחסית שהממשל מתיר את יצואם לסין. לדברי דיפסיק, היא יצרה צביר של 10 אלף שבבי A100 של אנבידיה, שהצליח להגיע לביצועים דומים לאלו של צבירים שמכילים מספר שבבים גדול יותר וצורכים אנרגיה רבה יותר.
"דרך אחת של החברות הסיניות להתמודד עם מגבלות היצוא היא לבנות מערכי חומרה ותוכנה טובים מאוד באמצעות החומרה שיש להן גישה אליה", אמר מייסד אנתרופיק, ג'ק קלארק, בפוסט שפרסם בבלוג האישי שלו. "יהיו מודלי AI תוצרת סין בדיוק כמו שיש מכוניות חשמליות, כטב"מים וטכנולוגיות אחרות".

לרקוד עם אזיקים

עם זאת, בשלב זה קשה להעריך עד כמה השיטות החלופיות של החברות הסיניות יאפשרו להן לצמצם או אפילו לתחזק פערים ככל שייכנסו לשוק שבבים מתקדמים ועצמתיים יותר. במהלך 2025 עתידים להיכנס לפעילות מערכי מחשוב חדשים שעושים שימוש בדור השבבים הבא. xAI של אלון מאסק, שהשלימה השבוע גיוס של 6 מיליארד דולר, לפי שווי מוערך של עד 40 מיליארד דולר, בונה דאטה סנטר של 100 אלף שבבי בלקוול של אנבידיה (שבב ה־AI המתקדם ביותר של החברה), ומתעתדת להשתמש בגיוס לבניית דאטה סנטרים נוספים. אמזון מתכננת לבנות מחשב־על, שיעשה שימוש במאות אלפי שבבים פרי פיתוחה.
על רקע זה החברות הסיניות מתמודדות עם חוסר ודאות שמשפיע על היקף הגיוסים שלהן ועל השווי שלפיו הן מגייסות. אחת החברות הבולטות בתחום היא Zhipu AI (שהשיקה בנומבר מודל וידאו שמתחרה בסורה של OpenAI), שהשלימה רק החודש גיוס לפי שווי של 3 מיליארד דולר – מחצית מהסכום שגייסה xAI, ושבריר מהשווי של OpenAI שמוערך ב־175 מיליארד דולר.
לפי "הוול סטריט ג'ורנל", החברה גם נאלצה לדחות תוכניות להנפקה בחציון השני של 2025, אחרי שבנקאי השקעות אמרו לה שלא סביר שתזכה להערכת השווי שהיא מבקשת. "תעשיית ה־AI הסינית דומה לאנשים שמנסים לרקוד בשעה שהם כבולים באזיקים", אמר לעיתון הווארד האנג, בכיר לשעבר בחברת AI סינית. "התמקדות במה שטוב היא הדרך היחידה לשרוד".