סגור
באנר דסקטופ כלכליסט טק
ChatGPT
ChatGPT. הולך לאיבוד (צילום: שאטרסטוק)

מאבד את הראש: מחקר מצא שהביצועים של ChatGPT יורדים עם הזמן

חוקרים מסטנפורד ומברקלי בדקו את התוצאות שסיפק מודל השפה הפופולרי בין מרץ ליוני 2023 וגילו צניחה של 95% ביכולות הקידוד, המתמטיקה וההנחיות הוויזואליות. הסיבה האפשרית: הנמכת יכולות יזומה של OpenAI כדי למנוע תוצאות פוגעניות

חוקרי האוניברסיטאות סטנפורד וברקלי מצאו כי הביצועים של ChatGPT לא השתפרו עם הזמן ולמעשה אולי אף ירדו. ChatGPT הושק בסוף השנה שעברה, והדהים ביכולותיו לנהל שיחה המדמה יכולת אנושית. הגרסה האחרונה שיצאה אף עוררה קריאות להפסיק בפיתוח, אך על פי מחקר חדש ייתכן שהבהלה הייתה מוקדמת ושכישוריו של בוט הבינה המלאכותית בכלל נמצאים בירידה.
חוקרים בסטנפורד וב-UC Berkeley ניתחו באופן שיטתי גרסאות שונות של ChatGPT ממרץ ויוני 2023, ופיתחו אמות מידה קפדניות כדי להעריך את כשירות המודל במטלות של מתמטיקה וקידוד, וכן במשימות חשיבה חזותית.
תוצאות הביצועים של ChatGPT לאורך זמן לא היו טובות: הבדיקות חשפו ירידה חדה בביצועים בין הגרסאות. באתגר מתמטי של קביעת מספרים ראשוניים, ChatGPT פתר נכון 488 מתוך 500 שאלות במרץ - דיוק של 97.6%. ביוני, לעומת זאת, ChatGPT הצליח לענות נכון רק על 12 שאלות, וצלל לרמת דיוק של 2.4%.
הירידה הייתה חדה במיוחד ביכולות קידוד התוכנה של הצ'אטבוט. המחקר מצא, כי עבור GPT-4, אחוז הדורות הניתנים להפעלה ישירה ירד מ-52.0% במרץ ל-10.0% ביוני. תוצאות אלו הושגו על ידי שימוש בגרסה הטהורה של המודלים, כלומר, לא היתה מעורבות נוספת של מתורגמני קוד.
החוקרים מינפו הנחיות ויזואליות ממערך הנתונים של Abstract Reasoning Corpus (ARC) כדי להעריך את ההיגיון של המודל - וגם כאן נצפתה ירידה. "GPT-4 ביוני עשה טעויות בשאילתות שבהן הוא היה נכון במרץ", נכתב במחקר.
מה יכול להסביר את הירידה לכאורה בביצועים של ChatGPT לאחר כמה חודשים בלבד? החוקרים משערים שייתכן כי מדובר בתופעת לוואי של אופטימיזציות שבוצעו על ידי OpenAI, היוצרת שלה, כדי למנוע ממנו לענות על שאלות מסוכנות. החוקרים מצאו כי המודל נוטה כעת לתת תגובות מילוליות עקיפות במקום תשובות ברורות ומדויקות יותר.
""הביצועים של GPT-4 נעשים פחות טובים עם הזמן" אמר מומחה הבינה המלאכותית סנטיאגו ולדררמה בטוויטר והעלה את האפשרות שתערובת "זולה ומהירה יותר" של דגמים מחליפה את ארכיטקטורת ChatGPT המקורית. "שמועות מצביעות על כך שיש שימוש בכמה דגמי GPT-4 קטנים ומיוחדים הפועלים בדומה לדגם גדול אבל פחות יקרים להפעלה", שיער ולדררמה. לדבריו, הדבר יכול להאיץ את התגובות למשתמשים אך להפחית את היכולת.
מומחה אחר, ד"ר פאן JM, טוען כי ייתכן שגורמים נוספים נכנסו לתמונה, כמו למשל מאמצי קיצוץ בעלויות, הצגת אזהרות והסתייגויות שעלולות "לטמטם" את המודל והיעדר משוב רחב יותר מהמשתמשים.
אמנם יש צורך בבדיקות מקיפות יותר, אך הממצאים עולים בקנה אחד עם התסכול שמביעים משתמשים על ירידה בקוהורנטיות ובתפוקות הרהוטות של ChatGPT. כיצד אפשר למנוע הידרדרות נוספת? יש הדוגלים במודלים של קוד פתוח, כמו LLaMA של מטא (שעודכן זה עתה), המאפשרים איתור של באגים בקהילה. השוואת ביצועים מתמשכת כדי לתפוס מוקדם יותר מקרים של נסיגה היא חיונית.
לעת עתה, ייתכן שאוהדי ChatGPT יצטרכו למתן את הציפיות שלהם. המכונה הפרועה לייצור רעיונות נראית מאולפת יותר - ופחות מבריקה. נראה שירידה הקשורה לגיל היא בלתי נמנעת, אפילו עבור הבינה המלאכותית.