״לא מעניין אותי להרשים אף אחד. מעניין אותי רק לנצח את המשחק"

דיאנה בחור ניר

אחרי הראלי ההיסטורי אתמול: נאסד"ק מחק 4.3%, S&P 500 איבד 3.5%

מיקי גרינפלד, שיר רייטר

"הבנתי שאני עשירה, ותרגמתי את זה לרדיפה אחרי צדק חברתי"

דיאנה בחור ניר

ביל גרוס למשקיעים: אתם רוצים להיות תלויים בשאלה אם טראמפ ישן טוב בלילה?

חדשות חוץ

כשהדמוקרטיה מצטמצמת, זכות השביתה מתרחבת

משה גורלי

59 אחים ואחיות עדיין בעבדות, מוחזקים בשלשלאות

אילנה גריצ'ווסקי

10 שיגורים מהרצועה, חלקם יורטו: 3 פצועים קל באשקלון

איסקנדר חביבולין, חדשות ynet

הנצפות ביותר בערוץ

למה חיל האוויר הישראלי ויתר על המפציצים הכבדים?

הפילו עליכם להכין מצגת בעבודה? כך תעשו זאת ב-10 דקות עם AI

מבזבזים שעות על סיכום פגישות? כך תעשו את זה עם AI ב-5 דקות

סרטונים מומלצים

ההודעה מהבנק שאסור להתעלם ממנה, והמסמך שיכול לחסוך מאות שקלים

המלחמה הראשונה של ה-F35: האם החמקן עמד במבחן?

עוד בכלכליסט

ChatGPT. הולך לאיבוד (צילום: שאטרסטוק)

מאבד את הראש: מחקר מצא שהביצועים של ChatGPT יורדים עם הזמן

חוקרים מסטנפורד ומברקלי בדקו את התוצאות שסיפק מודל השפה הפופולרי בין מרץ ליוני 2023 וגילו צניחה של 95% ביכולות הקידוד, המתמטיקה וההנחיות הוויזואליות. הסיבה האפשרית: הנמכת יכולות יזומה של OpenAI כדי למנוע תוצאות פוגעניות

חדשות חוץ

12:45, 20.07.23

תגיות:

חוקרי  האוניברסיטאות סטנפורד וברקלי מצאו כי הביצועים של ChatGPT לא השתפרו עם הזמן ולמעשה אולי אף ירדו. ChatGPT הושק בסוף השנה שעברה, והדהים ביכולותיו לנהל שיחה המדמה יכולת אנושית. הגרסה האחרונה שיצאה אף עוררה קריאות להפסיק בפיתוח, אך על פי מחקר חדש ייתכן שהבהלה הייתה מוקדמת ושכישוריו של בוט הבינה המלאכותית בכלל נמצאים בירידה.
חוקרים בסטנפורד וב-UC Berkeley ניתחו באופן שיטתי גרסאות שונות של ChatGPT ממרץ ויוני 2023, ופיתחו אמות מידה קפדניות כדי להעריך את כשירות המודל במטלות של מתמטיקה וקידוד, וכן במשימות חשיבה חזותית. 
רק מה שמעניין - הצטרפו לערוץ כלכליסט בטלגרם
תוצאות הביצועים של ChatGPT לאורך זמן לא היו טובות: הבדיקות חשפו ירידה חדה בביצועים בין הגרסאות. באתגר מתמטי של קביעת מספרים ראשוניים, ChatGPT פתר נכון 488 מתוך 500 שאלות במרץ - דיוק של 97.6%. ביוני, לעומת זאת, ChatGPT הצליח לענות נכון רק על 12 שאלות, וצלל לרמת דיוק של 2.4%.
הירידה הייתה חדה במיוחד ביכולות קידוד התוכנה של הצ'אטבוט. המחקר מצא, כי עבור GPT-4, אחוז הדורות הניתנים להפעלה ישירה ירד מ-52.0% במרץ ל-10.0% ביוני. תוצאות אלו הושגו על ידי שימוש בגרסה הטהורה של המודלים, כלומר, לא היתה מעורבות נוספת של מתורגמני קוד.
החוקרים מינפו הנחיות ויזואליות ממערך הנתונים של Abstract Reasoning Corpus (ARC) כדי להעריך את ההיגיון של המודל - וגם כאן נצפתה ירידה. "GPT-4 ביוני עשה טעויות בשאילתות שבהן הוא היה נכון במרץ", נכתב במחקר.
מה יכול להסביר את הירידה לכאורה בביצועים של ChatGPT לאחר כמה חודשים בלבד? החוקרים משערים שייתכן כי מדובר בתופעת לוואי של אופטימיזציות שבוצעו על ידי OpenAI, היוצרת שלה, כדי למנוע ממנו לענות על שאלות מסוכנות. החוקרים מצאו כי המודל נוטה כעת לתת תגובות מילוליות עקיפות במקום תשובות ברורות ומדויקות יותר.
""הביצועים של GPT-4 נעשים פחות טובים עם הזמן" אמר מומחה הבינה המלאכותית סנטיאגו ולדררמה בטוויטר והעלה את האפשרות שתערובת "זולה ומהירה יותר" של דגמים מחליפה את ארכיטקטורת ChatGPT המקורית. "שמועות מצביעות על כך שיש שימוש בכמה דגמי GPT-4 קטנים ומיוחדים הפועלים בדומה לדגם גדול אבל פחות יקרים להפעלה", שיער ולדררמה. לדבריו, הדבר יכול להאיץ את התגובות למשתמשים אך להפחית את היכולת.
מומחה אחר, ד"ר פאן JM, טוען כי ייתכן שגורמים נוספים נכנסו לתמונה, כמו למשל מאמצי קיצוץ בעלויות, הצגת אזהרות והסתייגויות שעלולות "לטמטם" את המודל והיעדר משוב רחב יותר מהמשתמשים.
אמנם יש צורך בבדיקות מקיפות יותר, אך הממצאים עולים בקנה אחד עם התסכול שמביעים משתמשים על ירידה בקוהורנטיות ובתפוקות הרהוטות של ChatGPT. כיצד אפשר למנוע הידרדרות נוספת? יש הדוגלים במודלים של קוד פתוח, כמו LLaMA של מטא (שעודכן זה עתה), המאפשרים איתור של באגים בקהילה. השוואת ביצועים מתמשכת כדי לתפוס מוקדם יותר מקרים של נסיגה היא חיונית.
לעת עתה, ייתכן שאוהדי ChatGPT יצטרכו למתן את הציפיות שלהם. המכונה הפרועה לייצור רעיונות נראית מאולפת יותר - ופחות מבריקה. נראה שירידה הקשורה לגיל היא בלתי נמנעת, אפילו עבור הבינה המלאכותית.