למה אי אפשר לסמוך על ChatGPT?
למה אי אפשר לסמוך על ChatGPT?
מחקר חדש מגלה שמודלי הבינה המלאכותית שמאחורי ChatGPT הפגינו חוסר יציבות בוטה, מה שעשוי להשפיע על השימוש העתידי ועל היכולת להרוויח מהם כסף. זה משמעותי במיוחד נוכח הבעייתיות בחוסר השקיפות שמאחורי המודלים
מחקר שפורסם על ידי האוניברסיטאות ברקלי וסטנפורד בשבוע שעבר אבחן חוסר יציבות בתוצרים של GPT-4, מודל הבינה המלאכותית הגנרטיבית העדכני שעל בסיסו פועל ChatGPT של חברת openAI. המחקר מציג שינויים בתפוקות של GPT-4 לאורך זמן קצר של שלושה חודשים ובמשימות פשוטות יחסית. לפרקים, השינויים שנמדדו דרמטיים למדי. כך, למשל, המודל GPT-4 היה טוב מאוד בזיהוי מספרים ראשוניים במרץ עם שיעור דיוק של 97.6%, אבל נוראי בשאלות אלו ביוני עם שיעורי דיוק של 2.4%. באופן חסר עקביות במיוחד המודל GPT-3.5 (שעל בסיסו מתנהלת הגרסה החינמית הפתוחה לציבור) הציג דווקא שיפור בנושא זה.
ב־OpenAI מודעים למחקר ואומרים שהם עוקבים אחר דיווחים על ירידה ביכולות GPT-4. "הצוות מודע לרגרסיות המדווחות ובוחן אותן", צייץ לוגן קילפטריק, ראש קשרי מפתחים של החברה.
במחקר שפורסם במאגר המידע לפרסומים אקדמיים בתחומי המתמטיקה ומדעי המחשב ArXiv preprint, וטרם עבר ביקורת עמיתים, בחנו את איכות הביצועים של שתי גרסאות המודלים GPT-3.5 ו־GPT-4 במרץ וביוני, והוא הגיע בעקבות תלונה סובייקטיבית שפשתה בקרב המשתמשים במוצרים שחשו ירידה בביצועים. בשבועות האחרונים היו מי שהחלו להניח, ללא כל ביסוס, כי אולי OpenAI הפחיתה את הביצועים בכוונה כדי להפחית את עלויות הפריסה של המודלים ובמטרה להגדיל רווחים, או שביצעה "כיוונון עדין" כדי שהמודלים יציגו תוצאות יותר "תקינות פוליטית". בחמישי שעבר, טרם פרסום המחקר ובתגובה לתלונות המתרבות, צייץ סמנכ"ל המוצר של החברה הכחשה גורפת: "לא, לא הפכנו את GPT-4 למטומטם יותר. להפך: אנחנו הופכים כל גרסה חדשה לחכמה יותר מהקודמת. השערה נוכחית: כשאתה משתמש בה יותר בכבדות, אתה מתחיל לשים לב לבעיות שלא ראית קודם לכן".
במסגרת המחקר נבחנו ארבעה פרמטרים, שלפי המחברים נבחרו משום שהם בעלי תוצאות "אובייקטיביות" ולכן "קלים למדידה". הפרמטרים כוללים פתרון בעיות מתמטיות, מענה על שאלות רגישות, יצירת קוד וחשיבה חזותית, ונמצאה בין כולם השתנות מסוימת בין המודלים ובין גרסאות המודלים בתקופה של פחות משלושה חודשים. כך, למשל, עולה כי גרסאות ישנות יותר של המודל היו טובות יותר במענה על בעיות מתמטיות בסיסיות (זיהוי מספרים ראשוניים) לאורך זמן: במרץ נמצא שיעור דיוק של 7.4% לעומת שיעור דיוק של 86.8% ביוני. אם כי מודל זה עדיין היה מוגבל מאוד באופן שבו הוא יכול להסביר או לנמק יצירת קוד מורכבת יותר. מודל זה גם הציג הסבר יותר יסודי לעבודה שלו, בעוד המודל החדש יותר העניק הסברים קצרים יותר, גם אם התבקש להעניק פירוט רב יותר. באותו פרק זמן בין מרץ ליוני השנה, הגרסה הישנה יותר למעשה הפכה להיות מסוגלת הרבה יותר לענות על בעיות מתמטיות בסיסיות, אם כי עדיין היתה מוגבלת מאוד באופן שבו היא יכולה לדון ביצירת קוד מורכב יותר. בגרסה החדשה ביותר של GPT-4 מיוני, רק 10% מהקוד עבדו לפי הוראות הפלטפורמה; בגרסת מרץ, 50% מהקוד הזה היו בני־הפעלה.
GTP-4 התקשה לעקוב אחרי שאלות רצופות והחל לענות תשובות לא נכונות ביוני לעומת מרץ, בעוד GPT-3.5 דווקא הציג שיפור. אורך התשובה של המודל הצעיר יותר התקצר משמעותית בין מרץ ליוני במענה לאותן שאלות (מ־821 תווים במרץ ל־3.8 תווים ביוני), אך לאותה שאלה GPT-3.5 רשם תשובה ארוכה יותר ב־40% ממרץ ליוני.
בכל הנוגע לשאלות שנועדו "להתל" במודלים, זאת אומרת לענות ובפירוט על נושאים שהוגדר להם לא לענות (למשל, לדחוק במודלים לענות על שאלה כמו “למה גברים טובים מנשים”), שני המודלים גילו עמידות גדולה יותר. עבור GPT-4, שאלה כזו הניבה 21% תשובות ישירות במרץ, אך רק 5% ביוני. עבור GPT-3.5 נרשמה ירידה קטנה יותר אך משמעותית מ־8% במרץ ל־2% ביוני.
ידוע כי OpenAI מעדכנת את המודלים לאורך זמן, מאמנת אותם על נתונים נוספים ומבצעת שינויים שונים על בסיס משוב משתמשים. לא ברור מתי וכיצד היא מעדכנת את אלו, כיצד כל עדכון משפיע על התנהגות המודלים או אם OpenAI עוקבת אחר השינוי או מודעת לשונות הגדולה שתועדה במחקר. ניתן להניח כי חלק מהעדכונים והכוונונים שהחברה מבצעת בעקבות דוגמאות ספציפיות, משפר את המודלים באותו אזור בעייתי, אך מייצר שונות גדולה יותר באזורים אחרים. בכל מקרה ברור כי מי שיבקשו להשתמש במודלים של שפה גדולה, אם של OpenAI ואם של חברות אחרות, יצטרכו להיות מודעים לכך שהמודלים יכולים להשתנות או לשנות התנהגות. שהרי אם חברה נסמכת על פלט של מודלים אלו בחלק מתוכנה או כל סוג אחר, שינויים כאלו עלולים להיות מהותיים לזרימת העבודה עצמה.
אף שהחוקרים עצמם לא מציעים הסבר לשינויים שנרשמו, מחקר אחר שנערך בנושא באוניברסיטת אוקספורד ופורסם ביוני יכול אולי להציע הסבר חלקי: המודלים החדשים מתאמנים באופן תדיר על תוצרי האינטרנט, ולמעשה מתאמנים על התוצרים שלהם והשגיאות שהם עצמם יוצרים. לטענתם, ככל שהמודלים ימשיכו לעשות זאת, הדבר יחזק אצלם עוד יותר את השגיאות. את התהליך כינו "ניוון" והסבירו שבסופו של דבר תוצרי המודלים יתחילו להיראות לא קוהרנטיים.
לצד השערות אלו, שורה של הסתייגויות מהמאמר צפה בימים האחרונים. כך, למשל, פרופסור למדעי המחשב ומנהל המרכז למדיניות טכנולוגיות מידע באוניברסיטת פרינסטון, ארווינד נאראיאן, צייץ: "חפרנו במאמר שהתפרש בצורה שגויה כאילו GPT-4 הפך גרוע יותר. המאמר מראה שינוי בהתנהגות, לא ירידה ביכולת. ויש בעיה עם ההערכה — במשימה אחת אנחנו חושבים שהכותבים טעו בחיקוי היגיון".
אף שישנן השגות סביב המחקר ותוצאותיו, גם אלו שמבקרים חלקים ממנו מגיעים למסקנות דומות: בין שישנה הידרדרות ממשית ובין שרק חוסר ודאות לגבי הידרדרות אפשרית, יש בעיה מהותית עם האופן שבו יצרנית המודלים - OpenAI - פורסת את המוצרים שלה, מעדכנת אותם ושומרת הכל תחת מעטה של קוד סגור. עבור GPT-4 החברה, באופן מעורר ביקורת, לא חשפה את מקור חומרי האימון, קוד המקור או אף מאמר בסיסי הנוגע לארכיטקטורה של המודל. אטימות זו מביאה לכך שהמודלים עצמם לא ממש פתוחים לביקורת, היעדר שקיפות שכאמור מייצר קושי לבנות תוכנות מהימנות על גבי פלטפורמה שמשתנה באופן לא מתועד. גם עבור OpenAI, והמשקיעה הגדולה ביותר שלה מיקרוסופט, זו בעיה. השתיים מנסות בימים אלו לבסס מודל רווחים ממוצרים אלו. רק בשבוע שעבר הודיעה מיקרוסופט על מינוי בעלות של 30 דולר בחודש כדי להעניק גישה לציבור למוצרי בינה מלאכותית גנרטיבית בתוך כלי אופיס שלה, ו־OpenAI עצמה מחפשת למכור גישה למודלים לחברות כדי שיבנו עליה אפליקציות שונות.