ריאיון"בארד של גוגל לא נועד לתת תשובות עובדתיות"
ריאיון
"בארד של גוגל לא נועד לתת תשובות עובדתיות"
עדי מירב גלעדי ממרכז הפיתוח של גוגל בישראל מדגישה שהייעוד של בארד, צ’אטבוט הבינה המלאכותית, הוא במשימות יצירתיות, ככלי עזר לסיעור מוחות ודמיון. על אימון המודל היא מספרת שהוא “דומה לאילוף של כלב” ומדגימה איך מטפלים בהטיות מגדריות
עדי מירב גלעדי, מנהלת מוצר בחטיבת המחקר של גוגל, אחראית על מוצרי בינה מלאכותית גנרטיבית. בחודשים האחרונים את עובדת בעיקר על גוגל בארד, צ’אטבוט ה־AI. לפני שנתיים עברת מהמטה בניו יורק לישראל. למה?
“כי זה הבית. המשפחה כאן. החברים כאן”.
לפני כשבועיים גוגל השיקה את בארד בעברית, בגל השני של ההשקה ביחד עם כ־40 שפות נוספות, אחרי שקודם לכן היה זמין בשלוש שפות בלבד. אפשר להגיד בבטחה שעברית היא לא אחת מ־50 השפות המדוברות בעולם. למה זכינו לכבוד?
“זה היה יום מאוד מרגש, הרגע הכי גדול של בארד מאז יצא לשוק. מכיוון שהוא יצא ב־40 שפות, מאוד השקענו בשימושיות למשתמשים בכל העולם, והיינו מאוד גאים בתוצאה. גם יצאו המון פיצ’רים חדשים כמו תמיכה בגוגל לנס (אפליקציית הזיהוי החזותי - ע”כ) והאפשרות לדבר עם בארד. לגבי התמיכה בעברית, אנחנו רואים את השימוש במוצרים של גוגל בכל העולם, ואת הביקוש. היה תהליך של תעדוף שפות לפי הצורך של המשתמשים ועברית היתה ביניהן”.
אחת הבעיות באימון מודל שפה גדול (LLM) בעברית היא שיחסית לשפות אחרות יש היצע טקסטים מוגבל מאוד. איך התמודדתם עם האתגר הזה?
“נכון, יש הרבה פחות טקסטים מקוונים בעברית להתאמן עליהם, ובאמת ראינו שהאיכות ההתחלתית של המודל בעברית לא היתה טובה כמו באנגלית. הוא עבר כמה תהליכים של כוונון, fine tuning, התאמה של התשובות ושיפור האיכות. בחלק מהתהליכים האלו הוא לומד מדוגמאות. למשל, מלמדים את בארד איך נראה אימייל, איך נראה פוסט של בלוג. לצורך כך יש לנו צוות של בודקים וכותבים אנושיים שעוזרים בשיפור המודל, ועושים דברים כמו לכתוב תוכן, לבדוק תשובות, לתקן אותן, להגיד מה באיכות טובה ומה לא, לסמן כשתשובה לא מתאימה לקריטריונים שלנו, למשל אם יש הטיה שלילית, שזה דבר שאנחנו מטפלים בו אקטיבית.
מודל שפה גדול - Large Language Model — LLM — מערכת בינה מלאכותית שאומנה על כמות עצומה של טקסט – 3.6 טריליון יחידות מידע במקרה של המודל המתקדם ביותר של גוגל – ומסוגלת לשוחח עם משתמשים אנושיים בשפה טבעית וקולחת, ולהשתמש בבסיס הידע שלה על מנת ליצור טקסטים חדשים לגמרי
“לאחר מכן יש עוד שלב בשם reinforcement learning (‘למידת חיזוק’, מציע בארד את התרגום לעברית - ע”כ). זו שיטה לאימון המודל שבה הוא לומד על ידי ניסוי וטעייה. זה דומה להליך אילוף של כלב. כשהוא מנסה לעשות תרגיל, אם הוא מצליח הוא מקבל עוגייה ואם הוא לא מצליח הוא מקבל נזיפה. בהתאם, המודל מקבל פידבקים על תשובות שהוא מספק, ויודע איך להתמקד בתשובות שאנחנו מכוונים אליהן. הצוותים של הבודקים האנושיים מסמנים מה יותר טוב ומה פחות, ומתקנים אם צריך. יש מודלים ודרכים לסמן דברים באופן אוטומטי, ויש גם פידבק שמגיע ממשתמשים בפועל שיכולים לדרג תשובות של בארד. על סמך כל הדברים האלו מאמנים מודל תגמול, שבו משתמשים כדי לעשות כוונון עדין לבארד. כשהמודל יוצא למשתמשים, ככל שמשתמשים בו יותר, ככה הוא משתפר הודות לפידבק שלהם. ככל שהמודל בעברית יהיה יותר בשימוש, ככה הוא ישתפר עוד”.
אילו עוד אתגרים עלו בהליך הפיתוח בעברית?
“עברית זו שפה שיש בה זכר ונקבה. ובכל העבודה הרוחבית על בארד, ובטח בשפות ממוגדרות, אנחנו רוצים שהמודל יהיה כמה שיותר נטול הטיה ושיענה בשפה ניטרלית. זה משהו שבדקנו אקטיבית וסימנו מקרים שבהם הוא משתמש שלא לצורך או שלא במקום הנכון בזכר ובנקבה. למשל, בהתחלה הבנו שהוא דיבר על מקצועות מסוימים שנחשבים גבריים בלשון זכר ועל מקצועות אחרים שנחשבים נשיים בלשון נקבה. זה כמובן לא משהו שאנחנו רוצים שיקרה, ואנחנו מטפלים בזה בשלב האימון כדי להימנע מהטיות כאלו. בארד מתאמן על הטקסטים שיש בעולם, וכל הטיה שיש בו משקפת הטיה שיש בחברה. אנחנו כל הזמן בודקים, מנסים למצוא מקרים כאלו ולטפל בהם”.
על אימון הצ’אטבוט: "המודל מקבל פידבקים על תשובות שהוא מספק, ויודע להתמקד בתשובות שאנחנו מכוונים אליהן. הבודקים האנושיים מתקנים אם צריך"
התמודדות עם מידע מומצא
אחת הבעיות המוכרות של מודלי שפה גדולים היא המידע המומצא שהם מייצרים בבטחה כמענה לשאלות. איך אתם מתמודדים עם זה?
“מאחורי מודל שפה גדול אין מסד נתונים שממנו הוא שולף מידע. זה כלי סטטיסטי שהתאמן על המון טקסט וחוזה בסבירות סטטיסטית צירופי מילים. לכן רואים את התופעה של טעויות או אי־דיוקים. זה משהו שאנחנו כל הזמן משפרים. למשל, מוציאים תשובות בעייתיות או תשובות עם אי־דיוקים, וכחלק מהאימון של המודל מאמנים אותו שיהיה כמה שיותר קרוב למציאות. אבל חשוב להבין שבארד לא נועד להיות כלי שנותן תשובות נקודתיות או עובדתיות. בשביל זה גוגל חיפוש הוא הכלי הכי טוב. בארד הוא בן לוויה למשימות יצירתיות, מקום לסיעור מוחין, כלי עזר לדמיון. אם משתמש מבקש מבארד לכתוב סיפור על חד־קרן סגול, אנחנו לא רוצים שהוא יגיד, ‘אין דבר כזה חד־קרן’. אנחנו רוצים שהוא יהיה כלי לעזור למשתמשים לחשוב על דברים חדשים”.
בואי נרחיב את זה. מה השימושים שצריכים להיות לבארד או שאתם רואים משתמשים עושים בו?
“בארד מצוין למגוון משימות יצירתיות שקשורות לטקסט. הוא מאוד טוב במגוון משימות פרודוקטיביות, למשל לכתוב אימייל או נאום, או לעזור לקודד. הוא מאוד טוב בלפתור את בעיית הדף הריק. כשאתה מגיע למשימה ולא יודע מאיפה להתחיל את המחקר או את הכתיבה, הוא נותן מקפצה או נקודת התחלה. שימושים שראיתי או עשיתי: אפשר להזין לבארד מאמר ארוך מאוד ולבקש ממנו לתמצת אותו ב־300 מילים, או להציג את נקודות החוזקה והחולשה של המאמר.
על האתגרים בפיתוח בעברית: "עברית זו שפה שיש בה זכר ונקבה. אנחנו רוצים שהמודל יהיה כמה שיותר נטול הטיה ושיענה בשפה נייטרלית. בדקנו וסימנו מקרים בעייתיים"
“בארד יכול לעזור לכתוב כל מיני דברים יצירתיים שמותאמים מאוד אליך. למשל, אפשר לבקש ממנו לכתוב סיפור לילדים לפני השינה שמותאם לילד שלך. למשל, אם יש לך בן 4 שצריך עזרה להיפרד מהמוצץ והוא מאוד אוהב כדורגל, אפשר לבקש מבארד סיפור מיוחד בשבילו. הבת שלי אוהבת חדי־קרן, גלידות וצבע סגול, וביקשתי מבארד שיכתוב לה סיפור לפני השינה בהתאם למה שהיא אוהבת. אפשר לבקש ממנו להכין תוכנית אימונים שמתאימה לצרכים שלך לפי פרמטרים אישיים ומקום שבו רוצים להתאמן, למשל בפארק. אפשר לבקש רעיונות לאיך ללמד ילדים שברים, לספר חדש שרוצים לכתוב, אפשר אפילו לתאר את הספר ולבקש מבארד להציע סיום שלו.
“בארד נועד לעזור לחשוב על רעיונות. אני חוגגת לבת שלי יום הולדת בסוף השבוע. בארד נתן לי רעיונות למקומות בהם אפשר לחגוג יום הולדת באוגוסט, עזר להכין רשימה של דברים לקנות וכיבוד. עם הפיצ’ר החדש של גוגל לנס, שמאפשר לשאול את בארד שאלות מבוססות תמונה, ראיתי כבר אנשים בטיקטוק שצילמו את הארוחה וביקשו מבארד לנתח כמה קלוריות יש בה, או צילמו את תכולת המקרר וביקשו רעיונות מה לבשל. אפשר לצלם אפילו טבלה על נייר, ולבקש מבארד להפוך את זה לטבלת טקסט שאפשר לייצא לגוגל דוקס”.
וזה בדיוק המקומות שחשוב שהוא לא ימציא דברים. את לא רוצה למשל שהוא יעריך בצורה שגויה את הקלוריות בארוחה שלך.
“בגלל שזה מודל שפה, הוא לא נועד לתת מידע נקודתי מדויק, ואנחנו מאוד ממליצים בכל דבר שעושים עם בארד להמשיך את החיפוש בגוגל. גם במקרים האלו אנחנו ממליצים לבדוק ולוודא שאין אי־דיוקים שהתווספו בדרך. ברוב המקרים זה נותן נקודת התחלה הרבה יותר טובה, משהו לעבוד אתו. זו מקפצה למה שאתה צריך לעשות”.
שיטות אימון ושיפור
מה לגבי להציג את המקורות שעליהם הסתמך בארד בתשובה שלו? האינטרגציה של GPT בדפדפן בינג של מיקרוסופט עושה משהו דומה.
“זה לא משהו שיש היום בבארד. לא יודעת לגבי העתיד אבל אנחנו מפנים ישירות מהמוצר לגוגל חיפוש. וגם המטרה היא לא שבארד יחזור על טקסטים שהגיעו מהאינטרנט מילה במילה, אלא שיהיה כלי ליצירתיות, או להבנה וסיכום של כמויות גדולות מאוד של טקסט”.
בארד מציב אתגרים מאוד גדולים לחינוך ולאקדמיה. סטודנטים כבר משתמשים במודלי שפה לכתיבת עבודות. זו סוגיה שמטרידה אתכם? שרלבנטית לכם?
“זו טכנולוגיה חזקה, מלהיבה ומסעירה. כמו כל טכנולוגיה אחרת היא תשפיע על העולם ותשנה אותו. אנחנו מקווים ומצפים שההשפעה תהיה חיובית. זו טכנולוגיה שיכולה לפנות לאנשים מקום וזמן בשביל עבודה יותר משמעותית, בשביל חשיבה יותר מעמיקה. יכולה לעזור עם משימות שלוקחות זמן, מפנה מקום ומרחב לחשיבה”.
אתם עובדים עם האקדמיה כדי לעזור להבין איך להתמודד עם האתגרים של בארד?
“גוגל עובדת עם האקדמיה בהמון רמות. יש פה חוקרים מהרבה אוניברסיטאות ויש צוותים שזו העבודה שלהם, לעבוד עם כל הצדדים של הקהילה, לא רק אוניברסיטאות”.
על האתגרים לחינוך ולאקדמיה: "זו טכנולוגיה מלהיבה ומסעירה והיא תשפיע על העולם ותשנה אותו. זו טכנולוגיה שיכולה לפנות זמן בשביל עבודה יותר משמעותית, בשביל חשיבה יותר מעמיקה"
מה החשיבות של מרכז המו”פ של גוגל בישראל לפיתוח של בארד ובינה מלאכותית גנרטיבית? הוא עוסק גם בתחומי הליבה או רק בהתאמה לעברית?
“יש כמה קבוצות מחקר בתחום ה־NLP, עיבוד שפה טבעית. המחקר כאן הוא חלק מהליבה של המודל, לא רק התאמה לעברית. אנחנו מפתחים כאן שיטות אימון ושיטות לשיפור התוצאות של המודל. הצוות הוא חלק מהצוות העולמי. מחקר שהתבצע בארץ הוא חלק ממה שעושה את בארד לבארד, ומשפר את איכות התשובות שהוא נותן”.
לסיום, תני כמה טיפים לאיך לכתוב פרומפט (ההנחיה לצ’אטבוט) טוב לבארד.
“עוזר מאוד להדגיש לבארד דברים שחשובים לך. למשל, לכתוב מפורשות שאני רוצה שזה יהיה מותאם לילדה שאוהבת סגול. חוץ מזה, זה הרבה מאוד ניסוי וטעייה. אחרי שמקבלים תשובה, אפשר לכתוב פרומפט עם כוונון או הבהרה. למשל, ‘זה היה ארוך מדי’ או ‘אני רוצה טון פחות רשמי’. אם אתה מחפש רעיונות לטיול חדש והוא נתן הצעות לא מתאימות, אתה יכול לכתוב, ‘אני בכלל לא אוהב חופים’, או ‘כבר הייתי בתאילנד ומחפש משהו שונה, אז תן לי הצעות אחרות’”.
עדי מירב גלעדי (38)
- גרה בתל אביב, נשואה 2 +
- השכלה: תואר ראשון בהצטיינות יתרה בכלכלה וחשבונאות מאוניברסיטת תל אביב, תואר שני בהצטיינות במינהל עסקים מאוניברסיטת קולומביה, ניו יורק
- עובדת בגוגל שבע שנים, במגוון תפקידים. לפני גוגל עבדה בפירמת KPMG במחלקת ייעוץ אסטרטגי
- תחביביה: טיול בעולם ויוגה