שוברת קודיםאפליה על בסיס שפת אם: למחשב אין מושג על מה הוא מדבר
שוברת קודים
אפליה על בסיס שפת אם: למחשב אין מושג על מה הוא מדבר
בינה מלאכותית נוטה לתרגם וללמוד שפות לא נפוצות באופן ירוד. כלי AI כמו ChatGPT מתאמנים על התוצרים הנחותים בשפות אלו, ומיליארדי הדוברים אותן יסבלו מעיכובים טכנולוגיים ואפליה
איזה מקור מידע הייתם מעדיפים שישמש בסיס לתגלית הגדולה של המאה ה־21? טקסטים מכוננים ומורכבים או ערימה של זבל שתורגם באופן נוראי? לפי מחקר ממעבדת הבינה המלאכותית של AWS (חטיבת הענן של אמזון), האפשרות השנייה היא המציאות הנוכחית. במאמר שפורסם החודש נמצא שיותר ממחצית מהמשפטים באינטרנט תורגמו מאנגלית לשתי שפות או יותר באיכות נמוכה בשל שימוש בתרגום מכונה (MT). ערימת התרגומים הנחותים הזו היא גם קורפוס הידע של מודלים של בינה מלאכותית, במה שנראה שידון רבים מאיתנו לפיגור טכנולוגי.
החוקרים, שהגישו את מחקרם לפלטפורמת הטרום־הדפסה arXiv, בנו קורפוס של 6.38 מיליארד משפטים שנקצרו מהרשת. על קורפוס זה בחנו החוקרים קבוצות של משפטים שהם תרגומים ישירים זה של זה בשלוש שפות או יותר. בחינה זו העלתה שלכ־58% מהמשפטים בקורפוס היו מקבילים בשלוש שפות לפחות, או במילים פשוטות, רוב האינטרנט פשוט מתורגם. והבחינה העלתה ממצא נוסף — רוב התרגום פשוט גרוע.
איך זה קורה? באופן שנראה כמעט מנוגד לאינטואיציה, שפות בעלות "משאבים גבוהים" כמו צרפתית או אנגלית מתורגמות לפחות שפות מאשר שפות בעלות "משאבים נמוכים". בפועל, דווקא שפות שיש להן נוכחות אינטרנטית נמוכה הן אלו שמתורגמות הרבה יותר, ואותה נוכחות נמוכה באינטרנט הופכת אותן קורבנות לתרגום מכונה.
1. משפטים קצרים, נושאים רדודים
השפות עם "משאבים גבוהים" הן מעטות. בראש הרשימה ניצבת אנגלית, אחריה סינית (מנדרינית), ערבית וצרפתית. אחר כך ניתן גם להוסיף גרמנית, פורטוגזית, ספרדית ופינית. לשפות אלו יש אוספים גדולים ונגישים של טקסט דיגיטלי ודיבור מוקלט מתומלל. ליתר 700 השפות משאבים נמוכים מהותית. במחקר נמצא שתוכן בשפות בעלות משאבים גבוהים נמצא בעשירון התחתון של מספר התרגומים, עם תרגום לעוד שלוש שפות נוספות בממוצע; ואילו לתוכן בשפות בעלות משאבים נמוכים כמו קוסה (שמדוברת בדרום אפריקה וזימבבואה, וסך הכל על ידי כ־20 מיליון איש) יש בממוצע תרגום לעוד 7.6 שפות.
הבעיה לא תמה כאן. בשפות שיש להן תרגומים רבים נמצאה גם הטיית בחירה כלפי משפטים קצרים וצפויים של בין חמש לעשר מילים. מדובר בטקסטים באיכות נמוכה שנדרשים מעט מאוד מומחיות או ידע כדי ליצור אותם וגם הנושאים גנריים כמו "שישה טיפים לבעלי סירות", או "ההחלטה להיות מאושרים". הטיה זו של תרגום המוני של טקסטים באיכות נמוכה, נטען במחקר, נובעת מרצון המתרגמים לייצר תכנים מרובים שיניבו הכנסות ממודעות. משמעות הדבר, מסכמים במחקר, שחלק גדול מהתוכן באינטרנט הוא תרגום מכונה רע של שפות עם משאבים נמוכים. "ככל שמשפט תורגם ליותר שפות, האיכות של התרגומים שלו נמוכה יותר, מה שמצביע על שכיחות גבוהה יותר של תרגום מכונה", כתבו החוקרים.
כך קיבלנו תנועת מלקחיים שמשחיתה שפות לדורות, מעין מצב מוזר שבו "ספירלת מוות" פוטנציאלית נראית כמעט בלתי נמנעת: חברות כמו מיקרוסופט וגוגל משתמשות בנתוני העתק באינטרנט לאימון עבור המודלים שלהן, ושפות בעלות משאבים נמוכים לא מיוצגות היטב באינטרנט. לכן קיימים פחות נתונים לאמן את המודלים הספציפיים לשפות אלו, אבל הן פורסות כלים שמבוססים על המודלים האלה שמאומנים גרוע.
אותם מודלים משמשים עזרים לכלי תרגום מכונה, ואותם אתרים באינטרנט פורסים את תרגום המכונה כדי לתרגם תכנים לשפות שאינן אנגלית. ההשפעה ממשיכה להתפשט כשכלי הבינה המלאכותית ממשיכים להתאמן על נתונים אלו שהיתה להם בסופו של יום גם יד בתרגומם. דינמיקה זו עלולה ללכוד את המודלים ואתרי התוכן בלולאות משוב שיפיצו שפות בעלות משאבים נמוכים בצורתן הנמוכה והשגויה ביותר.
משמעות הדבר היא שמודלים של שפה בשפות עם משאבים נמוכים יהיו גרועים משמעותית וייווצר אפקט מצטבר של פיגור טכנולוגי עבור מוצרים מבוססים על שפות כאלה. "בינה מלאכותית מודרנית מתאפשרת בעזרת כמויות עצומות של נתוני אימון", מציינים החוקרים. "הכשרה בקנה מידה זה אפשרית רק עם נתונים שנאספים מהאינטרנט. הממצאים שלנו מעלים דאגות רבות עבור בוני מודלים רב־לשוניים, שעלולים לבנות מודלים פחות שוטפים ועם יותר הזיות".
2. ChatGPT לדוברי אנגלית בלבד
מחקר זה מהדהד את מה שמשתמשים בשפות בעלות משאבים נמוכים ידעו כבר מזמן. מאז הושקו ChatGPT והאלטרנטיבות לו של גוגל ואחרים, הם משגשגים בקומץ שפות כמו אנגלית, צרפתית, גרמנית וגם סינית, אך נכשלים כישלון מהדהד בשפות רבות אחרות כמו סווהילית, בנגלית, אורדו או תאילנדית על מאות מיליוני השולטים בהן. זהו כישלון ברמות הנמוכות ביותר שהצ'אטים נדרשים אליהם, שכולל חוסר יכולת להתמודד עם המשימות הפשוטות ביותר. כבר שם הם ממציאים עובדות, עונים בג'יבריש ומתנסחים ללא היגיון פנימי.
הישועה לא מגיעה מענקיות הטכנולוגיה שמובילות את מרוץ הבינה המלאכותית. אלו מכירות בבעיית השפה, ועדיין מתייחסות לאנגלית כשפה החשובה ביותר — מעין ברירת המחדל. כל הטכניקות שמפותחות בהקשר זה מפותחות באופן ספציפי לשפה האנגלית (ופיתוחים דומים גם בסינית בסין).
מי שנדרשים לבעיה הם בעיקר סטארט־אפים מקומיים מאפריקה ודרום־מזרח אסיה, שהחלו להעסיק כותבי תוכן מומחים בשפות המקומיות, שמשימתם היא לייצר טקסטים איכותיים באותן שפות בעלות משאבים נמוכים ולדרג באמצעות מומחים תרגומים שנעשו בידי מכונה — מה שמכונה "למידת חיזוק ממשוב אנושי". לפי תחקיר של “הוושינגטון פוסט" מאוגוסט, מומחים אלו מקבלים חמישית התשלום ממקביליהם בשפות בעלות משאבים גבוהים כמו צרפתית וגרמנית, שגם אותם מעסיקים בפרויקטים דומים כדי לחזק את המודלים. כזה הוא העולם, הפוך.
לצדם גם סטארט־אפ אמריקאי אחד, Scale AI, שנוהג לשלם לעובדי קבלן במדינות רבות בעולם למיקרו־משימות שנוגעות לאימון מודלים. בשירות הסטארט־אפ הזה משתמשות מטא, גוגל וגם OpenAI.
לאחרונה העריכה קרן המטבע הבינלאומית שהבינה המלאכותית תעמיק את אי־השוויון בעולם ותשפיע על 40% מהמשרות. בקרן המטבע מבצעים הערכה זו תוך עיוורון כפול: ראשית, ההשפעה של בינה מלאכותית אינה רק על משרות. בזמן ש"מהפכת הבינה המלאכותית" נדחפת באגרסיביות על ידי השוק הפרטי ומוצרים מבוססים על מודלים של שפה נדחפים לבצע אינטגרציה עמוקה עם כל רכיבי החיים — מעבודה ועד כלל השירותים החברתיים — אלו המדברים בשפות לא מיוצגות יסבלו מעיכובים טכנולוגיים מרובים רק בשל הדגש המועט שניתן לשכלול המודלים שיתאימו לשפתם. שנית, קרן המטבע טועה לנקוב בטכנולוגיה כסיבה להעמקת אי־השוויון. זו לא הבינה המלאכותית שאחראית לכך אלא מי שמפתח ומפקח עליה. אם ימשיכו כל הנוגעים בדבר לטמון את ראשם במציאות מבוססת אנגלית, צרפתית וגרמנית, כל היתר יישארו מאחור.