מודל השפה שמזהה שמות לא ידועים של קורבנות השואה
מודל השפה שמזהה שמות לא ידועים של קורבנות השואה
בינה מלאכותית למען מיצוי עדויות על הנספים: מחלקת החדשנות של יד ושם פיתחה שימוש במודל שפה שביכולתו לחלץ מאינספור העדויות שמות ופרטים חדשים, במהירות שעבודה ידנית לעולם לא תוכל להתחרות בה. בזכות הפרויקט כבר נוספו 400 שמות חדשים להיכל השמות, ורבים עוד בדרך
ביד ושם רותמים את ההתקדמות הטכנולוגית כדי לאתר, להצליב ולאשש מאות אלפי שמות נרצחים בשואה שטרם זוהו.
הפרויקט שעליו החלו לעבוד בשנתיים האחרונות משתמש במודל שפה גדולה (LLM) לצורך זה, ובאמצעות פיילוט שהושלם לאחרונה נוספו 400 שמות להיכל השמות, המכיל היום 4.9 מיליון שמות. ביד ושם מעריכים כי בכל אחת מבין 20 אלף העדויות שבידי המכון ניתן יהיה לחלץ כשבעה שמות של נספים שלא היו ידועים עד כה.
כך, למשל, מספרים ביד ושם כי בעדות שניתנה על ידי ניצולת השואה אולגה כץ־גולדשטיין בשנת 2017 וכללה דפי עד עבור הוריה ואחיותיה, שעליהם מסרה פרטים, לא היו דפי עד על משפחתה המורחבת. בעזרת מודל שפה גדולה שפיתחו במכון ובעזרתם של מומחים שונים, הצליחו ביד ויד ושם לחלץ את שמותיהם של בני משפחה נוספים של כץ־גולדשטיין שנרצחו באושוויץ, כולל סבתה, דודיה ואחיינים. בלי הטכנולוגיה הזו היה ככל הנראה לוקח עוד זמן רב - אם בכלל היה אפשר - לגלות את שמותיהם. במקרה זה הטכנולוגיה איתרה שמות שאפילו בת המשפחה לא זכרה או ידעה לספר עליהם.
מאגר שמות קורבנות השואה ביוזמתו ובהובלתו של יד ושם פועל לאסוף את שמות קורבנות השואה ושחזור סיפורי חייהם. במשך עשרות שנים פרויקט זה אסף ותיקף שמות רק באופן ידני ואיטי שכלל דפי עד, רשימות שילוחים ומסמכים ארכיוניים, שנסקרו על ידי מומחים בשפות שונות שקראו וניתחו את הטקסטים השונים כדי לחלץ פרטים על נספים וניצלים.
ברשות יד ושם כ־10 מיליון רשומות ממקורות שונים. רבות מרשומות אלו מעולם לא נסקרו על ידי צוותי המכון בשל מחסור בכוח אדם. הציפייה כעת היא להזין למערכת שפותחה את כל מיליוני הרשומות כדי לנסות לחלץ שמות ומקומות חדשים, וכמו גם את הקשרים בין אלו על פני המסמכים השונים. "שימוש בבינה מלאכותית מסייע לחקר השואה בדרכים רבות ושונות. הטכנולוגיה מסייעת ליד ושם לסקור בתוך זמן קצר מאות שעות עדות שניתנו על ידי ניצולי שואה במהלך השנים, לחלץ מתוכם שמות חדשים של נרצחים ופרטים שמעולם לא נחשפו", אומר ד"ר אלכסנדר אברהם, מנהל היכל השמות ביד ושם.
עם ההתפתחויות בתחום הבינה המלאכותית הבינו ביד ושם כי הטכנולוגיה יכולה לסייע לסרוק, לחלץ ולסכם מידע רב שברשותם. אם כי הנתונים שבידי המכון מייצרים אתגרים ייחודיים שפתרונות ומוצרים קיימים בשוק המסחרי לא מעוצבים להתמודד עמם. אלו כוללים את סוגי הנתונים, האיכות שלהם, השפות הרבות והסגנון המיושן של הנתונים וחוסר אחידותם, אם לציין רק מעט מהאתגרים. "ראשית, היינו צריכים לקחת כל עדות — וידיאו או אודיו — ולהפוך את הדיבור לטקסט. בכל שפה תייגנו 30 עדויות. זו משימה שלא פשוט להשלים אותה ברמה תחבירית גבוהה, במיוחד בעברית", מספרת ל"כלכליסט" אסתי פוקסברומר, מנהלת מחלקת פיתוח התוכנה באגף החדשנות ביד ושם. "אחר כך יש לחלץ מהטקסטים את ה'ישויות', גם היא משימה לא פשוטה משום ששפת העדות היא אחרת, היא לא השפה המדוברת של היום". מטרת התיוג הידני של העדויות היא הכנת מידע לאימון המודל. לאחר שהמודל למד מהדוגמאות כיצד לתייג, הוא יכול להמשיך לתייג עדויות נוספות.
לא רק שרבים מהעדויות ודפי העד הם בכתב יד - והמודל צריך להיות מסוגל לפענח סגנונות רבים באיכויות שונות - אלא שמדובר בתחום שהוא בבסיסו נפיץ: בינה מלאכותית ידועה בשורה של בעיות שמחקר השואה לא יכול להתמודד עמן. ראשית, מודלים לרוב הם "קופסה שחורה", כלומר לא מסוגלים להסביר את התוצאות שהם מפיקים, ושנית, הם מסוגלים להמציא "עובדות", מה שמקובל היום בתעשייה לכנות "הזיות".
"מאוד חשוב לנו הדיוק ההיסטורי, בגלל נושא הכחשת השואה", מציינת פוקסברומר, "לכן בנינו את המודל כך שגם אם יש פחות נתונים להזין אותם בו, הם יהיו יותר מדויקים ואיכותיים". אחרי שהתקבלו השמות מהמודל, מומחים של יד ושם עברו על כל השמות, ואלו שלא אוששו באופן חד־משמעי לא נכנסו להיכל השמות. "בתוך העדויות נחבאים שמות רבים, כך שבלתי אפשרי עבור בן אדם לא לפספס דבר". שם נכנס להיכל השמות רק אם נקשרו בו שישה פרטים מזהים, לרבות שם פרטי, שם משפחה, שם האב או האם, מקצוע או שנת לידה, ועבר תיקוף על ידי מומחים.
"המטרה היא ניתוח עדויות ניצולים בכלים חישוביים כדי למצוא קשרים בעלי משמעות בין ישויות שונות — אדם, ארגון או מקום", מספר ד"ר כפיר בר, מדען מחשבים מאוניברסיטת רייכמן ששימש יועץ לפרויקט. "תחילה תייגו עדויות בצורה ידנית ואז עברו על עדויות בצורה אוטומטית, כך היה ניתן למצוא, למשל, את כל האנשים שגדלו ונולדו באותו מקום ולא הכירו זה את זה".
חלק מהשמות שהופקו על ידי המודל כבר היו ידועים בהיכל, אך בעזרת האוטומציה הצליחו לקשור לאותו נספה פרטים נוספים מסיפורים ידועים. כך, למשל, מספרים ביד ושם, מקרה אחד של עדות של ניצול תאום של דוקטור מנגלה מיוון, שבו ציין בעדותו ילדה מפולין שהיא ואחותה התאומה היו איתו בקבוצה. מעדותו לא רק למדו על התאומות הפולניות אלא גם על כך שהיתה תת־קבוצה של תינוקות בפרויקט של מנגלה. "קיים קושי מיוחד בשמות של ילדים. גם בעדויות מתייחסים אליהם כילד או 'הילדה של...'", מספרת פוקסברומר. "כאן לראשונה יש לנו הזדמנות למצוא את שמות הילדים שהיו עד כה עלומים".
בעדות שנתן ניצול השואה מנחם ליכטנשטיין הוא מספר את קורות חייו במירוסלבאס ובאליטוס. לפני השימוש בבינה מלאכותית, היה ידוע לגבי אדם מסוים רק שם משפחתו - סוואלאך. הוא היה וטרינר מיורברקס, ליטא, נשוי לאטה גרדז'נסקי, ודווח כמי שנרצח ב־1941 ביורברקס. כעת, על סמך עדותו של ליכטנשטיין, הצליחו למצוא התייחסות לשמו הפרטי של סוואלאך — פיטר - ויש כעת שם פרטי שניתן להוסיף למאגר.
לטענת פוקסברומר, הפרויקט, שהתחיל במחלקת החדשנות, זכה לסקפטיות מצד מנהלי היכל השמות. "הם לא האמינו שיש כל כך הרבה שמות שמתחבאים שם, ואם יש שמות, שיהיו מספיק פרטים כדי לאמת אותם". עכשיו, כאמור, הפרויקט צפוי להתרחב - לסרוק לא רק 20 אלף עדויות נוספות בפורמט של וידיאו ואודיו, אלא גם עדויות כתובות.
אחר כך, מסבירים, הם מתכננים להשתמש במודלים כדי לסרוק חומרים שהגיעו, נתרמו או נאספו על ידי יד ושם לאורך העשורים האחרונים אך מעולם לא נבחנו. "הכלים יתמצתו ויתקצרו את התיקים ויתייגו אותם ברמה בסיסית כך שנדע על מה החומרים האלו".