סגור
גג שוברת קודים ויקי אוסלנדר דסקטופ
ילדים סביב אלקסה אמזון
ילדים סביב אלקסה אמזון (צילום: Cnet)

שוברת קודים
שלב זיוף הקולות: החשש מניצול הטכנולוגיה לשימוש פלילי

הפיתוח שיאפשר לאלקסה של אמזון לחקות קולות אנושיים מבשר לא רק על עליית מדרגה בחדירת הדיפ פייק לעולם צריכת התוכן, אלא גם על דרכים חדשות לנצל את הטכנולוגיה

בשבוע שעבר נפל דבר, אמזון הודיעה שהיא מפתחת מערכת שתאפשר לעוזרת הווירטואלית שפיתחה, אלקסה, לחקות כל קול לאחר שהאזינה לו כדקה. המטרה היא "לאפשר לזיכרונות לשרוד" אמר רוהיט פראסד, סגן נשיא בכיר באמזון, בכנס של החברה בלאס וגאס, "לאחר שכל כך הרבה מאיתנו איבדו מישהו שהם אוהבים". אמזון חלקה את החזון שלה באמצעות קטע וידאו שבו רואים ילד שואל "אלקסה, האם סבתא יכולה לסיים לקרוא לי את הקוסם מארץ עוץ?" לפי רויטרס, שהיו ראשונים לדווח על הפיתוח, רגע לאחר הבקשה אלקסה אישרה את הפקודה ושינתה את קולה, דיברה בצורה פחות רובוטית ונשמעה לכאורה כמו סבתו של הילד טרם מותה.
אין ספק שמדובר ברעיון נהדר, מה יכול בכלל להשתבש מלשווק דיפ פייק כפיצ'ר זול להמונים? למה לא לשאוב השראה למוצרים החדשים שלך מהפרק האייקוני Be Right Back של הסדרה הטכנו־דיסטופית "מראה שחורה", ובו אלמנה מוכת יגון רוכשת "חיקוי" של בעלה והופכת אובססיבית אליו עד צער? מה באמת יכול להשתבש.
1. מעבר לקריפי
אם יהיו אלו בוטים, טראפיק מזויף או מדיה וירטואלית, טכנולוגיה הצליחה להגביר לאורך השנים את היכולת שלנו "לזייף" או לחקות את המציאות בצורה משכנעת. כבר שנים שתוכנת פוטושופ מאפשרת לזייף תמונות סטילס, וכלים גרפיים מתקדמים אחרים מאפשרים יצירת עולמות וירטואליים במשחקי מחשב וסרטים. בשנים האחרונות כלים אלו, שהיו פעם רק בידיהם של אולפני מדיה גדולים שיכלו להרשות לעצמם לרכוש אותם או מיומנים מספיק כדי לדעת להפעיל אותם, עברו מעין דמוקרטיזציה, והפכו נגישים לכל. כשזה התרחש התפתחה מהם תת־תרבות איומה של סרטוני דיפ פייק, אותה יכולת להצמיד את פניו של אדם אחד על פניו של המבצע המקורי ולשחזר את הבעות הפנים שלו, שכללה בין היתר זיוף סרטונים של פוליטיקאים לשם השחרת פעילותם, והנורא מכולם – כלי אכזרי של פורנו נקמה (מזויף).
התקדמויות טכנולוגיות אלו לצד מהפכת המידע יצרו מה שאחדים מרהיבים עוז לכנות עידן "קץ האמת" או תקופת "פוסט אמת". לפי מבקרים אלו, משום שהיום מידע יכול לנוע מהר, בכל מקום ובו בזמן, נדחף בעוצמה על ידי בני אדם ומכונות כאחד, אנו כחברה אנושית נופלים קורבנות לגורמים רעים בודדים שמפעילים צבאות של בוטים על מרחבי הידע, מידע והתאספות וירטואליים. זהו עידן שבו אנו לכאורה סובלים באופן קיצוני וטרגי מחדשות מזויפות, עוקבים מזויפים, ביקורות מזויפות, פורנו מזויף ומה לא. כל כך עד שנשחקה היכולת שלנו להבחין בין אמת ושקר, לזהות "אמת אובייקטיבית", ולכן ממש חדלנו כחברה לחלוק מציאות משותפת. אל תוך החלל הזה כעת אנחנו מכניסים את שיבוטי הקול, טכנולוגיה שבאופן יחסי נראית כאילו מתפתחת לאט יותר, מושכת עניין פחות וסובלת מסלידה ציבורית עמוקה באופן יוצא דופן. זה אינו צירוף מקרים.
קול הוא ייחודי. הוא נתפס לאורך ההיסטוריה כמעין מקום מושבה של הזהות האינדיבידואלית, הצליל של הגוף. לא במקרה הקול מסגיר רגשות ומסווה אותם, הוא משתנה לאורך החיים ובהקשרים שונים. הוא מייצר אינטימיות בדיוק כפי שהוא מייצר ריחוק. ובאמת לאורך השנים כוחו ועוצמתו תוארו במיתולוגיות אנושיות מגוונות. הסירנות יכלו למשוך ימאים אל האבדון רק עם שירתן; כשקולה של אריאל בת הים הקטנה נלקח ממנה על ידי אורסולה המכשפה, היא חדלה להיות היא, ובסיפור המקורי של האנס כריסטיאן אנדרסון עם גאולתה היא הופכת לקול טהור. בנצרות קיים הרעיון הדומיננטי שכש"קול" מושתק גם הנשמה מושתקת.
אף שרבים מאיתנו חושבים שהחיים הדיגיטליים הפכו אותנו חרדים לשיחות טלפון וכאילו מפוחדים מהקול, הוא למרות הכל מרכזי בכל מדיה שמונעת על ידי אישיות וזהות. חשיבות הקול היא שהפכה את הפודקאסטים לתופעה של המאה ה־21, הפכה את האפליקציה קלאבהאוס לפופולרית, כמו גם סרטוני ASMR והספייס של טוויטר. הקול כל כך מהותי שכל אפליקציות המסרים המיידיים הוסיפו פיצ'רים של הודעות קוליות. אפילו טיקטוק, רשת חברתית ויזואלית לחלוטין, הבינה את חשיבות הקול ומאפשרת למשתמשים דרך "להשתחרר" מהעצמי ולהשתמש בפיצ'ר טקסט-לקול שמקריין בשמם את התוכן שיצרו, בלי שהם יודעים שאותה אדם שהרשת החברתית משתמשת בקולו לקריינות מעולם לא נתנה את אישורה ונאבקה ארוכות להשיב לעצמה אוטונומיה על קולה בבתי משפט.
לכן לא פלא שכשאנשים למדים לראשונה על הפרויקט החדש של אמזון – לחקות את קולו של המת לספר לילד הקטן סיפור – רבים מגיבים באופן אינטואיטיבי עם מילה אחת: "קריפי". אי אפשר להאשים אותם. להשתמש באודיו סינתטי ולבצע עליו מניפולציה כדי שיישמע כמו אדם מת שמעולם (כנראה) לא נתן את הסכמתו לשימוש מרגיש נצלני, נוראי, לא נכון, לא אתי ובאמת – קצת מגעיל. קולות סינתטיים שמרקדים על הגבול בין "לא מזויף בבירור" ו"לא אמיתי בבירור" מייצרים תחושת אי נוחות גדולה. הנה מכונה "חסרת נשמה" פתאום מנסה לחקות הטיות רגשיות דקות, לשים מילים בפה של המתים כאילו יש במילים אלו נשמה. אבל הבעיה היא לא רק כמה שהפיצ'ר קריפי ואפילו חסר כבוד למתים. במיקרוסופט למשל הודיעו רק לפני שבוע שהם מבינים שטכנולוגיות אלו מניבים שיעורי שגיאה כפולים בקרב חברי הקהילות השחורות והחומות לעומת חברי הקהילות הלבנות, והודיעו כי הם מגבילים את גישת הלקוחות שלהם למערכות הקול הסינתטי שיצרו, לרבות יצירת מעקי בטיחות טכניים "שיסייעו להבטיח השתתפות פעילה של הדובר בעת יצירת קול סינתטי". בהקשר זה אי אפשר שלא להתפלא על ההחלטה של אמזון לצאת בהודעה פומבית על שימוש לכל מי שירצה (ולא ירצה) בטכנולוגיה שענקית טכנולוגיה הודיעה בדיוק שתגביל את השימוש בשל חשש לשימוש לרעה.
לא רק זאת, אין ספק שאחרי שכולם ישתעממו מטריק המסיבה החדש של אלקסה, השיבוט הקולי הזה יהיה כלי שלילי ונצלני, שיגביר עוד יותר את חוסר האמון והמשבר האפיסטמי שבין כה וכה מתקיים. דמיינו רק את האפשרויות: שיחת טלפון מזויפת מאבא או אמא שבה הם יבקשו עזרה כספית בהולה; שכן מטרידן ינסה לפתות את שכנתו באמצעות קולו של בנה כדי להיפגש עמו בסמטה חשוכה; קולגה איומה שתשתמש בקולה של הבוסית כדי להטיל על חבר צוות יותר עבודה; או חלילה אם אמצעים אלו יהיו נגישים למשטרה שתנסה להפיל בפח חשודים באמצעות התחזות לאנשים קרובים. האפשרויות הן באמת לא נגמרות, ולא במקרה היו מקור לפרק מצליח בסדרת טלוויזיה טכנו־דיסטופית.
2. לא לציבור הרחב
מובן שיש פוטנציאל אמיתי ומפעים בטכנולוגיה זו לתת קול למי שאין קול, למשל כשההפקה של הסרט הדוקומנטרי על השחקן ואל קילמר, שאיבד את קולו כחלק מטיפול בסרטן הגרון, השתמשה בטכנולוגיה כדי לייצר קריינות סינתטית. ואכן אנשים שזקוקים למעין תותבות קוליות צריכים לקבל גישה לטכנולוגיות מסוג זה, אך הן לא צריכות להיות נגישות לציבור הרחב. אם אמזון מאוד רוצה להעניק ללקוחות שלה כלי חמוד לחיקוי קולי היה עדיף שפשוט תייצר תוכי צעצוע.