חשיבות ההגנה על מידע בעידן של בינה מלאכותית ומודלי שפה גדולים
חשיבות ההגנה על מידע בעידן של בינה מלאכותית ומודלי שפה גדולים
השימוש ההולך וגובר בבינה מלאכותית ומודלי שפה גדולים טומן בחובו לא רק יתרונות ארגוניים אלא גם סיכונים גדולים עליהם צריך לתת את הדעת
בשנה האחרונה, בינה מלאכותית בכלל ומודלי שפה גדולים כדוגמת gpt4 (המודל מאחורי chatGPT) בפרט הפכו לכלי עוצמתי בידי ארגונים וחברות. המודלים הללו משמשים לניתוח טקסט, תרגום אוטומטי, שירות לקוחות ועוד. האינטגרציה הרחבה של טכנולוגיות אלו משנה את דרך הפעולה והתפקוד של חברות רבות ולמעשה נפתח עימה עידן חדש של אוטומציה ויכולת עיבוד מידע ברמה שלא הייתה קיימת עד כה. היתרון הגדול הטמון בשימוש בטכנולוגיה זו הוא ייעול תהליכים מורכבים - החלפה או שדרוג של תהליכים ידניים לתהליך אוטומטי ללא מעורבות יד אדם. המודלים האלו מתקדמים עד כדי כך שהם מסוגלים להבין מטלות שונות, לענות על שאלות, ולבצע תהליכים שהיו דורשים בעבר התערבות אנושית ממושכת.
אז איך הקסם הזה קורה? דמיינו לעצמכם שאתם מנסים ללמד ילד לזהות פירות. אתם תציגו לו בננה, תפוח, שזיף וכן הלאה, ואחרי מספר דוגמאות הילד ידע בסבירות גבוהה לזהות פירות חדשים שהוא לא ראה לפני כן. מודלי שפה גדולים פועלים בצורה דומה רק שבמקום ללמוד איך נראים פירות הם לומדים איך נראות תבניות של מילים בתוך משפטים. כדי להגיע לתוצאות טובות ולחזות מילים נכונות בהסתברות גבוהה, צריך כמויות גדולות של מידע ללמוד מהם. מודלי שפה גדולים פועלים בצורה כזו, שבהינתן כמות גדולה של מידע (טקסט) ללמוד ממנו, הם יודעים לחזות את המילים הבאות במשפט נתון בהסתברות גבוהה.
עכשיו נשאלת השאלה 'מהיכן כל המידע הזה מגיע?' התשובה לכך היא שחלק גדול מהמידע מגיע למעשה מאיתנו. לדוגמא: בכל פעם שאנחנו שואלים שאלה בפורום כלשהו, כותבים ביקורת על מוצר או משוחחים עם נציג שירות לקוחות בצ׳אט אנו מיצרים מידע שיכול להיות חלק מלימוד עתידי של מודל שפה.
ניקח את הדוגמא של שיחה בצ׳אט עם שירות נציג לקוחות. מדובר בסופו של יום על תהליך ידני שבו נציג שירות כותב תשובות לשאלות של לקוח. אם נניח שהתהליך יכול להסתכם מצד אחד בהתנתקות הלקוח מהשירות או שידרוג השירות בתשלום נוסף מצד שני, הרי שהתוצאה הסופית של השירות תלויה באופן שבו נציג השירות הגיב לדברי הלקוח, אם היה שירותי, אדיב, ידע לטפל בבעיה בצורה מקצועית, להציע מידע רלוונטי ועוד.
מודל שפה גדול יכול לנהל שיחה כזאת באופן מרשים למדי אם לימדו אותו את החומר המקצועי הרלוונטי וגם לימדו אותו איך מתנהלות שיחות עם לקוחות. בהינתן למודל כל המידע הנ״ל והתוצאה של כל שיחה שהוא התאמן עליה, הוא ידע להבין את ההקשר של המילים והמשפטים ולחזות מה צריך לומר כדי להגיע לתוצאה העסקית האופטימלית.
עם זאת, השימוש בטכנולוגיות הללו מצריך גם הבנה של הסיכונים הטמונים בהן. אחת הסכנות היא הסתמכות גדולה מבעבר על מקורת המידע שבהם נעשה שימוש ללימוד הבינה המלאכותית. בסוף חשוב לזכור שמודלי שפה גדולים, כמו כל טכנולוגיה, הם לא ״טובים״ או ״רעים״, הם ניטרליים. הם פועלים אך ורק לפי המידע שהם אומנו עליו. אם המידע עליו המערכת מתאמנת אינו מייצג באופן נכון את המציאות אזי ייווצר מודל שגוי.
במילים אחרות, אם תוקף מצליח להשיג גישה למקורות מידע אלו ולשנותם, בין אם אלו מקורות מידע פומביים ובין אם אלו מקורות מידע פנים ארגוניים, יכולה להיות לכך השפעה ישירה על איכות המודל שנוצר, אופן ההתנהגות שלו והתוצאה העסקית. אם נחזור לדוגמא שלנו על שירות הלקוחות, בהנחה שתוקף בעל כוונות זדון הצליח לקבל גישה למאגר המידע שעליו מאומן המודל של שירות הלקוחות, הרי שהוא יכול לשנות אותו בצורה כזו בה המודל יחזה שהאופן הטוב ביותר לשמר לקוחות הוא לתת להם הנחה של 100% על מוצרי החברה. מבחינת המודל, תהליך קבלת ההחלטות נעשה כראוי אך כמובן שמבחינת הארגון מדובר בתוצאה עסקית קטסטרופלית.
לכן יש חשיבות קריטית, והיום הרבה יותר מבעבר, לנטר גישה למידע ארגוני ולהתריע על גישה חריגה או שינוי שלא תואם את אופן פעולת הארגון. הגנה יעילה על המידע צריכה לקחת בחשבון מי משתמש במידע, איך הוא או היא ניגשים למידע, איזה פעולות נעשות (קריאה של מידע קיים, הוספת מידע חדש, שינוי של מידע קיים, מחיקת מידע), מתי הן נעשות ועוד. בצורה כזו, גם אם תוקף פוטנציאלי מצליח לקבל גישה למידע יהיה לו קשה הרבה יותר לבצע פעולה שלא תחרוג מדפוס הפעולות הרגיל של המשתמשים בארגון.
בשורה התחתונה, האתגר המוטל כיום על גופים המעוניינים בהגנה על מערכות המידע שלהם הוא לא רק להבין את הכוח שבידיהם באמצעות בינה מלאכותית ומודלי שפה גדולים, אלא גם להיות מודעים לסיכונים ולמנוע את הניצול השלילי של טכנולוגיות מתקדמות אלו.
מאת נדב אביטל, מנהל קבוצת מחקר איומים, Imperva
d&b – לדעת להחליט