סגור
באנר דסקטופ כלכליסט טק

מאל"ף ועד תו: גוגל פיתחה כלי AI שיוצר מוזיקה מטקסטים

המערכת שפיתחו חוקרים בחברה, MusicLM, יוצרת קטעים מוזיקליים בני כמה דקות מתיאור מילולי של ז'אנר, אווירה, כלי נגינה ועוד. בנוסף, היא מזהה מלודיות בשריקות ובהמהומים, והופכת אותן ליצירות עם כלי נגינה שונים

חוקרים בגוגל פיתחו בינה מלאכותית שיכולה לייצר יצירות מוזיקליות בנות מספר דקות מטקסטים כתובים ולהעביר מלודיות של שריקות או המהומים לכלי נגינה אחרים, בצורה דומה לאופן שבו מערכות כמו DALL-E מייצרות תמונות מטקסטים. התוכנה נקראת MusicLM והיא עדיין לא ניתנת לשימוש, אבל החברה העלתה מספר דוגמיות שייצרה תוך שימוש בתוכנה.
באתר theverge דיווחו כי מדובר בדוגמאות מרשימות. יש שם קטעים של כ-30 שניות שמדגימים כיצד ישמעו שירים שנוצרים מתיאורים של פסקה המתארת ז'אנר, זרימה כללית ואפילו כלי נגינה ספציפיים. הדוגמאות כוללות גם יצירות של 5 דקות שנוצרו ממילה אחת או שתיים כמו "טכנו מלודי". דוגמה נוספת היא מוזיקה שנוצרה מהוראות למעבר בין תיאורים. לדוגמה:
שיר אלקטרוני במשחק מחשב (0:00-0:15)
מוזיקת מדיטציה המושמעת על גדת נחל (0:15-0:30)
אש (0:30-0:45)
זיקוקים (0:45-0:60)
אפשר להקשיב לקטע המוזיקלי שנוצר כאן.
אתר ההדגמה כולל גם דוגמאות של מה שהתוכנה תייצר כשתתבקש להרכיב יצירה של 10 שניות של כלי נגינה כמו צ'לו, קטע של 8 שניות של ז'אנר ספציפי ומוזיקה שתתאים לבריחה מהכלא ואינטרפרטציה למה שמכנים שם "מועדון עתידני". התוכנה מצליחה גם לחקות קולות אנושיים, אבל לפי הדיווח האיכות במקרה הזה פחות טובה.
לפי ההודעה שפרסמו בגוגל, למוזיקה המבוססת על בינה מלאכותית יש היסטוריה ארוכה. תוכנות כבר קיבלו קרדיט על הלחנת שירי פופ, נגינת באך בצורה טובה יותר מבני אדם כבר בשנות ה-90, וליווי להופעות חיות. אחת הגרסאות העדכניות יותר משתמשת במנוע מחולל התמונות המבוסס על בינה מלאכותית StableDiffusion להפיכת טקסטים כתובים לספקטוגרמות שהופכות למוזיקה.
בגוגל ציינו כי MusicLM היא בעלת ביצועים טובים יותר מהתוכנות האחרות מבחינת "האיכות והציות להוראות" וכן בכל הקשור להעתקת המלודיה של שמע. כך למשל, באתר שהקימו בחברה מראים כיצד המהום של אדם או שריקה הופכים ליצירה עם הובלה אלקטרונית ובשיתוף רביעיית מיתרים וגיטרה.
עם זאת, בגוגל שומרים על זהירות וסיכמו את ההצהרה בכך שבשלב זה "אין לנו תוכניות לפרסם את התוכנות" וזאת בטענה לסיכונים של "פוטנציאל לשימוש לא הולם בתכנים היצירתיים". הכוונה היא להעתקות והפרת זכויות, וכן לבעיות של ניכוס תרבותי, כך שכעת האנשים היחידים שיכולים להשתמש במחקר הם אנשים אחרים שבונים מערכות בינה מלאכותית ליצירת מוזיקה.