אפל ואחרות השתמשו בנתונים שנלקחו מיוטיוב כדי לאמן את הבינה המלאכותית שלהם

שחקני טכנולוגיה גדולים הסתמכו על קבצים המכילים נתונים שנלקחו מערוצי YouTube כדי לאמן את האינטליגנציות המלאכותיות שלהם.

אפל ואחרים אימנו את הבינה המלאכותית שלהם על נתוני YouTube

כדי שאלגוריתמים של בינה מלאכותית יהיו יעילים, יש לאמן אותם על ידי הזנתם במאגרי מידע עצומים. לדברי עמיתינו בחדשות הוכחהetחוטי,כמה חברות כולל אפל, אנתרופיק, Nvidia ו-Salesforce השתמשו במסד נתונים המבוסס על כתוביות שנלקחו מסרטוני YouTube, בעוד שגוגל (שבוודאי לא האחרונה שמבקשת להזין את ה-AI שלה בנתונים באופן פחות או יותר חוקי) מבהירה שהיא לא מאפשרת את השימוש הזה.

יותר מ-170,000 סרטונים צלפו

מסד הנתונים מכיל את הכתוביות שליותר מ-170,000 סרטונים מ-48,000 ערוצים, כולל כמה ידועים מאוד, כמו MrBeast, PewDiePie, Marques Bronwlee (MKBHD), The Verge, ABC News, BBC, The New York Times, Stephen Colbert, John Oliver, או Jimmy שוב קימל.מסד נתונים זה נאסף, ללא הזכות לעשות זאת, ולאחר מכן הוצע לשחקנים שונים בשוק הבינה המלאכותית על ידי החברה ללא מטרות רווח EleutherAI. כתוביות אלו ונתונים אחרים מקובצים תחת השםהערימהולאחר מכן משמשים לאימון ה-AIs השונים.

אפל היה מנצל את מאגר הנתונים של הערימה כדי להתאמןOpenELM (עבור מודלים יעילים של קוד פתוח). זוהי סדרה של 4 דגמי שפות עיקריים עם 270 מיליון, 450 מיליון, 1 מיליארד ו-3 מיליארד פרמטרים בהתאמה. למאפיינים קטנים יחסית אלה עבור מודלים של שפה גדולים יש את הייחודיות שלאפשר עיבוד מקומי, לא רק באמצעות שרתי ענן. לכן, בחלקו, על עבודה זו יתבסס זר הכלים העתידי של Apple Intelligence לעיבוד שאילתות באייפון, אייפד ומחשבי מק.

גם אם אפל וחברות גדולות אחרות יכולות לטעון שהנתונים לא נאספו על ידם, ולכן הם פעלו בתום לב (או לפחות טוענים זאת),דוגמה זו עדיין מדגישה בצורה מושלמת את הדאגה למקורות המשמשים לאימון AI. כאשר האינטליגנציות המלאכותיות הללו מאומנות מספיק, הן משמשות רוב הזמן ליצירת רווחים,מבלי שמחברי הנתונים ששימשו לשיפורם יקבלו שכר.