DeepMind AI צריך רק 4 שעות של אימון עצמי כדי להפוך לאדון שחמט

לְהַגדִיל/ היינו רוצים לדמיין את AlphaZero משחקת את השחמט שלה בתוך מערכת BBS בסגנון שנות ה-80.

כריס ווילקינסון

לאחרונה שמענו מה-AI הגיימינג הדומיננטי של DeepMind ב אוֹקְטוֹבֶּר. בניגוד למפגשים קודמים של AlphaGo עם הטובים בעולם ללכת שחקנים לאחר שצוות DeepMind אימן אותו על תצפיות של בני אדם אלה, של החברה ללכת-משחק AI (גרסת AlphaGo Zero) התחיל לנצח את המקצוענים לאחר שלושה ימי משחק נגד עצמו עם ללא ידע מוקדם של המשחק.

לקריאה נוספת

רשת נוירונים חדשה מלמדת את עצמה Go, מכה את המקצוענים

בחזית התחושה, זה עדיין נחשב כדרך מוצא. כדי להשיג הצלחה באימון עצמי, ה-AI היה צריך להיות מוגבל לבעיה שבה כללים ברורים הגבילו את פעולותיו וכללים ברורים קבעו את התוצאה של משחק. (לא כל בעיה מוגדרת בצורה כל כך מסודרת, ולמרבה המזל, התוצאות של התקוממות בינה מלאכותית כנראה נכנסות לקטגוריה "מוגדרת בצורה גרועה").

השבוע, א מאמר חדש (PDF, טרם נבדק עמיתים) מפרט באיזו מהירות השתפר ה-AI של DeepMind באימון העצמי שלו בתרחישים כאלה. התפתח כעת ל-AlphaZero, האיטרציה האחרונה הזו התחילה מאפס וניצחה את התוכנית שניצחה את האדם ללכת אלופים לאחר שמונה שעות בלבד של אימון עצמי. וכאשר AlphaZero החליטה במקום זאת ללמד את עצמה שחמט, הבינה המלאכותית ניצחה את תוכנית השחמט הנוכחית של אלופת העולם,

דג מלאי, אחרי סתם ארבע שעות של אימון עצמי. (בשביל הכיף, ל-AlphaZero גם לקח שעתיים ללמוד שוגי - "גרסה יפנית לשחמט שמשחקת על לוח גדול יותר", לפי הגבול- ולאחר מכן הביס את אחד הבוטים הטובים ביותר בסביבה.)

אז עבור אלה שעוקבים אחרי, ה-AI האחרון של DeepMind הפך למתחרה ברמה עולמית בשלושה משחקים מורכבים נפרדים תוך פחות מיממה. הצוות יצא לבנות "גרסה גנרית יותר" של התוכנה הקודמת שלו הפעם, ונראה שהם הצליחו.

עוד באוקטובר 2015, כאשר ה-AlphaGo המקורי ניצחה את אלופת אירופה שלוש פעמים, Fan Hui 5-0, היא הסתמכה על שילוב חדשני של למידת מכונה עמוקה של רשת עצבית וטכניקות חיפוש עצים. מבלי להיכנס לכל המורכבויות, המערכת צפתה בבני אדם ולאחר מכן חידדה את האסטרטגיה שלה על ידי הצבת מופעים של AlphaGo זה מול זה בתהליך המכונה למידה חיזוק. אלפי (מיליוני?) איטרציות מאוחר יותר, AlphaGo יכולה לשלוט.

הפעם, AlphaZero הסתמכה יותר על אימוני חיזוק בדומה להצלחה באוקטובר 2017 עם AlphaGo Zero. כפי שעורך Ars Science, ג'ון טימר תיאר את התהליך באותה תקופה:

האלגוריתם ילמד על ידי משחק נגד מופע שני של עצמו. שני האפסים יתחילו עם ידע על הכללים, אבל הם יהיו מסוגלים לשחק רק מהלכים אקראיים. עם זאת, לאחר ששיחק מהלך, האלגוריתם עקב אחר אם הוא קשור לתוצאות משחק טובות יותר. עם הזמן, הידע הזה הוביל למשחק מתוחכם יותר.

עם הזמן, הבינה המלאכותית בנה עץ של מהלכים אפשריים, יחד עם ערכים הקשורים לתוצאות המשחק בהן הם שיחקו. הוא גם עקב אחר התדירות שבה מהלך נתון שוחק בעבר, כך שהוא יכול לזהות במהירות מהלכים שהיו קשורים באופן עקבי להצלחה. מכיוון ששני המקרים של הרשת העצבית השתפרו בו-זמנית, ההליך הבטיח ש-AlphaGo Zero תמיד שיחק נגד יריב שהיה מאתגר במיומנות הנוכחית שלו רָמָה.

שניהם ללכת ושחמט יכול להיות מורכב להפליא, עם סיכומי מיקום אפשריים שעולים בנוחות על 10¹⁰⁰ אפשרויות.

ההצלחה של AlphaGo כל כך מרשימה, שהיא כנראה הראשונה ללכת-משחק בינה מלאכותית כדי להפוך לנושא של סרט תיעודי (ביקורת בקרוב).

ההישג הזה הוא רק ההישג האחרון של DeepMind בתחום ללכת קורות חיים שכולל כעת לנצח את האנשים הטובים ביותר, א רצף מקוון של 51 ניצחונות (לפני איבוד הקישוריות במשחק 52), ואימון עצמו להפוך לרמה עולמית. כפי שציינו בעבר, אין כמעט סיכוי שבן אדם ינצח שוב את AlphaGo, אבל אנחנו, שקי הבשר, עדיין יכולים ללמוד הרבה על המשחק עצמו על ידי צפייה ב-AI הזה.

ה-arXiv. מספר תקציר: 1712.01815 (על arXiv).

DeepMind AI צריך רק 4 שעות של אימון עצמי כדי להפוך לאדון שחמט

לקריאה נוספת

קטגוריות

ההודעה האחרונה בבלוג

September 02, 2023

September 07, 2023

September 02, 2023

October 18, 2023

November 05, 2023

Tech Tips

DeepMind AI צריך רק 4 שעות של אימון עצמי כדי להפוך לאדון שחמט

לקריאה נוספת

קטגוריות

ההודעה האחרונה בבלוג

September 02, 2023

September 07, 2023

September 02, 2023