דברים מפתיעים קורים כשאתה מחבר 25 סוכני בינה מלאכותית בעיירת RPG

redtomato אמר:

אז אם אני קורא את זה נכון, הם הצליחו לעקוף את סוגיית חלון ההקשר בכך שהם נתנו ל-LLM סוג של מחברת שבה ה-LLMs יוכלו לרשום דברים 'חשובים' לזכרון מאוחר יותר? קצת כמו זיכרון לטווח ארוך?
חשבתי שדבר כזה לא אפשרי עם לימודי תואר שני? (זהו פתרון ברור באופן מביך לבעיית 'חלון ההקשר').

לחץ להרחבה...

ישנן מספר דרכים להתמודד עם חלון ההקשר. הפשוט ביותר הוא פשוט להשתמש ב-LLM עצמו כדי לסכם מעת לעת את השיחה עד כה כך שתתאים לגבול. אתה יכול לכוון את זה כדי להדגיש נקודות חשובות, או נקודות עדכניות יותר, אבל אתה עדיין מתמודד עם כמות סופית של שטח אסימון וכל שיטה שתבחר יהיה אובדן ביותר ובסופו של דבר זה יתחיל לרדת חשוב דברים.

לא משנה מה ה"מחברת" הזו במציאות, זה רק סיבוב על טכניקות קיימות כדי להפיק יותר ממשאב מוגבל. ה-LLM הבסיסי עדיין זהה ואתה עדיין עומד להיתקל במוזרות במוקדם או במאוחר. כנראה מוקדם יותר.

לאחר ששיחקתי עם כמה מאלה, זיכרון בצורה של מסד נתונים וקטורי עם מנוע הטמעה מותאם אישית ועדכונים תקופתיים יכולים לדמות NPC די טוב.

ובכן, זה יהרוג את אנשי התוכן ביוטיוב ממש מהר. דמיינו זרם עם תוכן שנועד להיות תערובת של קראק/מת'/גיבורה לנפש. עכשיו אתה יכול לתכנת אותו ולעשות אותו לנצח.

אבל בסוף הם פשוט ישבו והתעסקו עם הטלפונים שלהם.. .

משחק חדש פלוס NPC כולם יזכרו את כל מה שקרה בריצה הראשונה.

"זה מסוכן ללכת לבד... בסדר, לא, תראה, אתה צריך ללמוד להיות זהיר יותר. בפעם האחרונה שדקרתם אותי!"

ספר לנו מתי השימוש שלהם בשפה מתחיל לפתח ניבים וסלנג משלו. זה יהיה דבר מרתק ללמוד.

בטח שזה מעניין, אבל אני לא בטוח שהייתי מכנה הרבה מההתנהגות הזו "התנהגות מתהווה". בין אינספור המסמכים על אילו מודלים אלו אומנו, כמה הכילו שפה כלשהי לגבי אנשים שמפיצים את החדשות על א מפלגה? אם הוא גדול מ-0, אז הם פשוט מושכים חלק מהאימונים שלהם. זו התנהגות מתהווה רק אם מיישמים הגדרה מצומצמת באופן אבסורדי של המונח, משהו כמו "כל התנהגות שאף אחד לא קידד בתוכנית." למרבה הצער, אין שום סיכוי שנוכל לדעת אם הם מאמצים נתוני אימון או שלא.

גרסה מוקדמת של AI NPCs:
"שלום, נוסע, איך אני יכול לעזור לך היום?"
יש לך חרב טובה שאני יכול להשתמש בו כדי לבזוז את העיר?
"כמודל שפה גדול..."

לא יעבור זמן רב עד שישמשו סימולציות כגון אלה כדי להנחות אסטרטגיה פוליטית, ויענו על תרחישי "מה אם" באמצעות שילובים רבים כדי להציע אסטרטגיה סבירה ביותר להשגת מטרה כלשהי. כנראה כבר נעשה.

תלוי בסוג המשחק, אולי אני באמת לא רוצה שה-NPCs יהיו מציאותיים מדי. זה עלול להעלות כמה התלבטויות מוסריות לא נוחות חחח.

דמיינו לעצמכם משחק במשחק Assassin's Creed וכולם הולכים להלוויה של שומר על הגג שדקרתם במסגרת מסע, ואשתו וילדיו מתאבלים עליו, מדברים על כך שהם לא יודעים איך הם הולכים לאכול.

redtomato אמר:

אז אם אני קורא את זה נכון, הם הצליחו לעקוף את סוגיית חלון ההקשר בכך שהם נתנו ל-LLM סוג של מחברת שבה ה-LLMs יוכלו לרשום דברים 'חשובים' לזכרון מאוחר יותר? קצת כמו זיכרון לטווח ארוך?
חשבתי שדבר כזה לא אפשרי עם לימודי תואר שני? (זהו פתרון ברור באופן מביך לבעיית 'חלון ההקשר').

לחץ להרחבה...

זה די חכם מה שהם עושים.

זרם הזיכרון הוא בעצם רשימה של מה שהם מכנים אובייקטי זיכרון. לאובייקטי זיכרון יש ערכים כמו מחרוזת השפה הטבעית שהיא הבסיס לזיכרון, כלומר "איזבלה רודריגז מסדרת את המאפים", חותמת זמן יצירה וחותמת זמן אחרונה לגישה.

הזיכרונות התצפיתיים ברמה נמוכה נוצרים מתיאורי שפה מובנים של הסביבה, סוכנים נצפים ופעולת השפה הטבעית שנוצרה עבור חותמת הזמן הזו. (בנפרד מזרם הזיכרון של הסוכן, הסביבה והישויות שבתוכו יכולים להיות בעלי מצב ניתן לצפייה. ה-LLM מתבקש להסיק מסקנות לגבי האופן שבו סוכן המבצע את פעולת השפה הטבעית המתוארת ישפיע על הישויות בסביבה. הדוגמה למצב משוער שהנייר מספק היא שאם סוכן מכין אספרסו, אז המצב של ישות "מכונת קפה" צריך לעבור מ"כבוי" ל"מבשל קפה". מהתמלילים בעיתון, זה נראה כמו זיכרונות תצפיתיים מסקנות סביבתיות, כלומר "מכונת הקפה כבויה", נוצרים בדרך כלל כאשר מתרחשים שינויים בסביבה למרות מצב לא סוכן שינויים. לדוגמה, לאחר תקופה מוגדרת כלשהי, הישות "מכונת קפה" עשויה לעבור ממצב "מבשלת קפה" חזרה למצב "כבוי".)

במהלך תהליך אחזור הזיכרון, הם בוחרים זיכרונות שיתאימו לחלון ההקשר של LLM על ידי חישוב ציון עבור כל אחד מהם, כאשר הציון הוא סכום משוקלל של עדכניות הזיכרון, חשיבותו ו רלוונטיות.

לאחרונה היא פונקציית דעיכה אקספוננציאלית המוגדרת לפי מספר השעות מאז הגישה האחרונה לזיכרון.

חשיבות נמדדת על ידי בקשת ה-LLM להבקיע את הזיכרון. מהעיתון, הם מכניסים הנחיה כזו ל- LLM.

בסולם של 1 עד 10, כאשר 1 הוא ארצי בלבד
(למשל, צחצוח שיניים, סידר מיטה) ו-10 זה
נוקב ביותר (למשל, פרידה, קולג'
קבלה), דרג את החריפות האפשרית של
פיסת זיכרון הבאה.
זיכרון: קניית מצרכים בשוק הערבות
ובית מרקחת
דֵרוּג:

לחץ להרחבה...

הרלוונטיות היא חכמה במיוחד, גם אם היא ברורה בדיעבד. הם משתמשים ב-LLM כדי ליצור וקטור הטבעה עבור הזיכרון המועמד, ואז מחשבים את הדמיון הקוסינוס לווקטור ההטמעה שנוצר עבור זיכרון השאילתה. (וקטור הטמעה בעצם מציין היכן שוכנת מחרוזת במרחב המצב של ה-LLM.)

לאחר מכן הם בוחרים את הזיכרונות בעלי הניקוד הגבוה ביותר עד שחלון ההקשר יתמלא. (בניכוי השטח הנדרש לשארית ההנחיה.)

הם גילו שסוכן שעובד מתוך זיכרונות תצפית פשוטים לא יצר התנהגויות משביעות רצון, אז הם הוסיפו סוג שני של זיכרון שנקרא השתקפויות.

השתקפויות נוצרות מעת לעת על ידי קביעה תחילה על מה הסוכן משקף. זה נעשה על ידי הזנת ה-LLM בהנחיה המורכבת מ-100 הפריטים האחרונים בזרם הזיכרון, והשאלה הבאה. "בהינתן המידע שלמעלה בלבד, מהן 3 השאלות הבולטות ביותר ברמה גבוהה שאנו יכולים לענות על הנושאים בהצהרות?"

לאחר מכן הם משתמשים בשאלות המתקבלות כהנחיית השאילתה לתהליך האחזור המתואר לעיל כדי לקבל את הקשר הזיכרון לשיקוף, ולאחר מכן משתמשים כדי ליצור הנחיה מהטופס הבא.

הצהרות על קלאוס מולר
1. קלאוס מולר כותב עבודת מחקר
2. קלאוס מולר נהנה לקרוא ספר
על ג'נטריפיקציה
3. קלאוס מולר משוחח עם עיישה חאן
על פעילות גופנית [...]
מאילו 5 תובנות ברמה גבוהה אתה יכול להסיק
האמירות לעיל? (פורמט לדוגמא: תובנה
(בגלל 1, 5, 3))

לחץ להרחבה...

ההצהרות הללו מנותחות ומאוחסנות כאובייקטים חדשים של זיכרון השתקפות, והם מאחסנים מצביעים חזרה לזיכרונות שלדברי ה-LLM נכנסו להצהרת ההשתקפות. כתוצאה מכך, זיכרונות השתקפות יוצרים בסופו של דבר עצי זיכרונות, כאשר זיכרונות התצפית המקוריים הם צמתי השורש.

המכשול הבא שנתקל בו היה כיצד לגרום לסוכנים לשמור על התנהגות סבירה לאורך זמן.

מה שהם מצאו זה שרק הנחה את ה-LLM עם הרקע של הסוכן, שלב הזמן הנוכחי של הסימולציה, ולבקש ממנו ליצור את הפעולה הבאה של הסוכן, זה ייצור פעולות שהיו סבירות באותו הרגע, אבל מגוחכות כשהן מסתכלות עליהן כאל סדר פעולות. (הדוגמה שהם נותנים היא סוכן שמחליט לאכול ארוחת צהריים פעמיים.)

הפתרון שהם הגיעו אליו היה סוג זיכרון אחר שנקרא תוכנית. זיכרונות תוכנית מאחסנים את רצף הפעולות המתוכנן, המיקום שבו הן יבוצעו והזמן המתוכנן. הסוכן יוצר זיכרונות תוכנית חדשים מלמעלה למטה, על ידי התחלה עם זיכרון תוכנית ראשוני ברמה גבוהה שנוצר מ-a הנחיה כמו הבאה, וחוזרת על השלבים המתקבלים עד שיש להם תוכניות ברמה הרצויה של פירוט. (הם לא מזכירים את זה בעיתון, אבל ההנחיה מרמזת שגם אצלם ה-LLM ייצור סיכום ברמה גבוהה של האירועים/פעולות של היום הקודם.)

שם: אדי לין (גיל: 19)
תכונות מולדות: ידידותי, יוצא, מסביר פנים
אדי לין הוא סטודנט באוק היל קולג' הלומד
תורת המוזיקה והלחנה. הוא אוהב לחקור
סגנונות מוזיקליים שונים ותמיד מחפש
לדרכים להרחיב את הידע שלו. אדי לין הוא
עובד על פרויקט קומפוזיציה עבור המכללה שלו
מעמד. הוא גם לוקח שיעורים כדי ללמוד עוד
על תורת המוזיקה.
אדי לין מתרגש מההרכב החדש
הוא עובד על אבל הוא רוצה להקדיש יותר
שעות ביממה לעבוד עליו בימים הקרובים
ביום שלישי 12 בפברואר, אדי 1) התעורר ו
השלים את שגרת הבוקר בשעה 7:00 בבוקר, [... ]
6) התכוננו לישון בסביבות 22:00.
היום יום רביעי 13 בפברואר. הנה של אדי
לתכנן היום בקווים כלליים: 1)

לחץ להרחבה...

לולאת הפעולה שהתקבלה היא די מסודרת. בכל צעד זמן לאחר שהסוכן מתעד את התצפיות שלו בזרם הזיכרון, ה-LLM מקבל הנחיה להחליט אם הסוכן ימשיך עם התוכנית הקיימת שלו, או אם הוא צריך לשנות את התוכנית בהתבסס על הנוכחי תצפיות. הנחיה זו נראית כמו הבאה. (תיאור הסיכום של הסוכן הוא מציין המיקום של המאמר עבור הביוגרפיה הקצרה שנוצרה וסיכום היעדים המופיעים בהנחיה המצוטטת הקודמת. סיכום ההקשר נוצר על ידי הנחיה ל-LLM לסכם את הזיכרונות שאוחזרו עם שתי השאילתות של "מה האם מערכת היחסים של [מתבונן] עם [הישות הנצפית]?" ו"[ישות נצפית] היא [מצב הפעולה של הנצפה יֵשׁוּת]".

[תיאור סיכום הסוכן]
זה 13 בפברואר 2023, 16:56.
הסטטוס של ג'ון לין: ג'ון חזר הביתה מוקדם מ
עֲבוֹדָה.
תצפית: ג'ון ראה את אדי עושה הליכה קצרה
סביב מקום העבודה שלו.
סיכום ההקשר הרלוונטי מזכרו של ג'ון:
אדי לין הוא בנו של לין של ג'ון. אדי לין היה
עובד על יצירה מוזיקלית לכיתתו. מְעַרבּוֹלֶת
לין אוהב להסתובב בגן כשהוא נמצא
חושבים או מקשיבים למוזיקה.
האם ג'ון צריך להגיב לתצפית, ואם כן,
מה תהיה תגובה הולמת?

לחץ להרחבה...

אם הפעולה המתקבלת היא ליזום שיחה עם סוכן אחר, היא מתחילה בהנחיה הדומה לאמור לעיל, אך מסתיימת ב שאלה "מה [הסוכן היוזם] היה אומר ל[סוכן אחר]?" לאחר מכן הסוכנים בשיחה נכנסים ללולאת פעולת דיאלוג עד לשיחה מסתיים. קטע הדיאלוג הבא בשיחה מגיע מהנחיה כמו הבאה, שבה היסטוריית השיחה נשמרת. (בהסתכלות על השמעת ההדגמה, נראה שאולי יש סוג מסוים של אובייקט זיכרון שיחה שנוצר לאחר סיום שיחה כאשר המחרוזת שבה נעשה שימוש במהלך השליפה היא סיכום של השיחה, אם כי נראה שהדיאלוג בפועל עדיין יישמר בפרטים תכונה.)

[תיאור סיכום הסוכן]
זה 13 בפברואר 2023, 16:56.
הסטטוס של אדי לין: אדי יוצא לטיול קצר
סביב מקום העבודה שלו.
תצפית: ג'ון יוזם שיחה
עם אדי.
סיכום ההקשר הרלוונטי מזיכרונו של אדי:
ג'ון לין הוא אביו של אדי לין. לג'ון לין אכפת
והוא מעוניין ללמוד עוד על אדי לין
שיעורי בית. ג'ון לין יודע שאדי לין הוא
עובד על יצירה מוזיקלית.
להלן היסטוריית הדיאלוגים:
ג'ון: היי אדי, איך פרויקט הרכב המוזיקה
שהכיתה שלך מגיעה?
איך אדי יגיב לג'ון?

לחץ להרחבה...

TLDR, הם מבקשים באופן סלקטיבי ומתמשך את ה-LLM לכל דבר, וההתנהגות הדומה לבני אדם היא תוצאה של מערכת מתוכננת היטב לאוטומטית יצירת הנחיות עם הקשר רלוונטי, וזה עובד בצורה יוצאת דופן כאשר ניתן לתאר את הסביבה הניתנת לצפייה, הישויות ומצבן באמצעות מובנה שפה. (המאמר מתאר גם כמה מהמצבים שבהם ארכיטקטורת הסוכנים שלהם התקלקלה במהלך הבדיקה וקלקלה את האשליה.)

אוזי אמר:

הם עשויים להיות מסוגלים לאצור את ה'זיכרונות' על ידי איחוד והשפלה/השמטה של זיכרונות ישנים ופחות רלוונטיים. זה יכול להפחית או לבטל את הצורך באיפוסים.

לחץ להרחבה...

זה משהו שהם ציינו כזקוק לחקירה נוספת.

הם גילו שלקראת סוף הסימולציה שלהם, לסוכנים הפך קשה יותר לשלוף ולסכם זיכרונות רלוונטיים מה- זרם זיכרון, והסוכנים התחילו לפעול בדרכים מוזרות ככל שהם למדו יותר על הסביבה שהפכה את ההתנהגות שלהם לפחות אמין. (כנראה, מספר סוכנים התחילו ללכת לבר לארוחת צהריים במקום לבית הקפה, אם כי זה לא נראה לי כהתנהגות פחות אמינה).

אני חושד שעבודות עתידיות יחקרו גיזום בהתבסס על הרלוונטיות והחשיבות של הזיכרון.

thevoid אמר:

לא יעבור זמן רב עד שישמשו סימולציות כגון אלה כדי להנחות אסטרטגיה פוליטית, ויענו על תרחישי "מה אם" באמצעות שילובים רבים כדי להציע אסטרטגיה סבירה ביותר להשגת מטרה כלשהי. כנראה כבר נעשה.

לחץ להרחבה...

לפחות חשבו על זה. זו פחות או יותר העלילה של הרפתקת הטקסט של Infocom משנת 1985 "מסע של מחשבה לנצח”.

המשחק נפתח בכך שמישהו מגלה לדמות השחקן שהוא תוכנית חיה בחברה מדומה, ושהוא יצטרך לחקור ולדווח עליו נקודות שונות בעתיד המחושב שלהם כדי לעזור לממשלה להחליט אם יש ליישם תוכנית מדיניות חברתית שנויה במחלוקת ורחבה. עוֹלָם.

זה יותר רומן אינטראקטיבי מאשר משחק, אבל אני זוכר שאהבתי אותו בתור נער.

אני זוכר שקראתי על מחקר ארוך טווח של להקת זאבים שבו החוקרים השתמשו בקידוד אלפא נומרי עבור הזאבים (E6 הוא האלפא, מזווג עם T5, היו גורים G4, G5, G6, דברים כאלה) במפורש כדי לנסות לעזור לזכור שהם היו זאבים, לא אנשים, והתכונות שלהם לא צריכות להיות אנתרופומורפיזציה.

אני יודע שאנחנו עדיין בתחילת הימים של מחקרי אינטראקציה של AI-AI, אבל זה נראה כאילו לא נותנים אותם שמות אנושיים מלאים הם המעט שיכולנו לעשות כדי לזכור שאלו עדיין מודלים של שפה, לא אֲנָשִׁים.

דברים מפתיעים קורים כשאתה מחבר 25 סוכני בינה מלאכותית בעיירת RPG

קטגוריות

ההודעה האחרונה בבלוג

September 24, 2023

October 04, 2023

September 24, 2023

October 29, 2023

September 26, 2023

Tech Tips

דברים מפתיעים קורים כשאתה מחבר 25 סוכני בינה מלאכותית בעיירת RPG

קטגוריות

ההודעה האחרונה בבלוג

September 24, 2023

October 04, 2023

September 24, 2023