מבנה ניסיוני: צומת מחשוב מבוסס ברודוול, eDRAM

שיחקתי עם פרויקטי מחשוב מבוזרים שונים במשרד שלי, ודבר אחד ששמתי לב אליו הוא שחלק מהם בֶּאֱמֶת כמו רוחב הפס והמטמון של הזיכרון שלהם - ופועלים בצורה גרועה בלי שהוא זמין. הרבה פועלים אך ורק במטמון או כמעט כך, אבל CPDN הוא אחד שממש קשה על רוחב הפס של הזיכרון (עושה מודלים של אקלים גלובליים, חתכתי את שיני האדמין שלי בלינוקס תוך שמירה חלקית על אשכול שעושה דברים כאלה שנים לִפנֵי).

מסיבות שאני לא מצליח להבין, כל עניין "המטמון הגדול של L4" לא ממש המריא - קומץ שבבי ה-eDRAM ששחררה אינטל. בעיקר למחשבים ניידים, אבל היו כמה שיצאו כשבבים שולחניים, ועידן ברודוול המאוחר מבטיח במיוחד בחיפוש אחר עומסי עבודה עתירי זיכרון. GPU מובנה (לכן אין צורך ב-GPU חיצוני על הלוח), 128MB eDRAM, 4C/8T, 12MB L3, 128MB L4 (ביעילות).

בסדר, הם זולים בשוק המשומשות.

יש לי אחת מהחיות האלה בהזמנה (משומשת) עם חומרה קשורה כדי לגרום לה לפעול. אני הולך להגדיר את זה כ-BOINCbox קטן ולבצע בדיקות ביצועים ביחידות העבודה המסוקסות שאני אוהב להפעיל, כמו גם בכמה אחרות.

דבר אחד ששמתי לב הוא שבהרבה מערכות, במיוחד עם hyperthreading, ניצול מלא של המערכת לא מקבל יותר הוראות לפרישה שנית מאשר ניצול מופחת - אז אני מתלבט לכתוב איזושהי מערכת אוטומטית שמתעסקת עם יחידות עבודה כדי לייעל את המערכת הכוללת תפוקה. במקרה די משעשע, קופסת ה-Xeon הישנה שלי, עם כמה יחידות עבודה מותאמות לחלוטין ל-L3-cache, יוצאת לפנסיה כמעט בדיוק אותו דבר. מספר הוראות לשניה (60G) עם 12 חוטים או 24 חוטים - ל-24 חוטים יש רק חיזוק של 10% להוראות של 66G לכל שְׁנִיָה.

למשרד שלי יש כמות מגונה של כוח עכשיו (הוספתי עוד 8 פאנלים בסתיו, אז יש לי עכשיו 5.2 קילוואט סולארי במחסן שלי), ואני עובד על מנת לנצל טוב יותר את הכוח הזה קַיִץ. סביר להניח שגם אני אשים חלק מהמחשוב בחוץ - יש לי כמה דברים שאני רוצה לנסות בחזית הזו, אם כי אני ממשיך להתלבט בין "הוספת פתחי אוורור ל" משרד ואוורור מחשבים פנימיים בחוץ" לעומת "רק לשים את המחשבים בחוץ." אני כן אוהב את החום בחורף, אבל אני באמת רק צריך לקבל את החום בחוץ. אם הייתי יכול להעביר את כל המחשבים שלי החוצה בקיץ, זה היה ממש נוח לי.

בכל מקרה, יש ניסיון עם שבבים מבוססי eDRAM למחשוב? נראה שהם צריכים להיות ממש טובים בזה.

סיוניק אמר:

דבר אחד ששמתי לב הוא שבהרבה מערכות, במיוחד עם hyperthreading, ניצול מלא של המערכת לא מקבל יותר הוראות לפרישה שנית מאשר ניצול מופחת - אז אני מתלבט לכתוב איזושהי מערכת אוטומטית שמתעסקת עם יחידות עבודה כדי לייעל את המערכת הכוללת תפוקה. במקרה די משעשע, קופסת ה-Xeon הישנה שלי, עם כמה יחידות עבודה מותאמות לחלוטין ל-L3-cache, יוצאת לפנסיה כמעט בדיוק אותו דבר. מספר הוראות לשניה (60G) עם 12 חוטים או 24 חוטים - ל-24 חוטים יש רק חיזוק של 10% להוראות של 66G לכל שְׁנִיָה.

לחץ להרחבה...
ראיתי תוצאות דומות עם הדמיות מונטה קרלו המבוססות על Geant4 לשימוש בהדמיה רפואית/טיפול בקרינה, שבהן אנו מדמים אינטראקציות של פוטון לאורך נתיבים ברקמה. התוכנה אוהבת שיש מטמון L3 (ראיתי דחיפה מסיבית שעוברת מ-Zen+ ל-Zen 2), והיא מקבילה בצורה מביכה מכיוון שהמסלול של כל חלקיק עצמאי ולכן יותר חוטים = MOAR BETTER. גיליתי שברגע שאני מפצל את עומס העבודה שלי מעבר למספר הליבות הפיזיות במערכת, רווח הביצועים יורד באופן משמעותי במצבים שבהם אין צוואר בקבוק I/O. בהתבסס על מה שאני מבין לגבי SMT ו-Hyper-Threading, מכיוון שכל השרשורים עושים מתמטיקה דומה מכיוון שהם מחסלים את היכולת של SMT לאפשר שימוש ביחידות הביצוע שאינן בשימוש של ליבת מעבד בזמן ששאר הליבה עסוקה במשהו אחר לא ממש עוזר הַרבֵּה; לא נותרה חומרה שתעבוד על השרשורים הנוספים הללו במשך רוב זמן הריצה.

אם מודל האקלים ב-CPDN דומה, זה יכול להסביר מדוע אינך רואה עלייה משמעותית בקצב החישוב כאשר אתה עובר מעבר ל-12 שרשורים.

החומר הפועל במטמון Xeon L3 הוא למעשה משימות World Community Grid Mapping Cancer Markers. אני חושב שכולם נמצאים בערך באותו קטע קוד אז חולקים המון L3. כיף עם ניטור Intel PCM...

ידוע שחומר ה-CPDN דורש 4MB לכל חוט של L3 כדי להיות שימושי. אני רק מתעניין במה זה יעשה עם פחות מ-4MB/חוט, אבל גם המון eDRAM לעבוד איתו. אם כי, למעשה, התערובת הנכונה היא כנראה אחת או שתיים מאלה ואז השאר דברים קלים יותר.

אבל משחק עם ה-NUC שלי, אני נהנה עם תרמיות... זהו שבב eDRAM מדור מאוחר יותר (i7-6775, IRC).

dc410c70326fbb998ff7d2b18abb3703ecc22127_2_1024x1000.jpeg
אחד הדברים האחרים ששקלתי כאן הוא יתרונות הביצועים (או היעדרם) של הפעלת רק סוג אחד של משימה בכל פעם.

אני בדרך כלל עוקב אחר קצב המטמון של L3 לאורך זמן (אני באמת צריך להפוך חלק מזה לאוטומטי), וזהו באופן מהותי גבוה יותר עובד רק סוג אחד של יחידת עבודה בכל פעם - וזה הגיוני מאוד בכך שה-WUs הם אותה ליבת קוד על נתונים שונים. קיום אותו קוד זמין RO במטמון עבור שרשורים שונים ישפר את ניצול המטמון - אם יש לך 200kb של קוד ו-8 שרשורים, אם כולם עובדים על אותו בינארי לעומת אלה שונים, זה חיסכון פוטנציאלי של 1.4MB של מטמון, וזה עניין גדול.

זה עשוי להיות הגיוני, עבור פרויקטים התומכים בכך, לעבד רק סוג WU אחד בכל פעם לצורך אופטימיזציה של התפוקה.

האם סוג כזה של עבודה נעשתה איפשהו? אני יודע שאני די הרבה מאחורי העקומה לגבי אופטימיזציה של מחשוב מבוזר...

חלקים הגיעו והורכבו.

עדיין עובד על השעונים, אבל... הוא שמח ב-3.8GHz לעת עתה ואני אתעסק עם זה קצת יותר מאוחר יותר.

לועסים כמה יחידות טריוויאליות לבדיקה (מיפוי סמני סרטן, חסרים להם הרבה מהמטמון L3), אני מבטל הוראות 43G לשנייה ב-4C/8T. לשם השוואה, מחמם ה-Xeon שלי (12C/24T של X5650) מוציא הוראות 61G לשנייה - על 24 חוטים. אם כי יש להודות, 12 חוטים בעיקר מצמידים את זה...

אקבל כמה WUs קשה יותר מאוחר יותר היום ללעוס. ולהתעסק עם שעונים, אני כנראה יכול להשיג את זה עד 4GHz יציב, רק לא בטוח אם יש לי הרבה רווחים שם. זה תלוי ביחידות העבודה, ולא אכפת לי באמת להכות את זה - לא אכפת לי לדחוף את זה קצת, אבל אני לא רוצה להפעיל את זה על הקצה עבור משימות מחשוב.

מזכיר לי שקראתי את זה לפני כמה חודשים.

האם eDRAM עדיין שווה את זה?
https://pg-intel.com/physical-security/... -שווה את זה/

להסיר.. ל-Broadwell eDRAM יש רוחב פס של 50 GiB/s, בערך פי 2 מה-DDR3 של היום. ל-3200MHz DDR4 יש רוחב פס של 51.2 GiB/s רוחב פס. זיכרון המערכת הראשי של ה-Ryzen שלי מהיר יותר מה-eDRAM ב-Broadwell הזה.

kb9skw אמר:

מזכיר לי שקראתי את זה לפני כמה חודשים.

לחץ להרחבה...

זו גרסה קרועה של מאמר אננדטק... o_O

להסיר.. ל-Broadwell eDRAM יש רוחב פס של 50 GiB/s, בערך פי 2 מה-DDR3 של היום. ל-3200MHz DDR4 יש רוחב פס של 51.2 GiB/s רוחב פס. זיכרון המערכת הראשי של ה-Ryzen שלי מהיר יותר מה-eDRAM ב-Broadwell הזה.

לחץ להרחבה...

בטח, אבל מה עלה המבנה החדש שלך? בניתי את זה מחלקים משומשים בערך 300 $ עם 16GB של DDR3 RAM, SSD וכו'.

מצד שני, נראה שהוא לא לועס דרך יחידות CPDN מהר יותר מה-NUC שלי. מהיר יותר מה-Xeon, בהחלט. אני צריך למצוא כמה אמות מידה להתעסק איתם.

ההודעה האחרונה בבלוג

החוק האירופי להחלפת סוללות.
October 08, 2023

חוק חדש התקבל על ידי הפרלמנט האירופי: החל ב-2027, סוללות צריכות להיות ניתנות להחלפה על ידי המשתמש בכלים פשוטים עבור גאדג'טים שנמכרים באיחוד האירופי...

FAA ובואינג עשו את זה שוב...
October 10, 2023

שוואנו אמר:thekaj אמר: מהי הטעות הגדולה יותר? לתת לבואינג "לווסת בעצמה", או להמשיך להתווכח עם מוד, לאחר שהמוד מזכיר לך לא להתווכח עם מוד? אתה תחליט...

תפקידו של וולטר בג'הוט במצוקת משכנתא מלאכותית: מדוע בריטים משלמים ריבית כוזבת, למרות שהצ'יליאנים לא משלמים
October 10, 2023

וולטר בג'הוט היה העורך המהולל ביותר של האקונומיסט (1861–1877), והעמוד שלהם על ענייני בריטניה עדיין שנקרא "המחברת של באגהוט". הם מזמינים מכתבים בתגו...