כיצד להתחיל עם למידת מכונה ובינה מלאכותית

סקירה כללית של נוף הכלים

מה נכנס לבניית מודל ML/AI בעולם של היום? ארס שוחח עם ד"ר אלן אמברוז, מנהלת AI בסטארט-אפ הבריאות באזור בולטימור פרוטנוס, על איך לבנות מודל ML חדש. כפי שהיא מסבירה זאת, ישנם שלושה גורמים עיקריים שנכנסים ליצירת מודל חדש: "25 אחוז שואלים את השאלה הנכונה, 50 אחוז חקר וניקוי נתונים, הנדסת תכונות ובחירת תכונות, [ו] 25 אחוז הדרכה והערכת המודל", היא אמר. בעוד שכמות עצומה של נתונים בהישג יד היא ברכה, עדיין יש שאלות שאתה צריך לשאול לפני שצולל פנימה. לדברי אמברוז, חברות צריכות להבין את הבעיות העסקיות שאפשר לפתור איתן למידת מכונה, וחשוב מכך, להבין על אילו שאלות הם יכולים לענות עם הנתונים שהם יש.

אמנם טכנולוגיה זמינה לא בהכרח יכולה להגיד לך אילו שאלות לשאול, זה יכול לעזור לצוות לחקור נתונים ואז לסייע בהדרכה והערכה של מודל ML נתון.

נכון לעכשיו, ישנן מספר חברות שמוכרות חבילות תוכנה שעושות בדיוק את זה - מאפשרות קבוצות או אנשים ליצור מודל של בינה מלאכותית או למידת מכונה בלי צורך בפיתרון מאפס. בנוסף לחבילות הכל-ב-אחד הללו, ישנן ספריות רבות הזמינות באופן חופשי המאפשרות למפתחים לנצל את היתרונות של למידת מכונה. למעשה, ברוב המוחלט של יישומי למידת מכונה, מפתח, מדען נתונים או מהנדס נתונים לא יתחיל מאפס.

הַדְרָכָה

לאחר שצוות זיהה את השאלות הנכונות וקבע שהנתונים הזמינים יכולים לענות על שאלות אלו, יש להגדיר את המודל. חלק מהנתונים שלך יצטרכו להיות בצד כדי לשמש כ"ערכת אימות", המשמשת כדי להבטיח שהמודל שלך עושה את מה שהוא אמור לעשות, בעוד השאר ישמש כבסיס ללימוד הדגם שלך.

על פני השטח, זה נשמע קל לביצוע: הקדישו אחוז מסוים מהנתונים שלכם ולעולם אל תאפשרו לחלק האימון לראות אותם כדי שתוכלו להשתמש בנתונים כאימות מאוחר יותר. אבל המצב יכול להסתבך במהירות. איזה אחוז זה צריך להיות? מה אם האירוע שאתה רוצה לדגמן הוא נדיר מאוד? תצטרכו לקבל נתונים מהאירוע הזה גם באימון וגם בערכות נתוני האימות, אז איך מקצצים דברים? כלי AI/ML יכולים לעזור לקבוע כיצד לפרק את ההפרדה הזו ואולי להתגבר על בעיות מבניות בנתונים שלך, אבל התצורה היא עדיין שלב קריטי לביצוע נכון.

השאלה הבאה היא באיזה סוג של מערכת למידת מכונה יש להשתמש: א רשת נוירונים (NN), תמיכה במכונה וקטורית (SVM), או יער מוגבר שיפוע. אין תשובה מושלמת, וכל שיטה היא - לפחות במובן התיאורטי -טוב בדיוק כמו כל אחר. עם זאת, אם אנו נוטשים את התיאוריה ונסתכל על העולם האמיתי, המעשיות מכתיבה אלגוריתמים מסוימים פשוט מתאימים יותר למשימות מסוימות כל עוד אינך מחפש אופטימום לחלוטין תוֹצָאָה. כלי איכותי לבניית מודל AI/ML יאפשר למשתמש לבחור את סוג האלגוריתם שבו הוא רוצה להשתמש מתחת למכסה המנוע. טיפול בכל המתמטיקה והבאת סוג כזה של מערכת למפתח הממוצע הוא המפתח.

ברגע שיש לך סט נתונים להתאמן איתם, סט נתונים לנסות לאמת את המודל שלך, ואלגוריתם בסיסי, אתה יכול לנסות לאזן את הרגישות והספציפיות של המודל שלך. בשלב מסוים בבניית הדגם שלך, תצטרך לקבוע אם תנאי כלשהו נכון או לא, או אם ערך כלשהו נמצא מעל או מתחת לסף מתמטי נתון. אלו הן בחירות בינאריות, אבל הדברים לא כל כך פשוטים. מכיוון שהעולם האמיתי והנתונים שמגיעים ממנו מבולגנים, יש ארבע תוצאות אפשריות של המודל שלך: חיובי אמיתי, חיובי שגוי, שלילי אמיתי ושלילי שגוי.

שם. האם. ארבע. תוצאות.

שם. האם. ארבע. תוצאות.

מודל מושלם ידווח רק על חיובים אמיתיים ושליליים אמיתיים, אבל זה לרוב לא אפשרי מבחינה מתמטית. לכן מציאת האיזון בין רגישות (קשורה לחיוביות אמיתיות) לבין ספציפיות (קשורה למספר השליליים האמיתיים) היא דבר חשוב ביותר.

אמנם אין שום דבר שמונע מאדם לעשות את כל זה ביד ולהתאמן מחדש ולבדוק מחדש ללא הרף, אבל הכללת כלי גרפי נחמד יכול להפוך את זה למשימה נגישה יותר. עבור המפתחים הוותיקים בחוץ, חשבו על ההבדל בין הפעלת מאתר באגים בשורת הפקודה לפני 25 שנה לעומת הפעלת מאתר באגים מלא מבוסס IDE כיום.

ההודעה האחרונה בבלוג

מספר שיא של ילדים חלו ב-COVID-19 בשבוע שעבר
September 05, 2023

שיעורי ההידבקות בקרב צעירים נמצאים במגמת עלייה. עקוב אחר כל PopSci כיסוי COVID-19 כאן, כולל טיפים לניקוי מצרכים, דרכים לדעת אם שלך התסמינים הם רק ...

3 מיליארד הדולר של צוקרברג לא ממש מרשים
August 20, 2023

ההצעה החדשה של יוזמת צ'אן צוקרברג 'לרפא את כל המחלות' ב-100 השנים הבאות היא אופטימית מאוד, אם כי ראויה לשבח. מארק צוקרברג ופריסילה צ'אן סתם התחייב...

הספורט האולימפי הכי יהרוג אותך
September 05, 2023

זה כנראה לא שלד. צפה בכמה דקות של אולימפיאדת החורף והברכיים או הקרסוליים שלך עלולים להתחיל לכאוב. ספורט חורף ידוע לשמצה קשה על המפרקים, ממגלשי סקי...