שפה היא מרק גדול ורב-משמעי. למילים יש משמעויות שונות בהקשרים שונים, הומוגרפיות קיימים, ובני אדם מעוותים בקביעות את הלקסיקון המבוסס בסלנג. זה כמעט נס שבנינו מחשבים שיכולים להבין אותנו בכלל.
מערכות להבנת השפה האנושית התקדמו משמעותית בשנים האחרונות, שכן חוקרים שיפרו גישות לבינה מלאכותית כמו למידה עמוקה. שיטות אלה מגדירות אלגוריתמים לזחול דרך שלל נתונים עצומים כדי ליצור קשרים בין מילים וביטויים. זה נקרא "ניתוח", או זיהוי כל מילה ותפקידה במשפט.
היום גוגל מפרסמת את הקוד למערכת השפה שלה בשם SyntaxNet, כמו גם תוכנית שעברה הכשרה לאנגלית בשם Parsey McParseface. הבדיקות של גוגל מציבות את הדיוק של פארסי מקפארספייס להבנה נכונה של מילים על יותר מ-94 אחוז - קרוב למדדים הפנימיים של גוגל של 96 אחוז עבור בני האדם שהם מעסיקים עבור אותו מְשִׁימָה. עם SyntaxNet, חוקרים מחוץ לגוגל יוכלו לאמן וליישם מערכות הבנת השפה שלהם עבור שפות אחרות, או לנסות לנצח את הציון של גוגל.
המערכת פועלת על ידי קבלת מספר מעברים בכל משפט, ויוצרות השערות לגבי כל קשר פוטנציאלי בין מילים. השערות אלו מבוססות על משפטים ומילים שהאלגוריתם הוצג בעבר, הנקראים נתוני האימון. המערכת מדרגת את ההשערות כפי שהיא פועלת באמצעות וריאציות של המשמעות הפוטנציאלית של כל מילה, ולבסוף מגיעה למסקנה המבוססת על ההסתברות הגבוהה ביותר עבור כל מילה. חוקרים קוראים לזה "חיפוש קרן", שנטבע לראשונה
בקרנגי מלון ב-1976.![Parsey McParseface עובד מילה אחר מילה כדי לקבוע כיצד משפט נבנה.](/f/d05ec9458ec6675b5345e8c70cff6c54.gif)
הבנת השפה אינה פשוטה עבור גוגל, שכל הפלטפורמה שלה פועלת על הבנת מה המשתמשים רוצים לראות מהחיפוש שלהם. SyntaxNet כמובן מובנה בתוך TensorFlow, פלטפורמת למידה חישובית בקוד פתוח של גוגל, ולמידע נוסף עיין ב-Google פוסט בבלוג על ההכרזה.