ChatGPT יכול כעת לראות, לשמוע ולדבר עם חלק מהמשתמשים

התוכנית של OpenAI יכולה לנתח תמונות ולדבר עם מנויי פרימיום.

ChatGPT יש קול - או ליתר דיוק, חמישה קולות. ביום שני, הודיעה OpenAI שֶׁלָה ראוי לבזז, שנוי במחלוקתמודל שפה גדול (LLM) יכול כעת לשוחח מילולית עם משתמשים, כמו גם לנתח תמונות ותמונות שהועלו.

בהדגמות וידאו, ChatGPT מוצג ומציע סיפור לילדים לפני השינה המבוסס על ההנחיה המודרכת, "ספר לנו סיפור על קיפוד חמניות סופר-דופר בשם לארי." לאחר מכן ChatGPT מתאר את גיבור הקיפוד שלו, ומציע פרטים על ביתו ו חברים. בדוגמה אחרת, תמונה של אופניים מועלית דרך אפליקציית הסמארטפון של ChatGPT לצד הבקשה "עזרו לי להוריד את מושב האופניים". לאחר מכן, ChatGPT מציע א תהליך שלב אחר שלב לצד המלצות כלים באמצעות שילוב של תמונות שהועלו על ידי המשתמש וקלט טקסט של המשתמש. החברה מתארת ​​גם מצבים כמו ChatGPT עוזר למלאכה מתכוני ארוחת ערב מבוסס על מרכיבים שזוהו בתמונות של מקרר ומזווה של משתמש, שיחה על ציוני דרך שנראים בתמונות ועזרה בשיעורי בית במתמטיקה - אם כי מספרים אינם בהכרח הצד החזק שלה.

[קָשׁוּר: מחוז בית הספר משתמש ב-ChatGPT כדי לסייע בהסרת ספרי ספרייה.]

לפי OpenAI, חמשת קולות האודיו הראשוניים מבוססים על מודל חדש של טקסט לדיבור שיכול ליצור אודיו אמיתי מטקסט קלט בלבד ו"כמה שניות" של דיבור לדוגמה. אפשרויות הקול הנוכחיות עוצבו לאחר שיתוף פעולה עם שחקני קול מקצועיים.

שלא כמו הפיתוחים הקודמים מתחת למכסה המנוע של ה-LLM, ההתקדמות החדשה ביותר של OpenAI מתמקדת במיוחד בישירים של המשתמשים חוויות עם התוכנית כשהחברה מבקשת להרחיב את ההיקף והשירות של ChatGPT כדי להפוך אותה בסופו של דבר לווירטואלי שלם יותר עוֹזֵר. גם התוספות האודיו והוויזואליות מועילות מאוד מבחינת נגישות למשתמשים מוגבלים.

"גישה זו קיבלה מידע ישירות על ידי העבודה שלנו עם תהיו העיניים שלי, אפליקציה חינמית לנייד עבור אנשים עיוורים ובעלי ראייה לקויה, כדי להבין שימושים ומגבלות", מסביר OpenAI ב- הודעת 25 בספטמבר. "משתמשים אמרו לנו שהם מוצאים ערך לקיים שיחות כלליות על תמונות שבמקרה מכילות אנשים ברקע, כמו אם מישהו מופיע בטלוויזיה בזמן שאתה מנסה להבין את השלט הרחוק שלך הגדרות."

במשך שנים, עוזרי AI קוליים פופולריים כגון סירי ואלכסה הציעו יכולות ושירותים מסוימים המבוססים על מסדי נתונים ניתנים לתכנות של פקודות ספציפיות. כפי ש הניו יורק טיימס הערות, בעוד שעדכון ושינוי של מסדי נתונים אלה מוכיחים לעתים קרובות זמן רב, חלופות LLM יכולות להיות הרבה יותר מהירות, גמישות וניואנסיות. ככאלה, חברות כמו אמזון ואפל הן השקעה בעיצוב מחדש של עוזרי הבינה המלאכותית שלהם כדי להשתמש ב-LLM משלהם.

OpenAI משחיל מחט צר מאוד כדי להבטיח שיכולת הזיהוי הוויזואלית שלה תהיה מועילה ככל האפשר, תוך כיבוד של צדדים שלישיים פרטיות ובטיחות. החברה הדגימה לראשונה את זה פונקציית זיהוי ויזואלית מוקדם יותר השנה, אך אמר כי היא לא תשחרר אף גרסה שלו לציבור לפני הבנה מקיפה יותר כיצד ניתן לעשות בה שימוש לרעה. OpenAI מציינת שהמפתחים שלה נקטו "צעדים טכניים כדי להגביל באופן משמעותי את יכולתו של ChatGPT לנתח ולהצהיר הצהרות ישירות על אנשים" בהתחשב בבעיות המתועדות היטב של התוכנית הכוללות דיוק ו פְּרָטִיוּת. בנוסף, המודל הנוכחי "בקיא" רק עם משימות באנגלית - היכולות שלו מתדרדרות באופן משמעותי עם שפות אחרות, במיוחד אלה המשתמשות בתסריטים לא רומאים.

OpenAI מתכננת להשיק את שדרוגי האודיו והחזותיים החדשים של ChatGPT במהלך השבועיים הקרובים, אך רק עבור מנויי פרימיום לתוכניות הפלוס וה-Enterprise שלה. עם זאת, היכולות יהפכו לזמינות ליותר משתמשים ומפתחים "זמן קצר לאחר מכן".

ההודעה האחרונה בבלוג

שעוני אפל עשויים להחליט בקרוב מתי לתת תרופות
August 02, 2023

זיהוי מוקדם הוא המפתח - ואולי עוקבי פעילות יוכלו לעזור. אנו עשויים להרוויח הכנסות מהמוצרים הזמינים בדף זה ולהשתתף בתוכניות שותפים. למד עוד >אחד...

יצרניות הרכב משקיעות מיליארדים בסוללות לרכבי EV
August 02, 2023

Stellantis מתכננת מפעל חדש באינדיאנה, ויצרניות רכב אחרות משקיעות רבות בייצור רכיבים חיוניים אלה עבור כלי רכב חשמליים בארה"ב. Stellantis, החברה האח...

על אילו שרירים פועלים סקוואט?
August 02, 2023

כמו דדליפט, סקוואט מתאמן הרבה יותר מהקטעים הברורים. פוסט זה עודכן. הוא פורסם במקור ב-4 בינואר 2019. בין אם החלטתם להיכנס לכושר בינואר הקרוב ובין א...