
في البيئات المعقدة، يستطيع البشر فهم معنى الكلام بشكل أفضل من الذكاء الاصطناعي، وذلك لأننا لا نستخدم آذاننا فحسب، بل نستخدم أعيننا أيضًا.
على سبيل المثال، نرى فم شخص يتحرك وقد نعرف بشكل حدسي أن الصوت الذي نسمعه يجب أن يأتي من هذا الشخص.
تعمل شركة Meta AI على نظام حوار جديد للذكاء الاصطناعي، والذي يهدف إلى تعليم الذكاء الاصطناعي كيفية التعرف أيضًا على الارتباطات الدقيقة بين ما يراه ويسمعه في المحادثة.
يتعلم VisualVoice بطريقة مشابهة لكيفية تعلم البشر لإتقان مهارات جديدة، مما يتيح فصل الكلام السمعي والبصري عن طريق تعلم الإشارات البصرية والسمعية من مقاطع الفيديو غير المصنفة.
بالنسبة للآلات، هذا يخلق إدراكًا أفضل، في حين يتحسن الإدراك البشري.
تخيل أن تكون قادرًا على المشاركة في اجتماعات جماعية في metaverse مع زملاء من جميع أنحاء العالم، والانضمام إلى اجتماعات مجموعات أصغر أثناء تحركهم عبر الفضاء الافتراضي، حيث تتكيف أصداء الصوت ونغماته في المشهد وفقًا للبيئة.
وهذا يعني أنه يمكنه الحصول على معلومات الصوت والفيديو والنص في نفس الوقت، ولديه نموذج فهم بيئي أكثر ثراءً، مما يسمح للمستخدمين بالحصول على تجربة صوتية "مذهلة للغاية".
وقت النشر: ٢٠ يوليو ٢٠٢٢