في البيئات المعقدة، يستطيع البشر فهم معنى الكلام بشكل أفضل من الذكاء الاصطناعي، لأننا لا نستخدم آذاننا فحسب، بل عيوننا أيضًا.
على سبيل المثال، نرى فم شخص ما يتحرك وقد نعرف بشكل حدسي أن الصوت الذي نسمعه لا بد أن يكون صادرًا من ذلك الشخص.
تعمل Meta AI على نظام حوار جديد للذكاء الاصطناعي، والذي يهدف إلى تعليم الذكاء الاصطناعي كيفية التعرف على الارتباطات الدقيقة بين ما يراه ويسمعه في المحادثة.
يتعلم VisualVoice بطريقة مشابهة لكيفية تعلم البشر لإتقان مهارات جديدة، مما يتيح فصل الكلام السمعي والبصري عن طريق تعلم الإشارات المرئية والسمعية من مقاطع الفيديو غير المسماة.
بالنسبة للآلات، يؤدي هذا إلى تحسين الإدراك، بينما يتحسن الإدراك البشري.
تخيل أنك قادر على المشاركة في اجتماعات جماعية في metaverse مع زملاء من جميع أنحاء العالم، والانضمام إلى اجتماعات جماعية أصغر أثناء تنقلهم عبر الفضاء الافتراضي، حيث يتم ضبط ترددات الصوت والجرس في المشهد وفقًا للبيئة.
أي أنه يمكنه الحصول على معلومات الصوت والفيديو والنص في نفس الوقت، وله نموذج فهم بيئي أكثر ثراء، مما يسمح للمستخدمين بالحصول على تجربة صوتية "مذهلة للغاية".
وقت النشر: 20 يوليو 2022