
في البيئات المعقدة ، يمكن للبشر فهم معنى الكلام بشكل أفضل من الذكاء الاصطناعي ، لأننا لا نستخدم آذاننا فحسب ، بل أعيننا أيضًا.
على سبيل المثال ، نرى فم شخص ما يتحرك وقد نعرف بشكل حدسي أن الصوت الذي نسمعه يجب أن يأتي من هذا الشخص.
تعمل Meta AI على نظام حوار جديد من الذكاء الاصطناعي ، وهو تعليم الذكاء الاصطناعي أيضًا تعلم كيفية التعرف على الارتباطات الدقيقة بين ما يراه ويسمعه في محادثة.
يتعلم VisualVoice بطريقة مماثلة لكيفية تعلم البشر لإتقان المهارات الجديدة ، مما يتيح فصل الكلام الصوتي والبصري عن طريق تعلم الإشارات البصرية والسمعية من مقاطع الفيديو غير الممكنة.
بالنسبة للآلات ، فإن هذا يخلق تصورًا أفضل ، بينما يتحسن الإدراك البشري.
تخيل أن تكون قادرًا على المشاركة في اجتماعات المجموعة في Metaverse مع الزملاء من جميع أنحاء العالم ، والانضمام إلى اجتماعات جماعية أصغر أثناء تحركهم عبر المساحة الافتراضية ، حيث تعمل صدى الصوت و Timbres في المشهد وفقًا للبيئة وفقًا لذلك.
أي أنه يمكن أن يحصل على معلومات صوتية ومقاطع فيديو ونص في نفس الوقت ، ولديه نموذج فهم بيئي أكثر ثراءً ، مما يتيح للمستخدمين تجربة صوتية "واو للغاية".
وقت النشر: يوليو -20-2022