أعلنت شركة أمازون عن إطلاق نموذجها الصوتي المتقدّم Nova Sonic، الذي يعتمد على الذكاء الاصطناعي التوليدي، ويهدف إلى تقديم تجربة صوتية أكثر طبيعية وسلاسة في المحادثة، قريبة جدًا من التفاعل البشري الواقعي. وقد صُمم النموذج للتعامل مع الصوت بشكل مباشر وتوليد كلام فوري وانسيابي.
ويأتي هذا النموذج استجابة من أمازون للتطورات المتسارعة في سوق النماذج الصوتية، خصوصًا في ظل بروز نماذج حديثة مثل تلك التي تدعم وضع المحادثة الصوتية في ChatGPT من OpenAI، والتي أصبحت أكثر دقة ومرونة من الإصدارات التقليدية مثل أليكسا وسيري.
أداء ينافس الكبار: GPT-4o وGoogle Voice Models
وفقًا لاختبارات معيارية متعددة، فإن Nova Sonic ينافس أهم النماذج الصوتية المطروحة من قبل OpenAI وجوجل. وقد أشارت أمازون إلى أن النموذج يقدم أداءً استثنائيًا من حيث سرعة الاستجابة، ودقة تعرّف الكلام، وجودة الحوار.
وتُظهر اختبارات مؤسسة Artificial Analysis أن Nova Sonic يسجل متوسط تأخير لا يتجاوز 1.09 ثانية فقط، مقارنة بـ1.18 ثانية لنموذج Realtime API من OpenAI، ما يعكس استجابة شبه فورية ومثالية لتطبيقات التفاعل اللحظي.
دعم لغوي متعدد ودقة تفوق التوقعات
واحدة من أبرز مميزات Nova Sonic تكمن في تفوّقه على صعيد تعدد اللغات واللهجات. فوفقًا لاختبار Multilingual LibriSpeech، سجّل النموذج معدل خطأ لا يتعدى 4.2% عند التعامل مع خمس لغات رئيسية، هي: الإنجليزية، الفرنسية، الألمانية، الإسبانية، والإيطالية.
أما في اختبار Augmented Multi Party Interaction، الذي يقيس دقة التعرف الصوتي في الحوارات الجماعية والبيئات الضوضائية، فقد تفوّق Nova Sonic بنسبة 46.7% مقارنة بنموذج GPT-4o-transcribe، مما يشير إلى قدرة النموذج على التمييز بين الأصوات بدقة عالية حتى في البيئات المعقدة.
تكامل مع Alexa Plus وواجهة API للمطورين
أوضحت أمازون أن Nova Sonic ليس مشروعًا معزولًا، بل هو جزء لا يتجزأ من البنية التقنية الجديدة لمساعدها الصوتي المطوّر Alexa Plus. فقد تم دمج مكونات Nova Sonic داخل Alexa Plus، ليحصل المستخدم على تفاعل أكثر واقعية وذكاءً وسرعة.
ويتوفّر النموذج عبر منصة Amazon Bedrock، المخصصة للمطورين الراغبين في بناء تطبيقات صوتية متقدمة عبر واجهة API تدعم البث الصوتي بالاتجاهين، ما يفتح آفاقًا جديدة في مجال تطبيقات المحادثة الصوتية والتفاعل اللحظي في المؤسسات.
كفاءة عالية وتكلفة منخفضة
من أبرز ما يميز Nova Sonic هو الكفاءة الاقتصادية، حيث أكدت أمازون أن تكلفة استخدام النموذج أقل بحوالي 80% مقارنة بنموذج GPT-4o من OpenAI، ما يجعله خيارًا مثاليًا للمؤسسات الباحثة عن حلول صوتية عالية الجودة بتكاليف معقولة.
كما يتميز النموذج بقدرته على التعامل مع الفجوات الطبيعية في الحوار، مثل فترات الصمت أو المقاطعات، ويقدّم نسخًا مكتوبة بدقة عالية للكلام المنطوق، يمكن استغلالها في تطبيقات متنوعة مثل خدمات العملاء، التعليم، وإدارة الاجتماعات.
جزء من رؤية أوسع نحو AGI وتعدد الوسائط
يُعد Nova Sonic جزءًا من الإستراتيجية الشاملة التي تتبعها أمازون في تطوير الذكاء الاصطناعي العام (AGI)، وهو المفهوم الذي يشير إلى قدرة النماذج الذكية على أداء جميع المهام التي يمكن للإنسان تنفيذها باستخدام الحاسوب.
وكشف روهيت براساد، النائب الأول لرئيس أمازون وكبير علماء AGI، عن خطط مستقبلية لتطوير نماذج أكثر شمولًا، قادرة على فهم الصور والفيديو والصوت، بل والتعامل مع “بيانات حسية أخرى”، بما يُمكّن من توسيع نطاق التطبيقات الواقعية الذكية.
التكامل مع منتجات جديدة: Nova Act وNova Reel
في إطار خطتها لتوسيع محفظة الذكاء الاصطناعي، أطلقت أمازون كذلك نموذج Nova Act، القادر على تنفيذ المهام مباشرة عبر المتصفح، وهو جزء من ميزات Alexa Plus، ويشمل أيضًا ميزة “اشترِ نيابةً عني”، التي تتيح للمستخدم تفويض الذكاء الاصطناعي بالتسوق بدلًا عنه.
كما كشفت الشركة عن نموذج Nova Reel، المتخصص في توليد الفيديوهات باستخدام الذكاء الاصطناعي، ما يعكس توجهًا واضحًا نحو نماذج متعددة الوسائط تمهّد لعصر جديد من التفاعل الذكي الشامل.
أمازون ترفع سقف المنافسة في مجال الصوت
مع إطلاق Nova Sonic، باتت أمازون في موقع متقدّم للغاية ضمن سباق النماذج الصوتية الذكية، ليس فقط من ناحية الأداء التقني، بل أيضًا من حيث التكلفة والكفاءة والتكامل مع المنتجات. ويمثل هذا النموذج خطوة محورية نحو تطوير تجارب محادثة طبيعية، أكثر دقة وسرعة، تخدم قطاعات متعددة وتفتح الباب أمام تطبيقات جديدة قائمة على الذكاء الاصطناعي.هل سيستطيع المنافسون مجاراة هذه الطفرة من أمازون؟ هذا ما ستكشفه الأيام القادمة.
اترك تعليق