OpenAI تُحدّث نماذجها لتحويل الصوت والنص: نحو ذكاء اصطناعي يتحدث بفهم ويُنصت بدقة

3 د
أعلنت OpenAI عن نماذج جديدة لتحويل النص إلى صوت والعكس، تتميز بالدقة والقدرة على التحكم في نبرة الإلقاء.
يتيح النموذج الصوتي الجديد "gpt-4o-mini-tts" تخصيص نبرة الحديث بناءً على السياق والعواطف المطلوبة.
عد النماذج الجديدة لتحويل الصوت إلى نص تُبديلاً مطوراً لنموذج Whisper، مع تحسن ملحوظ في تقليل الأخطاء والهلوسة.
قررت OpenAI عدم إتاحة هذه النماذج الجديدة كمصدر مفتوح، نظراً لحجمها الكبير وصعوبة تشغيلها محلياً، على عكس ما فعلته مع Whisper سابقاً.
في إطار سعيها المستمر لتطوير أدوات الذكاء الاصطناعي، أعلنت شركة OpenAI عن إطلاق جيل جديد من نماذج تحويل النص إلى صوت (Text-to-Speech) ونماذج تحويل الصوت إلى نص (Speech-to-Text)، ضمن واجهتها البرمجية (API)، ووصفتها بأنها تمثل تحسيناً ملحوظاً مقارنة بإصداراتها السابقة.
وتأتي هذه النماذج الجديدة في سياق رؤية OpenAI الواسعة لما تصفه بـ"الأنظمة العميلية الذاتية" (Agentic Systems)، وهي أنظمة قادرة على إنجاز المهام نيابة عن المستخدمين دون إشراف مباشر. وبينما لا يزال مفهوم "العميل" محل نقاش في الأوساط التقنية، فإن أوليفييه غودمون، رئيس قسم المنتجات في OpenAI، قدم تفسيراً عملياً له، واصفاً إياه بأنه "روبوت دردشة قادر على التحدث مع عملاء الشركات".
وفي تصريحات لموقع TechCrunch خلال جلسة إعلامية، قال غودمون:
"سنشهد خلال الأشهر المقبلة ازدياداً في استخدام هذه الأنظمة العميلية... والهدف العام هو مساعدة العملاء والمطورين على الاستفادة من عملاء ذوي فاعلية، وتوفر، ودقة".
صوت أكثر واقعية وتحكماً أعلى
من بين ما تم الإعلان عنه، يبرز نموذج "gpt-4o-mini-tts"، وهو نموذج جديد لتحويل النصوص إلى صوت. ووفقاً لـ OpenAI، فإن هذا النموذج يُنتج صوتاً أكثر واقعية وغنى بالتفاصيل، مع قدرة أعلى على "التوجيه" والتخصيص من النماذج السابقة.
ما يميز "gpt-4o-mini-tts" هو قدرة المطورين على التحكم بطريقة الإلقاء باستخدام اللغة الطبيعية، إذ يمكن للنموذج تنفيذ أوامر مثل "تحدث كعالِم مجنون" أو "استخدم نبرة هادئة كمدرّب للتأمل".
وقدّم جيف هاريس، عضو فريق المنتجات في OpenAI، مثالاً على ذلك بقوله:
"إذا كنت تقدم خدمة دعم فني وتحتاج إلى أن يبدو الصوت معتذراً عند وقوع خطأ، يمكنك برمجة النموذج ليعكس هذا الشعور في نبرته".
وأضاف:
"نحن نؤمن بشدة أن المستخدمين يريدون التحكم ليس فقط في ماذا يُقال، بل في كيفية قوله أيضاً".
نماذج جديدة لتحويل الصوت إلى نص بدلاً من Whisper
أما في مجال تحويل الصوت إلى نص، فقد كشفت الشركة عن نموذجين جديدين: "gpt-4o-transcribe" و"gpt-4o-mini-transcribe"، اللذان يُعدّان بديلاً للنموذج القديم Whisper، الذي واجه انتقادات بسبب أخطائه المتكررة.
وقالت OpenAI إن النماذج الجديدة تم تدريبها على مجموعات صوتية متنوعة وعالية الجودة، ما يمنحها قدرة أفضل على فهم اللهجات والنُطق المتنوع، حتى في البيئات الصاخبة. كما أوضح هاريس أن النماذج الجديدة أقل عرضة لما يُعرف بـ"الهلوسة" – أي اختراع كلمات أو عبارات لم تُقال فعلياً، وهي إحدى أبرز مشاكل Whisper السابقة.
وأضاف:
"هذه النماذج تُعدّ أفضل بكثير من Whisper في هذا الجانب. فالدقة في هذا السياق لا تعني فقط نقل الكلام كما هو، بل تعني أيضاً عدم اختراع معلومات لم تُذكر في الأصل".
أداء متفاوت حسب اللغة
رغم التحسينات الكبيرة، تشير اختبارات OpenAI الداخلية إلى أن أداء النموذج في اللغات الهندية والتاميلية والمالايالامية والتيلوجو لا يزال بحاجة للتحسين، إذ تصل نسبة الخطأ في الكلمات إلى حوالي 30%، وهو معدل مرتفع مقارنة باللغة الإنجليزية مثلاً.
لماذا لا تُتاح النماذج الجديدة كمصدر مفتوح؟
بخلاف ما اعتادت عليه الشركة عند إطلاق إصدارات Whisper السابقة كمصدر مفتوح تحت رخصة MIT، قررت OpenAI عدم إتاحة النماذج الجديدة بهذه الطريقة.
وبرّر هاريس هذا التوجّه بالقول إن "gpt-4o-transcribe" و"gpt-4o-mini-transcribe" أكبر بكثير من Whisper، ولا يمكن تشغيلها محلياً على الأجهزة الشخصية بسهولة، مضيفاً:
"نريد أن يكون إصدارنا للمصادر المفتوحة مدروساً، بحيث يتناسب النموذج مع متطلبات هذه الفئة من المستخدمين، لا سيما أولئك الذين يعملون على أجهزة صغيرة".