ذكاء اصطناعي

واقعية رفيق صوتي بالذكاء الاصطناعي مخيفة – إذا وصل ChatGPT أو Gemini إلى هذا المستوى، سنكون في ورطة

فريق العمل
فريق العمل

3 د

"Sesame" هو نظام ذكاء اصطناعي صوتي متطور يُحاكي المحادثات البشرية بعفوية فائقة.

يتميز بقدرته على التفاعل العفوي، بما في ذلك التوقفات والتردد وتغيير الآراء أثناء الحديث.

يتفوق على ChatGPT وGemini في تقديم تجربة محادثة طبيعية وغير مصطنعة.

يُمثل مستقبل الذكاء الاصطناعي الصوتي، حيث يصبح التفاعل مع الآلات أقرب إلى الواقع من أي وقت مضى.

شهدت السنوات الأخيرة تطورًا هائلًا في مجال الذكاء الاصطناعي، حيث أصبح التفاعل بين الإنسان والآلة أكثر طبيعية وسلاسة. ومع ذلك، لا تزال الأنظمة الصوتية تفتقر إلى القدرة على محاكاة العفوية البشرية في المحادثات. التقنية الجديدة "Sesame" قد تكون نقطة تحول في هذا المجال، إذ أظهرت إمكانات غير مسبوقة في تقليد أسلوب التواصل البشري بدقة مذهلة.


ما هي Sesame؟

تختلف "Sesame" عن المساعدات الذكية التقليدية مثل Siri وAlexa، وحتى عن النماذج المتقدمة مثل ChatGPT وGemini، حيث لا تكتفي بتقديم ردود صحيحة منطقيًا، بل تحاكي الطريقة التي يتحدث بها البشر، بما في ذلك التوقفات العفوية، التردد، والتعديلات أثناء الكلام، مما يجعل المحادثات معها أقرب للطبيعة البشرية.

على عكس التقنيات التي تعتمد على تحويل النصوص إلى صوت بطريقة خطية، تستخدم "Sesame" نموذجًا متطورًا يُدعى "نموذج الكلام الحواري" (CSM)، وهو نظام يجمع بين النص والصوت في عملية واحدة، ما ينتج عنه حديث أكثر سلاسة، يحتوي على تغيرات طبيعية في نبرة الصوت، وفترات توقف قصيرة، وحتى تكرار بعض العبارات كما يفعل البشر عند التفكير بصوت عالٍ.


اختبار المحادثة الطبيعية

خضعت "Sesame" لاختبارات عدة لمحاكاة سيناريوهات تواصل طبيعية. عند اختبار قدرتها على التعامل مع موقف يتعلق بالقلق من فرصة عمل جديدة، لم تقدم إجابة جاهزة أو نصيحة مباشرة، بل توقفت للحظة وكأنها "تفكر"، ثم أجابت بنبرة هادئة تعكس التعاطف: "هذا شعور طبيعي تمامًا، الفرص الكبيرة قد تبدو مربكة. ما الذي يقلقك أكثر؟" كان هذا التفاعل مختلفًا عن المساعدات الرقمية التقليدية التي تقدم استجابات ثابتة دون مراعاة السياق العاطفي.

عند اختبارها في محادثة غير متسلسلة، مثل طلب قصة عن محقق يعمل كساحر، بدأت "Sesame" بسرد قصة بأسلوب روائي مميز. لكن عندما تم مقاطعتها بسؤال عن خدعته المفضلة، لم تتعثر أو تعيد ترتيب القصة من جديد، بل استجابت بسلاسة وأدخلت الإجابة في السياق قائلة: "ممم.. سؤال رائع! لديه خدعة شهيرة تُسمى 'الشاهد المختفي'، حيث يستطيع جعل شخص ما يختفي للحظات كافية لتمرير رسالة سرية أو زرع دليل دون أن يدرك أحد." القدرة على استئناف الحديث بسلاسة دون فقدان السياق تُعد من أبرز نقاط تفوق "Sesame" مقارنة بالمساعدات الرقمية التقليدية.


الفرق بين Sesame والمساعدات الذكية الحالية

على الرغم من أن ChatGPT وGemini يقدمان تجربة ذكاء اصطناعي متقدمة في المجال الصوتي، إلا أنهما يعتمدان على نهج تقليدي لتحويل النصوص إلى صوت، ما يجعل محادثاتهما تبدو مصطنعة إلى حد ما. بالمقابل، تمتاز "Sesame" بقدرتها على تقديم حوار تفاعلي يبدو أكثر واقعية، إذ تحاكي آلية التفكير أثناء الحديث، مما يضفي طابعًا بشريًا يُصعّب تمييزه عن الحديث الحقيقي.

ورغم وجود بعض العيوب التقنية البسيطة، مثل الترددات الصوتية غير المتقنة أحيانًا، فإن الجمع بين التقنيات المتقدمة في ChatGPT وGemini مع أسلوب المحادثة العفوي لـ"Sesame" قد يؤدي إلى تطوير ذكاء اصطناعي صوتي متكامل يصعب تمييزه عن الإنسان، خاصة في المحادثات القصيرة.

ذو صلة

ما الذي يحمله المستقبل؟

لا تزال تقنية "Sesame" محدودة الانتشار، لكنها تُشكل خطوة كبيرة نحو مستقبل تتفاعل فيه الآلات مع البشر بسلاسة غير مسبوقة. مع استمرار تطور الذكاء الاصطناعي، قد يصبح التمييز بين الحديث مع شخص حقيقي أو خوارزمية متقدمة تحديًا حقيقيًا، مما يعيد صياغة مفهوم التواصل البشري في العصر الرقمي.

ذو صلة