المحتوى
تمَّ تطوير أنظمة تحويل النص إلى كلام المتتالية، التي تستخدم نموذجاً صوتيَّاً في عام (2018) من قِبل باحثين من جوجل (Google) وجامعة كاليفورنيا، بيركلي (Berkeley).
ومن ثُمَّ، فقد تمَّ تطوير هذه الأنظمة لمساعدة الشركات على تحويل أي نوع من المحتوى الرقمي، إلى كتاب صوتي أو تجربة وسائط متعدَّدة.
يمكن لبرامج تحويل النصّ إلى كلام؛
- تحسين تجربة العملاء بلغات مختلفة، من خلال توفير تسجيلات صوتيّة سلسة بنقرة واحدة.
- وتقديم تجارب عالية الجودة للعملاء بتكلفة منخفضة، مع إنشاء صوتي فوري.
لكن، لكي تكون تجربة تحويل النصّ إلى كلام (TTS) تستحقُّ العناء حقّاً، من المهمّ أن يكون الصوت الناتج فريداً وطبيعيّاً.
نناقش في هذه المقالة، أفضل (3) أدوات لخدمات الصوت البشري والأدوات التي توفر خاصية الذكاء الاِصطناعي الصوتي بتقنيّة تحويل النص إلى كلام.
1- Murf AI
يعمل (Murf AI) على تبسيط التسجيل الصوتي وجعل الصوت عالي الجودة في متناول الجميع باِستخدام الذكاء الاِصطناعي. (Murf) هو تطبيق يساعد المستخدمين على إنشاء تسجيلات صوتيّة نابضة بالحياة خلال دقائق قليلة، دون الحاجة إلى أي معدّات تسجيل.
تتيح لك أداة (Murf AI voice-over) إنشاء تسجيلات صوتية واقعيّة جدّاً من النص. هذه الخدمة الصوتيّة سهلة الاِستخدام وتأتي مع نسخة تجريبيّة مجانيّة.
تمّ تطوير برنامج التعليق الصوتي بالذكاء الاِصطناعي هذا، من قبل شركة تُدعى (Murf) في عام (2020). وهو يوفر أداة قائمة على الويب تحوّل نصوصك إلى تسجيلات صوتيّة بواسطة الذكاء الاِصطناعي (AI) وبجودة الاِستوديو.
لدى (Murf) مجموعة متنوعة من الميّزات، التي يمكن أن تساعدك في تحويل النصّ إلى صوت، وتنفيذ عمليّات إرسال صوتيّة عالية الجودة لمشاريعك.
ميزات Murf AI
فيما يلي بعض ميّزات هذه الأداة:
1- يحتوي على مكتبة صوتية واسعة
يتوفّر أكثر من (120) صوتاً اِحترافياً و(20) لغة لتختار من بينها. يمكن أن تناسب هذهِ الأصوات أغراضاً مختلفة، من التعلّم الإلكتروني واليوتيوب إلى البودكاست والتسويق. يمكنك اِستخدامه لإنشاء كتب صوتيّة وألعاب فيديو وحتّى مقاطع فيديو عن منتجاتك.
2- يوفر إضافة مؤثرات
يمكنك جعل الصوت أكثر تشويقاً من خلال إضافة مقطع فيديو أو صورة أو موسيقى إليه. ويسمح لك أيضاً بتعديل الكلام والصوت وإضافة النغمات والتعبيرات التي تحتاجها لجعله فريداً تماماً. وهي ميزة لا تتوفر في جميع برامج تحويل النص إلى كلام.
يمكنك أيضاً تغيير جودة الصوت عن طريق إضافة مجموعة متنوعة من التأثيرات، مثل الصدى والصفير وغيرها.
3- يؤمن مصحح أخطاء تلقائي
قبل تحويل النص إلى كلام، يقوم مساعد قواعد اللغة المدعوم بالذكاء الاِصطناعي بتحديد الأخطاء في النص وتصحيحها.
4- يؤمن تجربة مستخدم مريحة
البرنامج سهل التنقل ويسمح لك بمطابقة توقيت صوتك مع مقاطع الفيديو الخاصة بك (مزامنة الصوت).
كما يسمح لك بمشاركة التعليقات الصوتية مع الآخرين عن طريق تنزيلها وتصديرها.
5- يوفر ترخيصات لمقاطعها
جميع مقاطع الفيديو التي تنشئها، لها ترخيص اِستخدام تجاري مرفق بها.
سلبيات Murf AI
مع جميع المميّزات التي تمَّ ذكرها، لا يخلو الأمر من بعض السلبيات التي ستواجهك عند اِستخدامك لِـ (Murf):
- يُعدّ مكلفاً إلى حدٍّ ما للاِستعمال التجاري.
- تواجد الكثير من الإعلانات في النسخة المجانيّة.
2- Synthesia
يوفّر (Synthesia.io) طريقة لتحويل أي نص أو جزء من الكتابة إلى فيديو ذكاء اِصطناعي (AI) مع مجموعة من الصور الرمزيّة (avatars).
سواء كنت تبحث عن:
- مقاطع فيديو توضيحيّة بسيطة ومرئية.
- أو مقطع فيديو لإرساله إلى موظّفي شركتك.
- أو حتّى محتوى فيديو عام.
تتيح لك (Synthesia) إنشاء مقاطعك بمظهر اِحترافي.
كما تمنحك (Synthesia) فرصة لإنشاء مقاطع فيديو دون الحاجة إلى أن تكون أمام الكاميرا أو إعداد فريق لإنتاج فيديو كامل ومعدّات مكلفة.
تعدّ هذه الأداة رائعة لِروّاد الأعمال ومديري الوسائط الاجتماعية أو المسوقين. أو أي عمل رقمي يحتاج لاِستخدام الوسائط الاِحترافيّة، دون إنفاق الآلاف على فريق الإنتاج.
ميزات أداة Synthesia
وتمتلك مجموعة كبيرة من الميّزات، سنذكر أبرزها:
1- تقدّم ميزات قابلة للتخصيص
داخل استوديو (Synthesia)، يمكنك اِختيار الصورة الرمزيّة (avatar)، التي تناسب غرضك، والاِختيار من بين لغات مختلفة. ويمكنك تخصيص موسيقى الخلفيّة لإعطاء المشاعر المحدّدة لإنشاء فيديو شخصي إضافي.
2- يدعم الترجمات (Subtitles)
يُعدّ هذا أفضل جزء في (Synthesia AI)، حيث أنّه بنفس الطريقة التي تتوفّر بها التعليقات الصوتيّة بلغات متعدّدة، ينطبق الأمر نفسه على الترجمة.
حيثُ يأتي كل مقطع فيديو تقوم بإنشائه مصحوباً بترجمات يتمّ إنشاؤها تلقائيّاً، ممَّا يضمن الشموليّة لجميع الجماهير.
3- يؤمن تجربة مستخدم سهلة وواضحة
يمكن للمستخدمين ذوي الخلفيات والمهارات المختلفة اِستخدام هذه المنصة بسهولة. كما يوجد فريق دعم عملاء رائع لضمان نجاحك باِستخدام الأداة.
تعمل (Synthesia) على تسهيل اِستيراد الصور ومقاطع الفيديو الخاصّة بك، أو تغيير البرنامج النصِّي وتحريره.
والكثير من الميّزات الأخرى التي تستطيع اِكتشافها عند اِستعمالك لهذه الأداة، ولكن يوجد بعض السلبيات بها وسنذكر لكم أهمّها.
سلبيات أداة Synthesia
إليك أبرز السلبيّات لهذه الأداة:
- تسمح لك النسخة التجريبية بفيديو مجاني واحد فقط؛
تمكّنك (Synthesia) من إنتاج مقطع فيديو تمهيدي واحد بنص بسيط وبدون تحرير. ولا يمكنك الاِختيار من بين (60) لغة أو اِستخدام الاِستوديو لإضافة عناصر مخصَّصة. حيث تقوم بإدخال النصّ الخاص بك، وتحديد الهدف من الفيديو، دون السماح لك بإضافة عناصر مخصَّصة إليه بعد إنتاجه. - يخضع عملاء الخطة الشهرية لبعض القيود.
3- VALL-E
كان هناك الكثير من الضجّة في الفترة الأخيرة حول مبادرة مايكروسوفت (Microsoft) للذكاء الاِصطناعي (VALL-E). وهي أداة ذكاء اِصطناعي لديها القدرة على تقليد صوت المُستخدم بدقَّة كبيرة طالما أنَّها سمعته لمدة (3) ثوانٍ فقط!
تقول (Microsoft) إنَّ الأداء تحسّن مقارنةً بنماذج الصوت الاِصطناعيّة السابقة، لدرجة أنَّه سيكون من الصعب معرفة ما إذا كنت تسمع صوتاً حقيقياً أم مزيفاً.
حيث قامت بتدريب هذه الأداة بأكثر من (60) ألف ساعة من النماذج. أي مئات المرَّات أكثر من الأدوات المُماثلة، لذلك فهي لا تمتلك فقط القدرة على محاكاة نغمة الصوت، بل التغييرات في العاطفة والتعبير للمستخدِم أيضاً.
ميزات VALL-E
باِعتبار أنَّ هذه الأداة هي الأحدث على الإطلاق فهي تمتلك مجموعة من المميّزات، وأبرزها:
1- توليد أصوات طبيعية
بالإضافة إلى تقليل وقت التدريب لتوليد صوت جديد ، يُنشئ (VALL-E) صوتاً اِصطناعياً يبدو طبيعياً أكثر بكثير من النماذج الأخرى. من خلال الحفاظ على النغمة والشخصيّة وأسلوب العيّنة الأصليّة.
2- توليف كلام عالي الجودة باستخدام تسجيل مدته ثلاث ثوان فقط
اِمتلاك هذه الميّزات يعني أنَّه من خلال ثلاث ثوانٍ فقط من صوت شخص ما. يتمّ تسجيله من مكالمة هاتفيّة، أو لقاء شخصي أو حتّى من بودكاست، يمكن للنموذج توليف هذا الصوت لنطق أي جملة.
3- الحفاظ على عاطفة المتحدث
يمكن لـِ (VALL-E) بناء خطاب مخصَّص مع الحفاظ على النغمة العاطفيّة، اِستناداً إلى قاعدة بيانات الأصوات العاطفيّة لعيِّنة من التسجيلات الصوتيّة.
4- يمكن استخدام (VALL-E) في الألعاب والتكنولوجيا المالية
صرح جوشوا كايزر (Joshua Kaiser)، الرئيس التنفيذي لشركة (Tovie.ai)، أنَّ النموذج قد تمَّ تصميمه بطريقة تسمح للمستخدمين بالقيام بالكثير باِستخدام بيانات أقل بكثير. وهو أمر بالغ الأهميّة للمؤسّسات التي تحاول إنشاء توليف الكلام، والتي لا تحتوي على بيانات كافية لتحسين الأداء.
وأضاف: “نعتقد أن هذا سيفيد الكثير من الصناعات من البيع بالتجزئة إلى التكنولوجيا الماليّة وإلى الألعاب. التي تتبنّى بالفعل واجهات الصوت، من خلال جعل العملية برمّتها أكثر سهولة”.
سلبيات VALL-E
وعلى الرُّغم من هذه الإيجابيات الفريدة لا نستطيع إخفاء المخاوف من العيوب التي قد نجدها فيها:
- نقص في البيانات
لا يوجد قدر من بيانات التدريب، ولا حتى (60) ألف ساعة منها ، يمكن أن تمثل كل صوت ممكن. هذا ينطبق بشكل خاص على المتحدِّثين بلكنات. نتيجةً لذلك، يجب توسيع مجموعة متنوّعة من أساليب التحدُّث. - خطر الاِنتحال
قد يؤدّي إساءة اِستخدام النموذج إلى مخاطر، بسبب قدرة هذه الأداة على توليف الكلام مع الاِحتفاظ بهويّة المُتحدِّث. ممَّا قد يؤدّي إلى مواقف مثل اِنتحال الهويّة. كما يمكن أن يشمل الاِنتحال السماح لمجرمين الإنترنت، بالوصول إلى البنوك أو الأنظمة الآمنة التي تستخدم البصمة الصوتيّة ككلمة مرور. - ويقول خُبراء الأمن السيبراني أنَّه بدون الحماية المناسبة، يمكن اِستخدامه لهجمات تصيُّد أكثر واقعيّة ونشر معلومات مضلِّلة.
الخلاصة
بصفةٍ عامَّة، يلعب الصوت التوضيحي لمنتجك أو مقاطع الفيديو الإرشاديّة دوراً مهمَّاً في نقل الرسالة إلى العملاء. إنَّه يمثِّل هويّة شركتك وعلامتك التجارية في السوق.
لذلك؛
- لِتعظيم تأثير مقاطع الفيديو الخاصَّة بالمنتج.
- وجعل اللقاءات أكثر روعة وذات صلة بالفرد في مجال الإعلان والتسويق وخدمة العملاء.
يجب التركيز على الحصول على خدمات صوت عالية الجودة.