أداة جديدة لاستنساخ الصوت من «أوبن إيه آي».. إليك تفاصيلها

مع الانتشار اليومي والمتزايد للتزييف العميق، تعمل شركة “OpenAI” على تحسين تقنيتها المستخدمة لاستنساخ الأصوات، إلا أن الشركة تصر في الوقت نفسه على أنها تفعل ذلك بطريقة مسؤولة جدًا.

أطلقت “OpenAI” محرك صوت جديدًا خاصًّا بها، كتوسيع لواجهة برمجة التطبيقات الحالية لتحويل النص إلى كلام. فبعدما كانت التقنية قيد التطوير لمدة عامين تقريبًا، يسمح “Voice Engine” للمستخدمين بتحميل أية عينة صوتية مدتها 15 ثانية لإنشاء نسخة اصطناعية منها.

إلا أنه لا يوجد موعد محدد لإتاحة التقنية للمستخدمين حتى الآن، مما يمنح الشركة الوقت للرد على كيفية استخدام النموذج وإساءة استخدامه.

وفي هذا الإطار، أوضح الفريق المنتج في “OpenAI” أن الشركة تريد التأكد من أن الجميع يشعرون بالرضا تجاه كيفية نشر التقنية الجديدة، مشيرًا إلى أنه على معرفة بمدى بخطورتها.

تدريب النموذج

يدعم نموذج الذكاء الاصطناعي الذي يعمل على تشغيل المحرك الصوتي من “OpenAI” إمكانات الصوت والقراءة بصوت عالٍ، ويحتوي على أصوات معدة مسبقًا لتحويل النص إلى كلام.

كما يتم تدريب نماذج المحرك الصوتي على تشغيل عدد هائل من تسجيلات الكلام، التي يتم الحصول عليها عادةً من المواقع العامة ومجموعات البيانات حول الويب.

وفي السياق عينه، يرى العديد من موردي الذكاء الاصطناعي الإبداعي، أن بيانات التدريب هي ميزة تنافسية، وتشكل أيضًا مصدرًا محتملاً للدعاوى القضائية المتعلقة بالملكية الفكرية.

وبالفعل، تمت مقاضاة “OpenAI” سابقًا؛ بسبب مزاعم بأن الشركة انتهكت قانون الملكية الفكرية من خلال تدريب الذكاء الاصطناعي الخاص بها على المحتوى المحمي بحقوق الطبع والنشر، بما في ذلك الصور والأعمال الفنية والأكواد والمقالات والكتب الإلكترونية، دون تقديم ائتمان أو أجر للمبدعين أو المالكين.

 توليف الصوت

يعمل “Voice Engine” على أخذ عينة صوتية صغيرة ونص، ثم إنتاج خطاب واقعي يطابق المتحدث الأصلي. ويقوم النموذج في الوقت نفسه، بتحليل بيانات الكلام والبيانات النصية المراد قراءتها بصوت عالٍ، مما يؤدي إلى إنشاء صوت مطابق، دون الحاجة إلى إنشاء نموذج مخصص لكل مستخدم.

يذكر أن هذه ليست بتقنية جديدة. فقد قام عدد من الشركات الناشئة بتقديم منتجات استنساخ الصوت لسنوات، من “ElevenLabs” إلى “Replica Studios” إلى “Papercup” إلى “Deepdub” إلى “Respeecher”. وكذلك الأمر بالنسبة لشركات التكنولوجيا الكبرى، مثل: أمازون، غوغل، مايكروسوفت.

إساءة الاستخدام

من الممكن أن يتم إساءة استخدام تطبيقات استنساخ الصوت بطرق تتجاوز مجرد تهديد سبل عيش الممثلين والتأثير على الانتخابات من خلال هذه التقنية. إلا أن هناك خطوات ستتخذها “OpenAI” لمنع إساءة استخدام “Voice Engine”.

قالت الشركة، إنه سيتم توفير “Voice Engine” فقط لمجموعة صغيرة جدًا من المطورين كبداية، وستعطي الشركة الأولوية لحالات الاستخدام منخفضة المخاطر والمفيدة اجتماعيًا، مثل تلك المتعلقة بالرعاية الصحية.

كما ستضع الشركة علامة مائية على النسخ التي تم إنشاؤها باستخدام “Voice Engine” باستخدام تقنية طورتها “OpenAI” والتي تتضمن معرفات غير مسموعة بالتسجيلات، في محاولة لمقاومة التلاعب.

وتخطط “OpenAI” أيضًا لتزويد أعضاء شبكة الفريق الأحمر الخاصة بها، وهي مجموعة متعاقدة من الخبراء الذين يساعدون بتقييم المخاطر، بإمكانية الوصول إلى “Voice Engine” لرصد الاستخدامات الضارة، لتتمكن الشركة من إيجاد حلول لها ومكافحتها.

اقترح تصحيحاً

اترك تعليقاً