تكنولوجيا

ذكاء اصطناعي جديد يسمح للوحات الفنية القديمة بالكلام

قامت دراسة حديثة بجامعة كامبريدج بالتعاون مع Samsung AI بعرض ذكاء اصطناعي لتوليد صور و فيديوهات غير حقيقية (التزييف العميق) لناس باستخدام عدد قليل جدا من الصور قد يصل لصورة واحدة فقط, خلافا لكل الأنظمة السابقة التي احتاجت الى عدد كبير من الصور أو الفيديوهات و مدة طويلة  من الوقت لمعالجة البيانات الزائدة لتوليد نفس النتائج يستخدم هذا الذكاء الاصطناعي “شبكة عصبونية اصطناعية” تحلل بيانات من فيديوهات تم معالجتها مسبقا و يقوم بتعميم النتائج لهذا التحليل حتى يخمن كيف يبدوا وجه الانسان من زاوية معينة بالنسبة للزوايا الأخرى كما يسمح بالقيام بما يسمى ب”تحريك الدمى” أي توليد فيديو لشخص باستخدام صورة له و فيديو لشخص أخر بحيث تطابق ملامح و حركات الشخص الذي في الصورة ملامح و حركات الشخص الذي بالفيديو, بهدف استخدامها للمكالمات الفيدوية و غيرها من الوسائط حيث يمكن احياء اللوحات الفنية و الرسوم.

ذكاء اصطناعي جديد يسمح للوحات الفنية القديمة بالكلام

تم مقارنة الشبكة الجديد بالشبكات السابقة المعتبرة أفضل الشبكات لتوليد الصور الفيديوهات غير الحقيقية (عند وقت كتابة المقالة) عبر اختبارات محوسبة تقوم بقياس بقياس الفروقات بينها و بين الشبكات الأخرى (حجم العينة = 50 فيديو) و عبر اختبارات عبر العين البشرية حيث يسأل متطوعون من الجامعات ان كانوا يستطيعون إيجاد الصورة المزيفة من بين 3 صور و في كلا الاختبارات حصلت الشبكة على نتائج عالية و في اختبار العين البشرية حصلت الشبكة

ذكاء اصطناعي جديد يسمح للوحات الفنية القديمة بالكلام

الجديدة على نسبة خطأ 0.62 مقارنة بالشبكات الأخرى التي حصلت على 0.82 و عند استخدام 32 صورة بدل واحد حصلت الشبكة الجديدة على نسبة خطأ 0.33 بالمئة وهي أقل نسبة ممكنة لعينة من 3.

كما أن الشبكة الجديد أنهت المعالجة بحوالي ربع الوقت  ( 0.061 ثانية مقابل 0.236 ثانية) التي استهلكته ثاني أسرع شبكة لإكمال المعالجة عند استعمال صور واحد فقط، و أقل من 3 بالمئة الوقت التي استغرقته ثاني أسرع شبكة عند معالجة 32 صورة (0.221 ثانية مقابل 7.542 ثانية) حيث تم إجراء الاختبار على معالج رسوم NVIDIA P40.

و لكن بالرغم من دقة الشبكة  الجديدة فأنها مصممة لإنتاج فيديوهات من دقة 224p للوقت الحالي مثل حال سائر الشبكات الموجودة اليوم كما أنها غير قادرة على أن تكيّف خواص الوجه على بيئة جديدة، مثل وجود شيء أما  الوجه المحاكي أم الذي يتم تتبعه.

ذكاء اصطناعي جديد يسمح للوحات الفنية القديمة بالكلام

و لكن إن كان كل هذا حدث بعام 2019 فما التطورات التي حدثت منذ الحين إلى اليوم؟ بفضل التطور في التكنولوجيا و زيادة فعالية البرمجيات المعاصرة أصبح من الممكن للإنسان غير المختص بتوليد الفيديوهات المزيفة الخاصة به باستخدام تطبيقات بسيط، مثال على هذه التطبيقات هو wombo.ai الذي يأخذ صورة ثم يجعل من في تلك الصورة يغني أغنية معينة من مكتبة التطبيق.

المراجع:

    • Zakharov E., Shysheya A., Burkov E., Lempitsky V. (2019). Few-Shot Adversarial Learning of Realistic Neural Talking Head Models. University of Cambridge, Samsung AI. Retrieved March 24, 2021 from https://arxiv.org/abs/1905.08233v1

Y. Wazwaz

يامن وزوز _ جامعة بوليتكنك فلسطين _ كلية الحاسوب و هندسة المعلومات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

هذا الموقع يستخدم Akismet للحدّ من التعليقات المزعجة والغير مرغوبة. تعرّف على كيفية معالجة بيانات تعليقك.

زر الذهاب إلى الأعلى