How AI turns noise into videos
45sShows the surprising process of generating video from random noise, sparking curiosity.
▶ Play ClipThis video explains how AI image and video generation models work, focusing on diffusion models and their connection to physics. It covers key concepts like CLIP embeddings, the diffusion process, and guidance techniques, using a toy 2D dataset to build intuition.
AI image/video models use a process called diffusion, analogous to Brownian motion but run backwards in a high-dimensional space.
The video uses WAN 2.1, an open-source text-to-video model, to demonstrate generation. It starts with random noise and iteratively denoises it.
The video covers: 1) CLIP model for shared text-image embeddings, 2) diffusion process and its physics connection, 3) combining CLIP and diffusion for text-guided generation.
CLIP consists of two models (text and image encoder) trained on 400 million image-text pairs to produce similar embeddings for matching pairs.
CLIP uses a contrastive objective: maximize similarity between matching image-text pairs and minimize similarity between non-matching pairs, using cosine similarity.
The embedding space allows arithmetic operations; e.g., subtracting 'no hat' from 'with hat' yields a vector closest to 'hat' in text space.
The DDPM paper (2020) showed high-quality image generation by reversing a diffusion process that adds noise step by step.
Training adds random noise to images; generation also adds noise at each step. The model predicts the total noise added, not just one step.
Thinking of diffusion models as learning a vector field that points toward the data manifold. The field is conditioned on time to capture coarse-to-fine structure.
Predicting total noise reduces variance compared to step-by-step denoising, making training more efficient while preserving the same learning objective.
Adding noise prevents all points from collapsing to the mean of the data distribution, which would produce blurry images. It allows sampling from the learned distribution.
DDIM uses an ODE derived from the SDE via the Fokker-Planck equation, enabling high-quality generation without random noise steps and with fewer steps.
OpenAI's unCLIP (DALL-E 2) trains a diffusion model to reverse the CLIP image encoder, using CLIP text embeddings to guide generation.
Text embeddings can be passed as additional input to the diffusion model (conditioning). Various methods exist: cross-attention, addition, concatenation.
Guidance amplifies the difference between conditional and unconditional model outputs, steering generation toward the desired class or text prompt.
WAN 2.1 uses a negative prompt (e.g., 'extra fingers, walking backwards') to steer away from unwanted features, subtracting its embedding from the conditional one.
Diffusion models, combined with text embeddings from models like CLIP and guidance techniques, enable high-quality text-to-image and text-to-video generation. The field has advanced rapidly since DDPM, with open-source models like WAN 2.1 and Stable Diffusion making the technology accessible.
"Title accurately describes the content: a deep dive into how AI images/videos work, with clear explanations and examples."
What physical process is analogous to the forward process in diffusion models?
Brownian motion.
00:18
What does CLIP stand for and what is its main purpose?
Contrastive Language-Image Pre-training; it learns a shared embedding space for images and text.
03:58
How many image-text pairs was CLIP trained on?
400 million.
04:03
What loss function does CLIP use?
Contrastive loss: maximize similarity for matching pairs, minimize for non-matching pairs.
05:28
What similarity measure does CLIP use?
Cosine similarity.
05:36
In DDPM, what does the model predict?
The total noise added to the original image (epsilon).
10:53
Why does adding random noise during DDPM generation produce better images?
It prevents all generated samples from collapsing to the mean of the data distribution, which would be blurry.
19:37
What is the key advantage of DDIM over DDPM?
DDIM is deterministic and requires fewer steps for high-quality generation.
24:26
What mathematical tool did Google Brain use to derive DDIM?
The Fokker-Planck equation from statistical mechanics.
22:49
What is classifier-free guidance?
A technique that amplifies the difference between conditional and unconditional model outputs to steer generation toward a desired class or prompt.
32:13
What is the name of the open-source text-to-video model used in the video?
WAN 2.1.
00:53
What is the dimensionality of CLIP embeddings?
512.
04:14
Diffusion analogy to Brownian motion
Provides an intuitive physical foundation for understanding diffusion models.
00:18Contrastive learning in CLIP
Explains the core training objective that enables shared text-image embeddings.
05:28Arithmetic in embedding space
Demonstrates that conceptual differences correspond to vector differences, a powerful property.
06:16Predicting total noise reduces variance
Key insight into why DDPM training is efficient despite predicting a harder task.
14:57Noise prevents mode collapse to mean
Explains a counterintuitive phenomenon: adding noise improves output quality.
19:37Classifier-free guidance
A simple yet effective technique that became standard in modern generative models.
32:13[00:03] على مدى السنوات القليلة الماضية، أصبحت أنظمة الذكاء الاصطناعي
[00:06] جيدة بشكل مذهل في تحويل الدعائم النصية إلى مقاطع فيديو.
[00:10] يكمن في صميم كيفية عمل هذه النماذج ارتباط عميق بالفيزياء.
[00:14] يعمل هذا الجيل من نماذج الصور والفيديو باستخدام عملية تُعرف باسم
[00:18] الانتشار، والتي تعادل بشكل ملحوظ الحركة البراونية التي نراها عندما
[00:22] تنتشر الجسيمات، ولكن مع تشغيل الزمن إلى الوراء، وفي فضاء عالي الأبعاد.
[00:28] وكما سنرى، فإن هذا الارتباط بالفيزياء أكثر من مجرد فضول.
[00:32] نحصل على خوارزميات حقيقية من الفيزياء التي يمكننا استخدامها لتوليد الصور ومقاطع الفيديو.
[00:37] وسيعطينا هذا المنظور أيضًا بعض البديهيات الرائعة حقًا لكيفية عمل هذه النماذج عمليًا.
[00:42] ولكن قبل أن نغوص في هذه العلاقة، دعنا نتعامل مع نموذج انتشار حقيقي.
[00:47] وعلى الرغم من أن أفضل النماذج مغلقة المصدر، إلا أن هناك بعض النماذج المقنعة مفتوحة المصدر.
[00:53] تم إنشاء هذا الفيديو لرائد فضاء بواسطة نموذج مفتوح المصدر يسمى WAN 2.1.
[00:57] يمكننا أن نضيف إلى مبادرتنا ونجعل رائد الفضاء يحمل
[01:00] علماً أو يحمل حاسوباً محمولاً أو يعقد اجتماعاً.
[01:04] إذا اختصرنا الموجه إلى رائد فضاء فقط، فسنحصل على هذا.
[01:08] وإذا خفضنا السرعة إلى لا شيء، فمن المثير للاهتمام
[01:10] أننا ما زلنا نحصل على هذا الفيديو لامرأة.
[01:13] إذا بحثنا في الشيفرة المصدرية لنموذج WAN، سنجد أن عملية
[01:17] توليد الفيديو تبدأ بهذا الاستدعاء لمولد أرقام عشوائي.
[01:20] إنشاء فيديو يتم فيه اختيار قيم شدة البكسل عشوائيًا.
[01:25] إليك ما يبدو عليه الأمر.
[01:27] من هنا، يتم تمرير فيديو الضوضاء النقي هذا إلى محول.
[01:31] هذا هو نفس نوع نموذج الذكاء الاصطناعي المستخدم في نماذج اللغات الكبيرة، مثل ChatGPT.
[01:36] ولكن بدلاً من إخراج نص، يُخرج هذا المحول فيديو آخر يبدو الآن بهذا الشكل.
[01:42] لا يزال معظمه ضجيج، ولكن مع بعض التلميحات من التركيب.
[01:46] يُضاف هذا الفيديو الجديد إلى فيديو الضجيج النقي، ثم يُمرر مرة
[01:49] أخرى إلى النموذج مرة أخرى، لينتج فيديو ثالث يبدو بهذا الشكل.
[01:54] تتكرر هذه العملية مراراً وتكراراً.
[01:56] إليك ما يبدو عليه الفيديو بعد 5 تكرارات، 10، و20، و30، و40، وأخيراً 50.
[02:05] خطوة بخطوة، يقوم محولنا بتحويل الضوضاء النقية إلى فيديو واقعي بشكل لا يصدق.
[02:11] ولكن ما هي بالضبط العلاقة بالحركة البراونية هنا؟
[02:16] وكيف يمكن لنموذجنا أن يستخدم مدخلات النص بشكل
[02:18] صريح للغاية لتشكيل الضوضاء إلى ما يصفه موجهنا؟
[02:22] في هذا الفيديو، سنؤثر على نماذج الانتشار في 3 أجزاء.
[02:26] أولاً، سنلقي نظرة على ورقة بحثية ونموذج OpenAI لعام 2021 بعنوان CLIP.
[02:31] وكما سنرى، فإن CLIP هو في الواقع نموذجان، نموذج لغوي ونموذج رؤية، يتم تدريبهما باستخدام
[02:36] هدف تعليمي ذكي يسمح لهما بتعلم هذه المساحة المشتركة القوية حقًا بين الكلمات والصور.
[02:43] ستساعدنا تجربة هذا الفضاء في التعرف على المساحات
[02:46] عالية الأبعاد التي تعمل فيها نماذج الانتشار.
[02:50] لكن تعلم التمثيل المشترك لا يكفي لتوليد الصور.
[02:54] من هنا، سنلقي نظرة على عملية الانتشار نفسها.
[02:56] على مستوى عالٍ، يتم تدريب نماذج الانتشار على إزالة الضوضاء من الصور أو مقاطع الفيديو.
[03:02] ومع ذلك، إذا بحثت في الأوراق البحثية البارزة في هذا المجال،
[03:05] ستجد أن هذا الفهم الساذج للانتشار لا يصمد في الواقع العملي.
[03:09] سنتناول في هذا القسم العلاقة بين نماذج الانتشار وعمليات الانتشار في الفيزياء.
[03:15] سيساعدنا هذا الارتباط على فهم كيفية عمل هذه النماذج فعلياً في الممارسة
[03:19] العملية ويعطينا بعض النظريات القوية لتسريع توليد الصور والفيديو بشكل كبير.
[03:25] أخيرًا، سنجمع هذه العوالم معًا ونرى كيف يتم الجمع بين مناهج مثل CLIP ونماذج
[03:30] الانتشار لتكييف وتوجيه عملية التوليد نحو مقاطع الفيديو التي نطلبها في مطالباتنا.
[03:37] كان عام 2020 عاماً فارقاً في مجال النمذجة اللغوية.
[03:41] أظهرت النتائج الجديدة في قوانين التحجيم العصبي و OpenAI's GPT-3 أن الأكبر هو الأفضل حقًا.
[03:47] تتمتع النماذج الضخمة التي تم تدريبها على مجموعات
[03:50] بيانات ضخمة بقدرات لم تكن موجودة في النماذج الأصغر.
[03:54] لم يستغرق الباحثون وقتاً طويلاً لتطبيق أفكار مماثلة على الصور.
[03:58] في فبراير 2021، أصدر فريق في OpenAI بنية نموذجية جديدة تسمى CLIP، تم تدريبها على
[04:03] مجموعة بيانات تضم 400 مليون زوج من الصور والتعليقات التوضيحية المأخوذة من الإنترنت.
[04:08] يتكون CLIP من نموذجين، أحدهما يعالج النصوص والآخر يعالج الصور.
[04:14] يكون ناتج كل من هذه النماذج عبارة عن متجه طوله 512، والفكرة
[04:18] الأساسية هي أن المتجهات لصورة معينة وتعليقاتها يجب أن تكون متشابهة.
[04:23] ولتحقيق ذلك، طور فريق OpenAI نهجاً تدريبياً ذكياً.
[04:28] إذا أعطينا مجموعة من أزواج الصور-التسميات التوضيحية للصور، على سبيل المثال يمكن أن تحتوي
[04:33] مجموعتنا على صورة قطة، وكلب، وأنا، مع التسميات التوضيحية صورة قطة، وصورة كلب، وصورة رجل،
[04:38] ثم نمرر الصور الثلاث إلى نموذج الصورة، والتعليقات التوضيحية الثلاثة إلى نموذج النص.
[04:44] لدينا الآن ثلاثة متجهات للصور وثلاثة متجهات للنصوص، ونريد أن
[04:48] تكون متجهات أزواج الصور-التسميات النصية المتطابقة متشابهة.
[04:52] تتمثل الفكرة الذكية من هنا في الاستفادة من التشابه ليس فقط
[04:55] بين الصور والتعليقات التوضيحية المتقابلة فحسب، بل بين جميع
[04:58] أزواج الصور والتعليقات التوضيحية في المجموعة عند تدريب نماذجنا.
[05:02] إذا رتبنا متجهات الصورة على شكل أعمدة مصفوفة، ومتجهات النص على شكل صفوف، فإن أزواج
[05:07] المتجهات على طول قطر المصفوفة تتوافق مع الصور والتعليقات التوضيحية المتطابقة.
[05:12] وجميع الأزواج خارج القطر هي صور وتعليقات توضيحية غير متطابقة.
[05:16] يسعى هدف تدريب CLIP إلى تعظيم التشابه بين أزواج الصور-التعليقات المتناظرة،
[05:22] مع تقليل التشابه بين أزواج الصور-التعليقات غير المتناظرة في الوقت نفسه.
[05:28] يرمز حرف C في CLIP إلى التباين، لأن النموذج يتعلم
[05:31] التباين بين أزواج الصور المتطابقة وغير المتطابقة.
[05:36] تقيس خوارزمية CLIP التشابه بين المتجهات باستخدام مقياس يسمى تشابه جيب التمام.
[05:42] هندسيًا، يمكننا التفكير في كل متجه من هذه المتجهات
[05:44] على أنه يشير إلى اتجاه ما في فضاء عالي الأبعاد.
[05:47] يقيس تشابه جيب التمام جيب تمام الزاوية بين المتجهات في هذا الفضاء.
[05:53] لذا، إذا كان متجه النص ومتجه الصورة يشيران في نفس الاتجاه، فإن الزاوية بين المتجهين
[05:58] تساوي صفرًا، وهو ما ينتج عنه قيمة قصوى لدرجة تشابه جيب التمام تساوي واحدًا.
[06:03] لذلك يتم تدريب نماذج الصور والنصوص التي تشكل CLIP على زيادة محاذاة الصور
[06:07] والتعليقات التوضيحية ذات الصلة إلى أقصى حد في هذا الفضاء المشترك عالي
[06:11] الأبعاد، مع تقليل المحاذاة بين الصور والتعليقات التوضيحية غير ذات الصلة.
[06:16] إن الهندسة المستفادة من هذا الفضاء المتجه المشترك، المعروف باسم الفضاء
[06:20] الكامن أو الفضاء المضمن، لها بعض الخصائص المثيرة للاهتمام حقًا.
[06:24] إذا التقطتُ صورتين لنفسي، إحداهما لا أرتدي قبعة والأخرى أرتدي قبعة،
[06:29] ومررت كلتاهما في نموذج صورة CLIP، نحصل على متجهين في فضاء التضمين.
[06:35] والآن، إذا أخذنا المتجه المناظر لي وأنا أرتدي قبعة، وطرحنا
[06:39] المتجه الذي لا أرتدي قبعة، نحصل على متجه جديد في فضاء التضمين.
[06:44] والآن ما النص الذي قد يتوافق مع هذا المتجه الجديد؟
[06:48] من الناحية الحسابية أخذنا الفرق بين ارتدائي قبعة وعدم ارتدائي قبعة.
[06:52] يمكننا البحث عن نص مطابق عن طريق تمرير مجموعة من الكلمات المختلفة إلى مشفر
[06:58] النص، وحساب تشابه جيب التمام بين متجه الفرق المحسوب حديثًا ومتجه النص.
[07:04] عند اختبار مجموعة من بضع مئات من الكلمات الشائعة، كانت كلمة
[07:07] "قبعة" هي الكلمة التي تحتل المرتبة الأولى في قائمة الكلمات
[07:10] المتشابهة بنسبة تشابه 0.165، تليها كلمة "قبعة" ثم كلمة "خوذة".
[07:14] هذه نتيجة رائعة.
[07:17] تتيح لنا الهندسة المكتسبة لفضاء التضمين في CLIP العمل رياضيًا على الأفكار
[07:22] أو المفاهيم البحتة في صورنا ونصوصنا، وترجمة الاختلافات في محتوى صورنا،
[07:28] مثل وجود قبعة من عدمه، إلى مسافة حرفية بين المتجهات في فضاء التضمين.
[07:34] أظهر فريق OpenAI أن برنامج CLIP يمكن أن يحقق نتائج مذهلة للغاية في
[07:39] تصنيف الصور بمجرد تمرير صورة إلى مشفر الصور، ثم مقارنة المتجه الناتج
[07:44] بمجموعة من التسميات التوضيحية المحتملة، واحدة لكل تسمية يمكن تعيينها
[07:49] للصورة، وتصنيف الصورة بأي تسمية تؤدي إلى أعلى تشابه في جيب التمام.
[07:55] لذا فإن تقنيات مثل CLIP تعطينا تمثيلاً مشتركاً قوياً
[07:58] للصور والنصوص، وهو نوع من الفضاء المتجه للأفكار النقية.
[08:03] ومع ذلك، فإن نماذج CLIP لدينا تسير في اتجاه واحد فقط.
[08:06] يمكننا فقط تعيين الصورة والنص في مساحة التضمين المشتركة.
[08:10] ليس لدينا أي طريقة لتوليد الصور والنصوص من ناقلات التضمين لدينا.
[08:16] لم يكن عام 2020 عامًا تحويليًا في مجال النمذجة اللغوية فحسب.
[08:20] بعد أسابيع قليلة من صدور ورقة GPT-3، نشر فريق في بيركلي ورقة بحثية بعنوان
[08:25] "نماذج احتمالية الانتشار المقلل للانتشار، والمعروفة الآن باسم DDPM.
[08:30] أظهرت الورقة البحثية لأول مرة أنه من الممكن توليد صور عالية الجودة للغاية
[08:35] باستخدام عملية الانتشار، حيث يتم تحويل الضوضاء النقية خطوة بخطوة إلى صور واقعية.
[08:42] الفكرة الأساسية وراء نماذج الانتشار واضحة ومباشرة للغاية.
[08:46] نلتقط مجموعة من صور التدريب ونضيف تشويشًا إلى كل
[08:50] صورة خطوة بخطوة حتى يتم تدمير الصورة بالكامل.
[08:54] من هنا نقوم بتدريب شبكة عصبية لعكس هذه العملية.
[08:58] عندما تعلمت لأول مرة عن نماذج الانتشار، افترضت أنه سيتم
[09:01] تدريب النماذج على إزالة الضوضاء خطوة واحدة في كل مرة.
[09:05] سيتم تدريب نموذجنا على التنبؤ بالصورة في الخطوة 1 بمعلومية الصورة
[09:08] الأكثر ضوضاءً في الخطوة 2، ثم يتم تدريبه على التنبؤ بالصورة في
[09:11] الخطوة 2 بمعلومية الصورة الأكثر ضوضاءً في الخطوة 3، وهكذا.
[09:15] عندما يحين وقت توليد صورة، كنا نمرر ضوضاء نقية إلى نموذجنا، ثم نأخذ مخرجاته
[09:20] ونعيد تمريرها إلى مدخلاته مرة بعد أخرى، وبعد خطوات كافية نحصل على صورة جميلة.
[09:26] والآن، اتضح أن هذا النهج الساذج لبناء نموذج الانتشار لا يعمل بشكل جيد حقًا.
[09:32] عملياً لا توجد نماذج حديثة تعمل بهذا الشكل.
[09:35] هذه هي خوارزميات التدريب وتوليد الصور من ورقة فريق بيركلي البحثية.
[09:40] الترميز كثيف بعض الشيء، لكن هناك بعض التفاصيل الأساسية التي يمكننا
[09:43] استخلاصها والتي ستساعدنا على فهم ما يتطلبه الأمر لجعل هذه النماذج تعمل حقًا.
[09:48] أول ما أدهشني هو أن الفريق أضاف ضوضاء عشوائية إلى الصور
[09:52] ليس فقط أثناء التدريب، ولكن أيضاً أثناء توليد الصور.
[09:56] تخبرنا الخوارزمية 2 أنه عند توليد صور جديدة، في كل خطوة، بعد
[10:00] أن تتنبأ شبكتنا العصبية بصورة أقل تشويشًا، نحتاج إلى إضافة
[10:04] تشويش عشوائي إلى هذه الصورة قبل تمريرها مرة أخرى إلى نموذجنا.
[10:09] اتضح أن هذه الضوضاء المضافة مهمة جدًا من الناحية العملية.
[10:13] إذا أخذنا نموذج انتشار شائع مثل الانتشار المستقر 2 واستخدمنا نهج توليد الصور الذي يستخدمه
[10:18] فريق بيركلي، والمعروف باسم أخذ عينات DDPM، يمكننا الحصول على بعض الصور الرائعة حقاً.
[10:23] هذه هي الصورة التي نحصل عليها عند مطالبة النموذج بهذه المطالبة، حيث نطلب شجرة في الصحراء.
[10:29] والآن، إذا أزلنا سطر التعليمات البرمجية التي تضيف ضوضاء في كل خطوة
[10:33] من عملية التوليد، فسنحصل في النهاية على شجرة ضبابية صغيرة حزينة.
[10:37] كيف يمكن أن تؤدي إضافة ضوضاء عشوائية أثناء توليد
[10:40] الصور إلى الحصول على صور أفضل جودة وأكثر وضوحًا؟
[10:44] الأمر الثاني الذي أدهشني عندما واجهت نهج فريق بيركلي هو أن الفريق
[10:48] لم يكن يدرب النماذج على عكس خطوة واحدة في عملية إضافة الضوضاء.
[10:53] وبدلاً من ذلك، يأخذ الفريق صورة أولية نظيفة يسمونها X0،
[10:56] ويضيفون تشويشاً عشوائياً متدرجاً إلى الصورة، يسمونه إبسيلون.
[11:01] ومن هنا، يتم تدريب النموذج على التنبؤ بإجمالي التشويش الذي تمت إضافته إلى الصورة الأصلية.
[11:06] لذا فإن الفريق يطلب من النموذج فعلياً أن يتخطى
[11:10] جميع الخطوات الوسيطة ويتنبأ بالصورة الأصلية.
[11:14] حدسيًا، تبدو مهمة التعلم هذه أصعب بكثير بالنسبة
[11:17] لي من مجرد تعلم جعل الصورة المشوشة أقل تشويشًا.
[11:21] كانت ورقة فريق بيركلي البحثية ونهجها نتيجة بارزة وضعت الانتشار على الخريطة.
[11:27] لماذا تعمل إضافة ضوضاء عشوائية أثناء توليد الصور وتدريب النموذج بهذه الطريقة بشكل جيد؟
[11:33] تعتمد ورقة DDPM على بعض النظريات المعقدة إلى حد ما للوصول إلى هذه الخوارزميات.
[11:38] سأقوم بتضمين رابط إلى برنامج تعليمي رائع في الوصف إذا كنت ترغب في التعمق أكثر في النظرية.
[11:44] لحسن الحظ، اتضح أن هناك طريقة مختلفة ولكن مكافئة رياضيًا لفهم ما تتعلمه نماذج الانتشار
[11:49] حقًا والتي يمكننا استخدامها للحصول على إحساس مرئي وبديهي لسبب عمل خوارزميات DDPM بشكل
[11:54] جيد.
[11:56] سيكون المفتاح هو التفكير في نماذج الانتشار على أنها تعلم حقل متجه متغير زمنيًا.
[12:00] يؤدي هذا المنظور أيضًا إلى نهج أكثر عمومية يسمى النماذج
[12:04] القائمة على التدفق، والتي أصبحت شائعة جدًا في الآونة الأخيرة.
[12:08] لمعرفة كيف تتعلم نماذج الانتشار هذا الحقل المتجه
[12:11] المتغير زمنيًا، دعنا نبسط مشكلة التعلم مؤقتًا.
[12:15] إحدى الطرق للتفكير في الصورة هي أنها نقطة في فضاء عالي
[12:19] الأبعاد، حيث تتحكم قيمة شدة كل بكسل في موضع النقطة في كل بُعد.
[12:25] إذا قمنا بتصغير حجم الصور إلى وحدتي بكسل فقط، يمكننا تصور توزيع الصور من خلال رسم قيمة
[12:31] شدة البكسل للبكسل الأول على المحور س في مخطط الانتشار وشدة البكسل للبكسل الثاني على
[12:37] المحور ص.
[12:38] لذا فإن الصورة التي تحتوي على بكسل أول أسود وبكسل ثانٍ أبيض
[12:42] ستظهر عند س يساوي صفرًا وص يساوي واحدًا على مخطط الانتشار.
[12:46] وستكون الصورة البيضاء بالكامل عند واحد، واحد، وهكذا.
[12:50] الآن، الصور الحقيقية لها بنية محددة للغاية في هذا الفضاء عالي الأبعاد.
[12:54] دعونا ننشئ بعض التركيب لنقاطنا في الفضاء ثنائي
[12:57] الأبعاد السفلي لكي يتعلم نموذج الانتشار لدينا.
[13:00] لا يهم التركيب الدقيق الذي نختاره كثيرًا في هذه المرحلة.
[13:03] لنبدأ بشكل حلزوني مثل هذا.
[13:06] إن الفكرة الأساسية لنماذج الانتشار، وهي إضافة المزيد والمزيد
[13:10] من التشويش إلى الصورة ثم تدريب شبكة عصبية لعكس هذه العملية،
[13:13] تبدو مثيرة للاهتمام حقًا من منظور بيانات اللعبة ثنائية الأبعاد.
[13:17] عندما نضيف ضوضاء عشوائية إلى صورة، فإننا نغير قيمة كل بكسل بمقدار عشوائي.
[13:23] في مجموعة بيانات اللعبة ثنائية الأبعاد، حيث تتوافق إحداثيات نقطة ما مع قيم كثافة البكسل
[13:29] في تلك الصورة، فإن إضافة ضوضاء عشوائية تعادل اتخاذ خطوة في اتجاه يتم اختياره عشوائيًا.
[13:35] وكلما أضفنا المزيد والمزيد من التشويش إلى الصورة، تتحرك النقطة بشكل عشوائي.
[13:39] تكافئ هذه العملية الحركة البراونية التي تقود عمليات
[13:43] الانتشار في الفيزياء ومن هنا جاءت تسمية نماذج الانتشار.
[13:47] من هنا، من الغريب جداً أن نفكر فيما نطلبه من نموذج الانتشار.
[13:52] سيشاهد نموذجنا العديد من المسارات العشوائية المختلفة من نقاط بداية مختلفة
[13:56] في مجموعة بياناتنا، ونحن نطلب من نموذجنا فعلياً أن يعكس عقارب الساعة، ويزيل
[14:01] التشويش من صورنا من خلال السماح له بتشغيل عمليات الانتشار هذه بشكل عكسي،
[14:05] والبدء بنقاطنا من مواقع عشوائية واستعادة البنية الأصلية لمجموعة بياناتنا.
[14:11] كيف يمكن لنموذجنا أن يتعلم عكس هذه المسارات العشوائية؟
[14:15] إذا نظرنا إلى النقطة المحددة في نهاية هذه المسيرة العشوائية المكونة من 100
[14:20] خطوة، في نهج نمذجة الانتشار الساذج، حيث نطلب من نموذجنا أن ينزع الضبابية عن
[14:24] الصور خطوة واحدة في كل مرة، فإن هذا يعادل إعطاء نموذجنا إحداثيات النقطة المائة
[14:30] الأخيرة في المسيرة، ونطلب من نموذجنا أن يتنبأ بإحداثيات النقطة في الخطوة 99.
[14:35] على الرغم من اختيار اتجاه خطوتنا المائة عشوائيًا، إلا أنه
[14:39] سيكون هناك بعض الإشارات في المجمل ليتعلم منها نموذجنا هنا.
[14:43] بالنظر إلى عدد كافٍ من نقاط التدريب، نتوقع أن تمر العديد من
[14:47] مسارات الانتشار عبر هذا الحي، وفي المتوسط ستنتشر نقاطنا بعيدًا
[14:52] عن دوامة البداية، لذا يمكن أن يتعلم نموذجنا أن يتجه نحو الدوامة.
[14:57] يمكننا الآن أن نرى سبب نجاح الهدف التدريبي لفريق بيركلي في تحقيقه.
[15:02] وبدلاً من تدريب النموذج على إزالة الضوضاء من الصور خطوة تلو الأخرى، وهو ما
[15:06] يتوافق مع التنبؤ بإحداثيات الخطوة 99 بالنظر إلى الخطوة 100، قام الفريق بدلاً
[15:10] من ذلك بتدريب النموذج على التنبؤ بإجمالي الضوضاء المضافة عبر المسيرة بأكملها.
[15:15] في الرسم البياني، هذا هو المتجه الذي يشير من الخطوة
[15:18] المائة إلى نقطة البداية الأصلية للمسيرة.
[15:21] اتضح أنه يمكننا إثبات أن تعلم توقع الضوضاء المضافة في الخطوة الأخيرة من مسيرتنا يكافئ
[15:26] رياضيًا تعلم توقع إجمالي الضوضاء المضافة، مقسومًا على عدد الخطوات التي تم اتخاذها.
[15:33] هذا يعني أنه عندما يتعلم نموذجنا عكس خطوة واحدة، على الرغم من أن بيانات التدريب
[15:37] لدينا مشوشة، فإننا نتوقع أن يتعلم نموذجنا في النهاية أن يتعلم العودة إلى X0.
[15:43] من خلال تدريب نموذجنا بدلاً من ذلك على التنبؤ مباشرةً بالمتجه الذي
[15:48] يشير إلى X0، فإننا نقلل بشكل كبير من تباين أمثلة التدريب، مما يسمح
[15:53] لنموذجنا بالتعلم بكفاءة أكبر بكثير، دون تغيير هدف التعلم الأساسي لدينا.
[15:59] لذا لكل نقطة في فضائنا، يتعلم نموذجنا الاتجاه الذي يشير إلى توزيع البيانات الأصلي.
[16:06] ويُعرف هذا أيضًا باسم دالة النتيجة، والحدس هنا هو أن دالة
[16:10] النتيجة تشير إلى البيانات الأكثر احتمالاً والأقل تشويشًا.
[16:15] والآن، من الناحية العملية، تعتمد هذه الاتجاهات المستفادة اعتمادًا
[16:18] كبيرًا على مقدار التشويش الذي نضيفه إلى بياناتنا الأصلية.
[16:21] بعد 100 خطوة، تكون معظم نقاطنا بعيدة عن نقاط البداية، لذا
[16:25] يتعلم نموذجنا تحريك هذه النقاط في الاتجاه العام للدوامة.
[16:30] ومع ذلك، إذا قمنا بتدريب نموذجنا على أمثلة بعد خطوة انتشار واحدة فقط، فسنحصل
[16:35] في النهاية على حقل متجه أكثر دقة بكثير، مما يشير إلى البنية الدقيقة للولب.
[16:40] اتضح أن هناك حلاً ذكياً لهذه المشكلة.
[16:43] بدلًا من مجرد تمرير إحداثيات النقطة في نموذجنا، والتي سنكتبها هنا على شكل دالة f،
[16:49] يمكننا أيضًا تمرير متغير زمني يناظر عدد الخطوات التي تم قطعها في مسيرتنا العشوائية.
[16:55] إذا جعلنا t يساوي 1 عند الخطوة 100، فإن t يساوي 0.99 عند الخطوة 99، وهكذا.
[17:02] تبيّن أن تكييف نماذجنا على الزمن بهذا الشكل ضروري في الممارسة العملية، مما يسمح
[17:07] لنموذجنا بتعلم حقول متجهة خشنة لقيم كبيرة من t، وبنى دقيقة للغاية كلما اقتربت t من 0.
[17:14] بعد التدريب، يمكننا مشاهدة التطور الزمني للنموذج الخاص بنا.
[17:19] نرى هذا السلوك المثير للاهتمام حقًا عندما تقترب t من 0.4.
[17:24] ينتقل الحقل المتجه المستفاد فجأة، من الاتجاه نحو مركز اللولب إلى الاتجاه نحو اللولب نفسه.
[17:30] يبدو الأمر وكأنه تغيير مرحلي.
[17:34] نحن الآن في وضع رائع لحل اللغز النهائي لورقة DDPM.
[17:39] كيف يمكن أن تؤدي إضافة ضوضاء عشوائية في كل خطوة أثناء
[17:42] توليد الصور إلى الحصول على صور أكثر وضوحًا بجودة أفضل؟
[17:46] دعنا نتبع مسار نقطة واحدة مسترشدين بخوارزمية توليد صورة DDPM.
[17:52] في مجموعة بياناتنا ثنائية الأبعاد، فإن توليد صورة يعادل
[17:55] البدء من موقع عشوائي والعمل على طريق العودة إلى اللولب.
[17:59] بدءًا من موقع تم اختياره عشوائيًا وهو x يساوي ناقص 1.6 و y
[18:03] يساوي 1.8، يشير لنا الحقل الاتجاهي للنموذج إلى اتجاه اللولب.
[18:09] باتباع خوارزمية DDPM، نخطو خطوة صغيرة في الاتجاه الذي أرجعه نموذجنا
[18:14] ونضيف ضوضاء عشوائية متدرجة، مما يحرك نقطتنا بشكل فعال في اتجاه عشوائي.
[18:19] سنلون الخطوات المدفوعة بنموذج الانتشار باللون الأزرق والخطوات العشوائية باللون الرمادي.
[18:25] لاحظ أن حجم الخطوة العشوائية قد يبدو كبيراً.
[18:28] ولكن باتباع خوارزمية DDPM، سينخفض حجم خطواتنا العشوائية كلما تقدمنا.
[18:34] بتكرار هذه العملية لـ 64 خطوة، يقفز الجسيم قليلاً بسبب تغير الحقل المتجه
[18:39] المكتسب وخطوات الضوضاء العشوائية، ولكنه في النهاية يهبط بشكل جيد على اللولب.
[18:47] بتكرار هذه العملية لسحابة نقطية مكونة من 256 نقطة، تبدأ عملية الانتشار العكسي
[18:52] لتبدو وكأنها فوضى مطلقة، ولكنها تتقارب بشكل جيد مع استقرار معظم النقاط على اللولب.
[19:00] والآن ماذا يحدث إذا أزلنا خطوات إضافة الضوضاء؟
[19:04] بتشغيل عملية الانتشار العكسي مرة أخرى دون خطوة الضوضاء العشوائية، تتحرك جميع
[19:09] النقاط بسرعة إلى مركز اللولب ثم تشق طريقها نحو حافة داخلية واحدة من اللولب.
[19:15] يمكن أن تساعدنا هذه النتيجة في فهم سبب رؤيتنا لشجرة ضبابية
[19:18] حزينة في وقت سابق عندما أزلنا خطوة التشويش العشوائي هذه.
[19:22] وبدلاً من التقاط التوزيع الحلزوني الكامل، كما فعلنا عندما قمنا بتضمين خطوة
[19:27] ضوضاء، فإن جميع النقاط المتولدة تنتهي بالقرب من مركز أو متوسط الحلزوني.
[19:33] في فضاء الصور، تبدو المتوسطات ضبابية.
[19:37] من الناحية المفاهيمية يمكننا أن نتخيل أجزاء مختلفة من
[19:40] لولبنا تتوافق مع صور مختلفة من الأشجار في الصحراء.
[19:43] وعندما نقوم بإزالة خطوات التشويش العشوائي من عملية التوليد، ينتهي الأمر بالصور
[19:48] التي تم إنشاؤها في وسط أو متوسط هذه الصور، والتي تبدو وكأنها فوضى ضبابية.
[19:53] لاحظ الآن أن التشابه بين مجموعة بيانات اللعبة
[19:56] ومجموعة بيانات الصور عالية الأبعاد ينهار قليلاً هنا.
[19:59] إذا كانت جميع النقاط الموجودة على اللولب تتوافق مع صور واقعية، وبما أن النقاط
[20:04] المولَّدة لا تزال تستقر في النهاية على اللولب ثنائي الأبعاد، فإننا نتوقع أن
[20:09] تظل هذه النقاط المولَّدة تشبه الصور الحقيقية، ولكن على الأرجح بتنوع أقل مما نريد.
[20:14] ومع ذلك، في الفضاء عالي الأبعاد للصور، يبدو أن عملية توليد الصور لدينا لا
[20:20] تصل إلى مشعب الصور الواقعية تمامًا، مما يؤدي إلى صورة غير واقعية ضبابية.
[20:26] هذا التنبؤ بالمتوسط ليس مصادفة.
[20:30] اتضح لنا أنه يمكننا أن نوضح رياضيًا أن نموذجنا يتعلم الإشارة إلى المتوسط أو
[20:34] المتوسط لمجموعة البيانات الخاصة بنا، بشرط نقطة الإدخال والوقت في عملية الانتشار.
[20:40] تتمثل إحدى طرق الوصول إلى هذه النتيجة في إظهار أنه بالنظر إلى أن الضوضاء التي نضيفها
[20:45] في العملية الأمامية هي ضوضاء غاوسية، فإن العملية العكسية ستتبع أيضًا توزيعًا غاوسيًا
[20:49] لأحجام خطوات صغيرة بما فيه الكفاية، حيث يتعلم نموذجنا في الواقع متوسط هذا التوزيع.
[20:55] نظرًا لأن نموذجنا يتنبأ فقط بمتوسط التوزيع الطبيعي، فلكي نأخذ عينة من هذا التوزيع
[21:01] فعليًا، نحتاج إلى إضافة ضوضاء غاوسي ذات متوسط صفري إلى القيمة المتوقعة للنموذج،
[21:06] وهو بالضبط ما تفعله عملية توليد صورة DDPM عندما نضيف ضوضاء عشوائية بعد كل خطوة.
[21:13] يمكننا أن نرى سلوك التعلُّم المتوسط هذا بوضوح أكبر في بداية عملية الانتشار
[21:17] العكسي، عندما تكون t قريبة من 1 وتكون نقاط التدريب بعيدة عن اللولب.
[21:22] يشير حقل المتجه المستفاد من نموذجنا إلى مركز أو متوسط مجموعة البيانات.
[21:27] لذا فإن إضافة ضوضاء عشوائية أثناء توليد الصورة يقع بشكل جيد خارج نطاق النظرية،
[21:31] ويمنع عمليًا جميع نقاطنا من الهبوط بالقرب من مركز أو متوسط مجموعة البيانات.
[21:37] وضعت ورقة DDPM نماذج الانتشار على الخريطة كطريقة قابلة للتطبيق لتوليد
[21:41] الصور، لكن نهج الانتشار لم يشهد على الفور اعتمادًا واسع النطاق.
[21:46] كانت إحدى المشكلات الرئيسية في نهج DDPM في ذلك الوقت هي متطلبات
[21:50] الحوسبة العالية للعدد الكبير من الخطوات المطلوبة لتوليد صور عالية
[21:54] الجودة، حيث تتطلب كل خطوة تمريرًا كاملاً عبر شبكة عصبية كبيرة جدًا.
[21:59] بعد بضعة أشهر، أظهر بحثان من فريقين من جامعة ستانفورد وجوجل أنه من
[22:04] الممكن بشكل ملحوظ توليد صور عالية الجودة دون إضافة ضوضاء عشوائية
[22:09] أثناء عملية التوليد، مما يقلل بشكل كبير من عدد الخطوات المطلوبة.
[22:14] يمكن التعبير عن عملية توليد صورة ال DDPM التي تناولناها باستخدام نوع
[22:18] خاص من المعادلات التفاضلية يُعرف باسم المعادلة التفاضلية العشوائية.
[22:23] يمثِّل الحد الأول حركة النقطة المدفوعة بالحقل الاتجاهي
[22:27] للنموذج، ويمثِّل الحد الثاني الحركة العشوائية للنقطة.
[22:31] بجمع هذه الحدود معًا نحصل على الحركة الكلية للنقطة عند كل خطوة، dx.
[22:37] من هنا يمكننا التفكير في كيفية تطوّر توزيع جميع النقاط مع مرور
[22:41] الزمن، حيث تخضع حركة كل نقطة لهذه المعادلة التفاضلية العشوائية.
[22:47] تمت دراسة هذه المشكلة جيدًا في الفيزياء.
[22:49] باستخدام نتيجة أساسية من الميكانيكا الإحصائية المعروفة باسم معادلة فوكر-بلانك، أظهر
[22:55] فريق جوجل برين أن هناك معادلة تفاضلية أخرى، وهذه المرة معادلة تفاضلية عادية بدون مكون
[23:01] عشوائي، ينتج عنها نفس التوزيع النهائي للنقاط الذي ينتج عن المعادلة التفاضلية العشوائية.
[23:09] تعطينا هذه النتيجة خوارزمية جديدة لتوليد الصور باستخدام حقول المتجهات
[23:13] المستفادة من نموذجنا والتي لا تتطلب اتخاذ خطوات عشوائية على طول الطريق.
[23:19] إن كيفية ربط معادلتنا التفاضلية العادية بخوارزمية توليد الصور بالضبط أمر تقني بعض الشيء.
[23:24] سأترك رابطًا إلى برنامج تعليمي في الوصف.
[23:27] لكن النتيجة الرئيسية هنا هي أننا نحصل في النهاية على شيء يشبه
[23:31] إلى حد كبير عملية توليد صورة DDPM، ولكن بدون إضافة الضوضاء
[23:35] العشوائية في كل خطوة، وبمقياس جديد لأحجام الخطوات التي نأخذها.
[23:41] يُعرف هذا النهج عمومًا باسم DDIM.
[23:45] إن تحجيم أحجام الخطوات، وخاصة كيفية اختلاف أحجام هذه الخطوات
[23:48] خلال عملية الانتشار العكسي، أمر مهم جدًا من الناحية العملية.
[23:53] عندما قمنا فقط بإزالة خطوات التشويش العشوائي من خوارزمية توليد الـ DDPM في وقت سابق،
[23:58] انتهى الأمر بجميع نقاطنا بالقرب من متوسط بياناتنا، ورأينا نتائج ضبابية للصور التي تم
[24:03] إنشاؤها.
[24:05] بالتبديل إلى نهج DDIM، أصبح لدينا الآن مقياس أصغر لأحجام خطواتنا يسمح للمسارات باتباع
[24:11] الخطوط الكنتورية لحقل المتجه بشكل أفضل، والهبوط بشكل جيد على التوزيع الحلزوني الصحيح.
[24:19] وبتطبيق خوارزمية DDIM على شجرتنا في المثال الصحراوي، يمكننا الآن الحصول على نتائج رائعة.
[24:26] وبالمقارنة مع خوارزمية DDPM الأصلية التي تتطلب خطوات عشوائية، فإن
[24:31] خوارزمية DDIM لا تتطلب بشكل ملحوظ أي تغييرات في تدريب النموذج، ولكنها
[24:36] قادرة على توليد صور عالية الجودة بخطوات أقل بكثير، وبشكل حتمي تمامًا.
[24:41] لاحظ أن النظرية لا تخبرنا أن الصور المنفردة أو النقاط على اللولب ستكون هي نفسها.
[24:47] ولكن بدلاً من ذلك، سيكون التوزيع النهائي للنقاط أو الصور هو نفسه، بغض
[24:52] النظر عما إذا كنا نستخدم خوارزمية DDPM العشوائية أو خوارزمية DDIM الحتمية.
[24:58] يستخدم نموذج شبكة WAN الذي رأيناه سابقًا تعميمًا ل DDIM يسمى مطابقة التدفق.
[25:05] وبحلول أوائل عام 2021، كان من الواضح أن نماذج الانتشار قادرة
[25:09] على توليد صور عالية الجودة، وبفضل طرق توليد الصور مثل DDIM،
[25:13] كان من الممكن توليد هذه الصور دون استخدام كميات هائلة من الحوسبة.
[25:18] ومع ذلك، كانت قدرتنا على توجيه عملية النشر باستخدام
[25:21] المطالبات النصية لا تزال محدودة للغاية.
[25:25] في وقتٍ سابق، رأينا كيف تمكَّن برنامج CLIP من تعلُّم تمثيل مشترك قوي
[25:29] للصور والنصوص من خلال التدريب المتزامن لنماذج ترميز الصور والنصوص.
[25:34] ومع ذلك، فإن هذه النماذج تسير في اتجاه واحد فقط،
[25:37] وهو تحويل النصوص أو الصور إلى متجهات تضمين.
[25:40] من المحتمل أن تتوافق هاتان المشكلتان معًا بطريقة مثيرة للاهتمام حقًا.
[25:44] من المحتمل أن تكون نماذج الانتشار قادرة على عكس مشفر الصور CLIP،
[25:49] وتوليد صور عالية الجودة، ويمكن استخدام متجه الإخراج الخاص بمشفر
[25:53] النصوص CLIP لتوجيه نماذج الانتشار نحو الصور أو مقاطع الفيديو التي نريدها.
[25:59] لذا فإن الفكرة عالية المستوى هنا هي أنه يمكننا تمرير مطالبة
[26:03] إلى مشفر نص CLIP لتوليد متجه تضمين، واستخدام متجه التضمين
[26:07] هذا لتوجيه عملية النشر نحو الصورة أو الفيديو الذي تصفه مطالبتنا.
[26:12] فعل فريق في OpenAI هذا بالضبط في عام 2022، باستخدام أزواج الصور
[26:16] والتعليقات التوضيحية لتدريب نموذج انتشار لعكس تشفير الصور CLIP.
[26:23] وقد أسفر نهجهم عن مستوى مذهل من الالتزام السريع،
[26:26] والتقاط مستوى غير مسبوق من التفاصيل من النص المدخل.
[26:30] أطلق الفريق على طريقتهم اسم unCLIP، لكن نموذجهم معروف بشكل أفضل باسمه التجاري DALI2.
[26:37] ولكن كيف نستخدم بالفعل متجهات التضمين لنماذج مثل CLIP لتوجيه عملية الانتشار؟
[26:43] أحد الخيارات هو ببساطة تمرير متجه النص كمدخل آخر في
[26:46] نموذج الانتشار، والتدريب كما نفعل عادةً لإزالة الضوضاء.
[26:51] إذا قمنا بتدريب نموذج الانتشار باستخدام أزواج الصور والتعليقات التوضيحية، كما فعل فريق
[26:56] OpenAI، فالفكرة هنا هي أن النموذج سيتعلم استخدام معلومات النص لإزالة التشويش من الصور
[27:01] بدقة أكبر، حيث أنه الآن لديه سياق أكثر حول الصورة التي يتعلم إزالة التشويش منها.
[27:07] وتسمى هذه التقنية بالتكييف.
[27:09] لقد استخدمنا نهجًا مشابهًا في وقت سابق، عندما اشترطنا نموذج الانتشار اللُّغوي
[27:14] على عدد الخطوات الزمنية المنقضية في عملية الانتشار، مما يسمح للنموذج بتعلم
[27:19] بنية خشنة لقيم كبيرة من t، وبنى أدق كلما اقتربت عينات التدريب من اللولب الأصلي.
[27:25] من المثير للاهتمام، اتضح أن هناك مجموعة متنوعة من الطرق
[27:28] التي يمكننا من خلالها تمرير متجه النص إلى نموذج الانتشار.
[27:32] تستخدم بعض الأساليب آلية تسمى الانتباه المتبادل للربط بين معلومات الصورة والنص.
[27:37] أما الأساليب الأخرى فتقوم ببساطة بإضافة أو إلحاق متجه النص المضمّن إلى مدخلات
[27:42] نموذج الانتشار، وبعض الأساليب تمرر معلومات النص بطرق متعددة في آن واحد.
[27:47] والآن اتضح أن التكييف وحده لا يكفي لتحقيق مستوى
[27:50] الالتزام الفوري الذي نراه في نماذج مثل DALI2.
[27:55] إذا أخذنا شجرة الانتشار المستقرة في المثال الصحراوي الذي كنا نختبره في
[28:00] الصحراء، وشرطنا النموذج بمدخلات النص فقط، فلن يعطينا النموذج كل ما نطلبه.
[28:06] لدينا ظل في الصحراء، ولكن ليس لدينا شجرة.
[28:10] لاحظ أن النشر المستقر تم تطويره من قبل فريق في جامعة هايدلبرغ في نفس
[28:14] وقت تطوير DALI2 تقريبًا، ويعمل بطريقة مماثلة، ولكنه مفتوح المصدر.
[28:19] اتضح أن هناك فكرة أخرى قوية نحتاجها لتوجيه نماذج الانتشار لدينا بشكل فعال.
[28:25] يمكننا أن نرى هذه الفكرة عمليًا بالعودة إلى مجموعة البيانات اللعبة مرة أخرى.
[28:29] إذا كان اللولب الكلي يتوافق مع الصور الواقعية، فقد تتوافق
[28:33] الأجزاء المختلفة من اللولب مع أنواع مختلفة من الصور.
[28:37] لنفترض أن هذا الجزء الداخلي عبارة عن صور لأشخاص، وهذا الجزء الأوسط
[28:41] عبارة عن صور كلاب، وهذا الجزء الخارجي عبارة عن صور مختلفة لقطط.
[28:45] والآن لندرّب نموذج الانتشار نفسه الذي درّبناه سابقًا، ولكن بالإضافة
[28:49] إلى تمرير إحداثيات البداية وزمن عملية الانتشار، سنمرر أيضًا فئة النقاط.
[28:55] شخص أو قطة أو كلب
[28:57] يجب أن تسمح هذه الإشارة الإضافية لنموذجنا بتوجيه النقاط إلى
[29:00] الأجزاء الصحيحة من اللولب الخاص بنا، بناءً على كل فئة من النقاط.
[29:04] عند تشغيل عملية التوليد، بعد تعيين تسميات الأشخاص أو الكلاب أو القطط
[29:09] لكل نقطة، نرى أننا قادرون على استعادة الهيكل العام لمجموعة بياناتنا،
[29:14] لكن التناسب ليس كبيراً، ونرى بعض الخلط هنا بين صور الأشخاص والكلاب.
[29:19] جزء من المشكلة هنا هو أننا نطلب من نموذجنا أن يتعلم في نفس الوقت أن يتعلم
[29:24] الإشارة إلى دوامة الصور الواقعية الشاملة، وإلى فئات محددة على الدوامة.
[29:30] إذا نظرنا إلى نقطة القطة على سبيل المثال، نجد أنها تبدأ متجهة نحو مركز اللولب
[29:35] الحلزوني، وعندما يتحول الحقل المتجه المشروط طبقيًّا ليشير إلى منطقة القطة
[29:40] في اللولب، تتحرك النقطة نحو هذا الجزء من اللولب، لكنها لا تصل إليه تمامًا.
[29:45] لقد تغلبت مهمة النمذجة المتمثلة في مطابقة اللولب العام
[29:49] على قدرة نموذجنا على تحريك نقطتنا في اتجاه فئة معينة.
[29:55] والآن، هل هناك طريقة للفصل بين هذين العاملين وربما حتى التحكم فيهما؟
[29:59] ومن اللافت للنظر، اتضح أنه يمكننا ذلك.
[30:02] تكمن الحيلة في الاستفادة من الاختلافات بين النموذج غير المشروط
[30:06] الذي لم يتم تدريبه على فئة محددة، والنموذج المشروط بفئات محددة.
[30:11] يمكننا القيام بذلك عن طريق تدريب نموذجين منفصلين، ولكن من الناحية العملية
[30:15] من الأفضل عملياً أن نترك معلومات الفئة لمجموعة فرعية من أمثلة التدريب.
[30:19] لدينا الآن خيار عدم تمرير أي فئة أو معلومات نصية إلى نموذجنا بشكل فعال،
[30:24] والحصول على حقل متجه يشير إلى بياناتنا بشكل عام، وليس إلى أي فئة محددة.
[30:31] يمكننا تصور هذين الحقلين المتجهين معًا.
[30:34] هنا تُظهر المتجهات الرمادية نقاط نموذج الانتشار عندما لا نمرر أي معلومات
[30:38] عن الفصل، وتظهر هذه المتجهات الصفراء عندما يكون نموذجنا مشروطًا بفئة القط.
[30:43] بالنسبة للقيم الكبيرة لمتغيّر زمن الانتشار عندما تكون بيانات التدريب بعيدة عن
[30:48] اللولب، يشير حقلا المتجهين بشكل أساسي في نفس الاتجاه، تقريبًا نحو متوسط اللولب.
[30:54] لكن مع اقتراب الزمن من الصفر، يتباعد الحقلان المتجهان، حيث يتجه
[30:59] الحقل المتجه المشروط بالقط نحو الجزء الخارجي للقط من اللولب.
[31:04] الآن بعد أن أصبح لدينا هذان الاتجاهان المنفصلان، يمكننا استخدام
[31:07] الاختلافات بينهما لدفع نقاطنا أكثر في اتجاه الفصل الذي نريده.
[31:12] على وجه التحديد، نأخذ المتجه المشروط بالفئة الصفراء ونطرح منه المتجه الرمادي غير المشروط.
[31:18] وهذا يعطينا متجهًا جديدًا يشير من رأس المتجه غير المشروط إلى رأس المتجه المشروط.
[31:24] الفكرة من هنا هي أن هذا الاتجاه يجب أن يشير أكثر في اتجاه أمثلة القطط
[31:28] التي لدينا، بعد أن أزلنا الاتجاه الذي يشير بشكل عام إلى بياناتنا.
[31:33] يمكننا الآن تضخيم هذا الاتجاه عن طريق الضرب في معامل القياس، ألفا،
[31:38] واستبدال المتجه الأصفر المشروط الأصلي بمتجه يشير إلى هذا الاتجاه الجديد.
[31:43] دعونا نتبع مسار نقطة القطة نفسها التي رأيناها سابقًا والتي لم تصل إلى اللولب تمامًا.
[31:49] سنعيد متغير زمن الانتشار إلى الوراء ونبدأ نقطة خضراء جديدة من نفس موقع البداية.
[31:55] إذا استخدمنا المتجهات الخضراء الجديدة لتوجيه عملية الانتشار بدلًا من المتجهات الصفراء
[32:00] الأصلية، فإن الفرق بين الأسهم الرمادية التي تشير إلى مركز اللولب والمتجهات الصفراء التي
[32:06] تبدأ في توجيهنا نحو الجزء القط من اللولب يتضخم، والآن نوجه نقطتنا لتستقر بشكل جيد على
[32:11] اللولب.
[32:13] يُطلق على هذا النهج اسم التوجيه الخالي من التصنيف.
[32:17] باستخدام متجهاتنا الخضراء الجديدة لتوجيه مجموعة من نقاط القط،
[32:20] نرى تطابقًا محكمًا رائعًا مع اللولب الخاص بنا لهذه الفئة.
[32:24] بالتبديل إلى فئة الكلاب، يبقى مجال المتجه الرمادي غير المشروط كما هو، لكن مخرجات النموذج
[32:29] المشروط للكلب، الموضحة باللون الأرجواني، تشير الآن إلى الجزء الخاص بالكلاب في دوامة
[32:34] الكلاب.
[32:35] وتؤدي إضافة التوجيه إلى تضخيم هذا الاتجاه المكتسب.
[32:40] باستخدام متجهاتنا الموجهة وتشغيل عملية التوليد لدينا، نرى تطابقًا جيدًا لنقاط الكلب.
[32:46] وأخيرًا، نحصل على حقل متجه ثالث لأمثلة الأشخاص،
[32:49] وهو ما ينتج عنه مرة أخرى تقارب جيد مع اللولب.
[32:53] يعمل التوجيه الخالي من التصنيف بشكل جيد بشكل ملحوظ وأصبح
[32:56] جزءًا أساسيًا من العديد من نماذج توليد الصور والفيديو الحديثة.
[33:01] لقد رأينا سابقًا أننا إذا اشترطنا نموذج الانتشار المستقر فقط، فستكون
[33:05] الصورة صحراء وظلًا، ولكن لن تكون هناك شجرة كما طلبنا في المطالبة.
[33:10] إذا أضفنا التوجيه الخالي من المصنفات إلى هذا النموذج، فبمجرد أن نصل إلى
[33:14] مقياس توجيه ألفا يساوي 2 تقريبًا، نبدأ بالفعل في رؤية شجرة صغيرة في صورنا.
[33:19] ويتحسن حجم الشجرة وتفاصيلها كلما زدنا عامل القياس ألفا.
[33:25] حقيقة أن هذا يعمل بشكل جيد للغاية أمر رائع بالنسبة لي.
[33:28] عندما نستخدم التوجيه لتوجيه حقل متجه نموذج الانتشار المستقر الخاص بنا بشكل
[33:33] أكبر في اتجاه موجهنا، فإن شجرتنا تنمو حرفيًا من حيث الحجم والتفاصيل في صورنا.
[33:39] يأخذ نموذج توليد فيديو WAN الخاص بنا هذا النهج الإرشادي خطوة أخرى إلى الأمام.
[33:43] وبدلاً من طرح مخرجات نموذج غير مشروط بدون مدخلات نصية، يستخدم فريق WAN ما يُعرف
[33:48] بالمطالبة السلبية، حيث يكتبون على وجه التحديد جميع الميزات التي لا يريدونها
[33:53] في الفيديو الخاص بهم، ثم يطرحون المتجه الناتج من مخرجات النموذج المشروطة
[33:58] ويضخّمون النتيجة، ويوجهون عملية الانتشار بعيداً عن هذه الميزات غير المرغوب فيها.
[34:04] إن مبادرتهم السلبية القياسية رائعة، بما في ذلك ميزات مثل الأصابع الإضافية والمشي إلى
[34:09] الوراء، ومن المثير للاهتمام أنها تُمرر بالفعل إلى برنامج ترميز النصوص باللغة الصينية.
[34:15] إليكم مقطع فيديو تم إنشاؤه باستخدام نفس موجه رائد الفضاء
[34:18] على حصان الذي استخدمناه سابقًا، ولكن بدون الموجه السلبي.
[34:21] من المثير للاهتمام حقًا أن ترى كيف تصبح أجزاء المشهد كرتونية ولا تتناسب مع بعضها البعض.
[34:28] منذ نشر ورقة DDPM في صيف عام 2020، تقدم هذا المجال بوتيرة متسارعة،
[34:33] مما أدى إلى نماذج تحويل النص إلى فيديو المذهلة التي نراها اليوم.
[34:40] من بين جميع التفاصيل المثيرة للاهتمام التي تجعل هذه النماذج تتماشى مع
[34:43] بعضها البعض، فإن أكثر ما يذهلني هو أن القطع تتناسب مع بعضها البعض.
[34:48] حقيقة أنه يمكننا أخذ مُشفِّر نص مُدرَّب من مقطع أو أي مكان آخر واستخدام مخرجاته لتوجيه
[34:54] عملية الانتشار، والتي هي بحد ذاتها معقدة للغاية، تبدو جيدة جدًا لدرجة يصعب تصديقها.
[35:01] وعلاوة على ذلك، يمكن بناء العديد من هذه الأفكار الأساسية من بديهيات هندسية بسيطة نسبيًا
[35:06] والتي تصمد بطريقة ما في المساحات عالية الأبعاد بشكل لا يصدق التي تعمل فيها هذه النماذج.
[35:12] تبدو النماذج الناتجة وكأنها فئة جديدة تماماً من الآلات.
[35:17] لالتقاط صور ومقاطع فيديو نابضة بالحياة وجميلة بشكل لا يصدق، لم تعد بحاجة إلى كاميرا.
[35:23] لا تحتاج إلى معرفة كيفية الرسم أو كيفية التلوين أو كيفية استخدام برامج الرسوم المتحركة.
[35:27] كل ما تحتاجه هو اللغة.
[35:32] لذا، كما يمكنكم أن تعرفوا بلا شك، كان هذا فيديو للضيوف.
[35:35] يأتي ذلك من ستيفن ويلش، الذي يدير قناة Welch Labs.
[35:38] إذا كنت تشاهد هذه القناة بطريقة أو بأخرى ولم تكن على دراية بمختبرات
[35:42] ويلش بالفعل، فيجب عليك بالتأكيد الذهاب ومشاهدة كل ما صنعه.
[35:45] منذ فترة قام بعمل هذه السلسلة المميزة تماماً عن الأعداد الخيالية.
[35:48] وقد قام بتحويله منذ ذلك الحين إلى كتاب، واتساقًا مع كل ما يصنعه، فهو
[35:53] ذو جودة عالية جدًا، والكثير من التمارين، وأشياء جيدة من هذا القبيل.
[35:57] وفي الآونة الأخيرة، كان يقدم الكثير من المحتوى الخاص بالتعلم
[35:59] الآلي، لذا لا يمكنني أن أوصي بما يقدمه بما فيه الكفاية.
[36:02] الآن السياق المتعلق بسبب قيامي بعمل مقاطع فيديو للضيوف على الإطلاق
[36:05] هو أنني وزوجتي رزقنا بطفلنا الأول مؤخرًا، وأنا متحمس جدًا لذلك.
[36:09] ولست متأكدًا مما يفعله معظم مستخدمي اليوتيوب المنفردين في إجازة الأبوة، ولكن
[36:13] الطريقة التي قررت أن أتبعها هي التواصل مع بعض المبدعين الذين أستمتع بأعمالهم
[36:17] حقًا، وأنا متأكد تمامًا من أنك ستستمتع بها، وسألتهم بشكل أساسي، ما رأيك في
[36:22] أن أوجه بعض أموال Patreon التي تأتي إلى هذه القناة إليك خلال هذا الوقت الذي
[36:26] أكون فيه بعيدًا، ونوعًا ما سأقوم بتكليف بعض الأعمال لملء وقت البث أثناء غيابي.
[36:31] ستكون القطع رائعة حقاً.
[36:33] لقد استمتعتُ بإعطاء بعض الإشراف التحريري أثناء ورودها.
[36:37] كما تعلم، لدينا الميكانيكا الإحصائية، ولدينا التعلم الآلي، وحتى بعض الفنون الحديثة.
[36:41] سيكون وقتاً ممتعاً.
[36:42] لقد كنت متحمسًا بشكل خاص عندما طرح ستيفن فكرة فيديو نموذج الانتشار
[36:46] هذا، لأنني أعتقد أن أي شخص أتيحت له فرصة اللعب بهذه النماذج، بصراحة
[36:51] منذ أيام دوللي 2، قد ذهلت تمامًا من حقيقة أن مثل هذا الشيء ممكن.
[36:55] وعلى الرغم من وجود عدد من التفسيرات ومنشورات المدونات على الإنترنت التي تقدم وصفًا عالي
[36:59] المستوى لنماذج الانتشار كأشياء تتعلم كيفية إزالة التشويش من الصورة، إلا أن أيًا منها لم
[37:04] يخدش حقًا الحكة بالنسبة لي، وكنت أعلم أنه إذا كان هناك أي شخص قادر على التعمق في الأمر
[37:08] وإعطاء فكرة مرضية حقًا عن التكتيكات التي يتم القيام بها، إن لم يكن تفسير سبب عملها، وهو
[37:13] ما أعتقد أنه لا أحد يعرفه، فربما يكون ستيفن أحد أفضل الأشخاص في العالم المؤهلين للقيام
[37:17] بذلك.
[37:18] وفي الواقع، بينما نحن هنا في هذه الملاحظة النهائية، أريد أن أعرض على
[37:21] الأقل القليل من رد الفعل أو السؤال المفتوح حول هذا الموضوع برمته.
[37:24] لذا يعجبني حقًا المنظور هنا، حيث تفكر في عملية إزالة الضوضاء على أنها تعلم
[37:28] هذا الحقل المتجه المتغير زمنيًا الذي يشير إلى متشعب الصور ذات المعنى.
[37:32] ولكن لا يزال هناك شيء ما يشعرك بالسحر تماماً بالنسبة لي، ولكن على
[37:36] مستوى أعمق من ذلك السحر الذي تشعر به بمجرد اللعب بها للمرة الأولى.
[37:39] مثل، من حيث المبدأ، في الفضاء الشاسع ذي الأبعاد العالية التي لا
[37:43] يمكن فهمها لجميع مقاطع الفيديو الممكنة، سيكون هناك بعض الأشكال
[37:48] الفرعية التي تتفق مع رائد فضاء يركب حصانًا على القمر ويتحول إلى قطة.
[37:52] لكن لو لم أكن أعلم بوجود هذه النماذج، لظننت أنه من غير المجدي حسابيًا تمامًا تدريب شيء
[37:58] يعثر بالفعل على هذا الشكل الفرعي وجميع النماذج الأخرى التي يمكن تصورها والتي تشبهه.
[38:04] لأن الأمر هو أنه لم يسبق له أن أخذ عينة من أي شيء من هذا القالب الفرعي المحدد.
[38:08] مقاطع الفيديو التي تطابق هذا الوصف المحدد في أي مكان في بيانات التدريب.
[38:13] ومن ناحية، فإن أحد الدروس المستفادة من عشرينيات القرن الماضي عندما يتعلق
[38:17] الأمر بالذكاء الاصطناعي هو أن الحجم وحده يمنحك هذه النتائج المتميزة نوعياً.
[38:21] وأنت تعلم أنه لكي تعمل نماذج الفيديو ونماذج الصور هذه، فإنها
[38:24] تتدرب على مجموعة ضخمة للغاية من المواد التي تم كشطها من الإنترنت.
[38:29] بالنسبة لي شخصيًا، الشيء الذي لا يزال محيرًا هو أن عملية الانتشار العكسي هذه تجد
[38:33] النطاق الفرعي ذا الصلة، كما تعلم، الفضاء الفرعي لمقاطع الفيديو المطابقة لذلك
[38:37] الموجه، على الرغم من عدم وجود أي شيء من بيانات التدريب على ذلك النطاق الفرعي المحدد.
[38:42] وأنا متأكد من أن جزءًا من التفسير هنا سيأتي من فكرة
[38:45] مساحة التضمين المشتركة بين مقاطع الفيديو والصور.
[38:48] أنت تعرف ما كان يتحدث عنه ستيفن في القسم الخاص بالمقطع وكيف يمكن أن
[38:52] تتوافق الاتجاهات المختلفة في هذا الفضاء المتجه مع السمات المميزة.
[38:56] لذلك إذا كان بإمكانك تعلم هذه الميزات بشكل مستقل، فربما
[38:58] لا يزال بإمكانك تكوينها بطرق غير مرئية في بيانات التدريب.
[39:01] ولكن كيف بالضبط كيف تتوافق فكرة السمات القابلة للتركيب بشكل واضح مع عملية الانتشار العكسي
[39:06] وإيجاد القالب الفرعي الصحيح، سأكون صادقاً، هذا لا يزال لغزاً مثيراً للاهتمام بالنسبة لي.
[39:10] سيكون فيديو الضيف التالي عن مزيج من الفن الحديث والنظرية الجماعية.
[39:14] إنه أمر ممتع للغاية في الواقع.
[39:15] ومثل جميع مقاطع الفيديو الأخرى على هذه القناة، إذا كنت من داعمي Patreon،
[39:18] يمكنك الحصول على مشاهدات مبكرة لهذه الفيديوهات وتقديم بعض الملاحظات قبل نشرها.
[39:22] حتى ذلك الحين، آمل أن تستمتع تماماً بمشاهدة مختبرات ويلش
[39:25] بنهم شديد، ومرة أخرى، فكر في شراء الأشياء التي يصنعها.
[39:28] هناك قدر كبير من التفكير والعناية في تلك الفيديوهات كما هو الحال في مقاطع الفيديو.
⚡ Saved you time reading this? Transcribe any YouTube video for free — no signup needed.