[0:00] الأحرف الأولى من GPT تعني المحول التوليدي المُدرب مسبقًا.
[0:05] لذا فإن الكلمة الأولى واضحة بما فيه الكفاية، فهي روبوتات تولد نصًا جديدًا.
[0:09] يشير التدريب المسبق إلى كيفية خضوع النموذج لعملية التعلم من كمية هائلة من
[0:14] البيانات، وتشير البادئة إلى أن هناك مساحة أكبر لضبطه في مهام محددة مع تدريب إضافي.
[0:20] لكن الكلمة الأخيرة، هذه هي القطعة الرئيسية الحقيقية.
[0:23] المحول هو نوع محدد من الشبكات العصبية، وهو نموذج للتعلم الآلي، وهو
[0:27] الاختراع الأساسي الكامن وراء الطفرة الحالية في الذكاء الاصطناعي.
[0:31] ما أريد أن أفعله بهذا الفيديو والفصول التالية
[0:35] هو تقديم شرح بصري لما يحدث بالفعل داخل المحول.
[0:39] سنقوم بمتابعة البيانات التي تتدفق من خلاله ونتحرك خطوة بخطوة.
[0:43] هناك العديد من أنواع النماذج المختلفة التي يمكنك بنائها باستخدام المحولات.
[0:47] تأخذ بعض النماذج الصوت وتنتج نصًا.
[0:51] تأتي هذه الجملة من نموذج يسير في الاتجاه المعاكس، وينتج خطابًا تركيبيًا من النص فقط.
[0:56] كل تلك الأدوات التي اجتاحت العالم في عام 2022 مثل Dolly
[1:00] وMidjourney التي تأخذ وصفًا نصيًا وتنتج صورة تعتمد على المحولات.
[1:06] حتى لو لم أتمكن من فهم ما يفترض أن يكون عليه مخلوق الفطيرة، ما
[1:09] زلت مندهشًا من أن هذا النوع من الأشياء ممكن حتى ولو عن بعد.
[1:13] وتم اختراع المحول الأصلي الذي قدمته Google في عام 2017
[1:18] لحالة الاستخدام المحددة لترجمة النص من لغة إلى أخرى.
[1:22] لكن المتغير الذي سنركز عليه أنا وأنت، وهو النوع الذي يكمن وراء أدوات مثل
[1:27] ChatGPT، سيكون نموذجًا تم تدريبه على استيعاب جزء من النص، ربما حتى مع بعض
[1:32] الصور المحيطة أو الصوت المصاحب له، وإنتاج تنبؤ لما سيأتي بعد ذلك في المقطع.
[1:38] يأخذ هذا التنبؤ شكل توزيع احتمالي على العديد من أجزاء النص المختلفة التي قد تتبعها.
[1:45] للوهلة الأولى، قد تعتقد أن التنبؤ بالكلمة التالية
[1:47] يبدو وكأنه هدف مختلف تمامًا عن إنشاء نص جديد.
[1:50] ولكن بمجرد أن يكون لديك نموذج تنبؤ مثل هذا، فإن الشيء البسيط الذي يمكنك إنشاء جزء
[1:54] أطول من النص هو إعطائه مقتطفًا أوليًا للعمل معه، وجعله يأخذ عينة عشوائية من التوزيع
[1:59] الذي أنشأه للتو، وإلحاق تلك العينة بالنص ، ثم قم بتشغيل العملية برمتها مرة أخرى
[2:04] لإجراء تنبؤ جديد استنادًا إلى النص الجديد بالكامل، بما في ذلك ما تمت إضافته للتو.
[2:10] لا أعرف عنك، لكن يبدو أن هذا لا ينبغي أن ينجح حقًا.
[2:13] في هذه الرسوم المتحركة، على سبيل المثال، أقوم بتشغيل GPT-2 على
[2:16] جهاز الكمبيوتر المحمول الخاص بي وأطلب منه التنبؤ بشكل متكرر وأخذ
[2:19] عينات من الجزء التالي من النص لإنشاء قصة بناءً على النص الأولي.
[2:22] القصة ليس لها معنى كبير حقًا.
[2:26] ولكن إذا قمت باستبدالها باستدعاءات واجهة برمجة التطبيقات (API) إلى GPT-3 بدلاً من
[2:31] ذلك، وهو نفس النموذج الأساسي، ولكنه أكبر بكثير، فسنحصل فجأة وبطريقة سحرية تقريبًا
[2:35] على قصة معقولة، قصة يبدو أنها تستنتج أن مخلوق باي سيعيش في عالم أرض الرياضيات والحساب.
[2:41] هذه العملية هنا من التنبؤ المتكرر وأخذ العينات هي في الأساس ما يحدث عندما تتفاعل مع
[2:46] ChatGPT أو أي من نماذج اللغات الكبيرة الأخرى هذه وتراهم ينتجون كلمة واحدة في كل مرة.
[2:52] في الواقع، إحدى الميزات التي سأستمتع بها كثيرًا هي
[2:55] القدرة على رؤية التوزيع الأساسي لكل كلمة جديدة تختارها.
[3:03] دعونا نبدأ الأمور بمعاينة عالية المستوى لكيفية تدفق البيانات عبر المحول.
[3:08] سنقضي المزيد من الوقت في التحفيز والتفسير والتوسع في تفاصيل كل خطوة، ولكن بشكل عام،
[3:13] عندما يقوم أحد روبوتات الدردشة هذه بإنشاء كلمة معينة، إليك ما يحدث تحت الغطاء.
[3:19] أولاً، يتم تقسيم المدخلات إلى مجموعة من القطع الصغيرة.
[3:22] تسمى هذه القطع بالرموز، وفي حالة النص، تميل هذه إلى أن تكون
[3:26] كلمات أو أجزاء صغيرة من الكلمات أو مجموعات أحرف مشتركة أخرى.
[3:30] إذا كانت الصور أو الصوت متضمنة، فيمكن أن تكون الرموز المميزة
[3:33] عبارة عن بقع صغيرة من تلك الصورة أو أجزاء صغيرة من هذا الصوت.
[3:37] يتم بعد ذلك ربط كل واحدة من هذه الرموز المميزة بمتجه، مما يعني
[3:41] قائمة من الأرقام، والتي تهدف إلى تشفير معنى تلك القطعة بطريقة ما.
[3:45] إذا كنت تعتقد أن هذه المتجهات تعطي إحداثيات في مساحة ذات أبعاد عالية جدًا، فإن الكلمات
[3:50] ذات المعاني المتشابهة تميل إلى الهبوط على ناقلات قريبة من بعضها البعض في ذلك الفضاء.
[3:55] يمر تسلسل المتجهات هذا عبر عملية تُعرف باسم كتلة الانتباه، وهذا يسمح للمتجهات
[4:00] بالتحدث مع بعضها البعض وتمرير المعلومات ذهابًا وإيابًا لتحديث قيمها.
[4:04] على سبيل المثال، يختلف معنى كلمة نموذج في عبارة
[4:08] نموذج التعلم الآلي عن معناها في عبارة نموذج أزياء.
[4:12] إن كتلة الانتباه هي المسؤولة عن معرفة الكلمات في السياق ذات الصلة
[4:17] بتحديث معاني الكلمات الأخرى، وكيف يجب تحديث هذه المعاني بالضبط.
[4:22] ومرة أخرى، كلما استخدمت معنى الكلمة، يتم تشفيرها
[4:25] بالكامل بطريقة أو بأخرى في مدخلات تلك المتجهات.
[4:29] بعد ذلك، تمر هذه المتجهات من خلال نوع مختلف من العمليات، واعتمادًا على المصدر الذي
[4:33] تقرأه، سيشار إلى ذلك باسم الإدراك الحسي متعدد الطبقات أو ربما طبقة التغذية الأمامية.
[4:38] وهنا لا تتحدث المتجهات مع بعضها البعض، بل تمر جميعها بنفس العملية بالتوازي.
[4:43] وعلى الرغم من صعوبة تفسير هذه الكتلة قليلًا، سنتحدث لاحقًا عن كيف أن الخطوة تشبه إلى
[4:48] حدٍ ما طرح قائمة طويلة من الأسئلة حول كل متجه، ثم تحديثها بناءً على إجابات تلك الأسئلة.
[4:54] تبدو جميع العمليات في كلتا الكتلتين وكأنها كومة ضخمة من مضاعفات
[4:59] المصفوفات، وستكون مهمتنا الأساسية هي فهم كيفية قراءة المصفوفات الأساسية.
[5:06] أقوم بتغطية بعض التفاصيل حول بعض خطوات التطبيع التي
[5:09] تحدث بينهما، ولكن هذه في النهاية معاينة عالية المستوى.
[5:13] بعد ذلك، تتكرر العملية بشكل أساسي، وتتنقل ذهابًا وإيابًا بين كتل الانتباه
[5:18] وكتل الإدراك الحسي متعددة الطبقات، حتى النهاية، يكون الأمل هو أن كل
[5:23] المعنى الأساسي للمقطع قد تم بطريقة ما خبزه في المتجه الأخير في الترتيب.
[5:28] نقوم بعد ذلك بإجراء عملية معينة على المتجه الأخير الذي ينتج توزيعًا احتماليًا على جميع
[5:33] الرموز المميزة المحتملة، وجميع الأجزاء الصغيرة المحتملة من النص التي قد تأتي بعد ذلك.
[5:38] وكما قلت، بمجرد أن يكون لديك أداة تتنبأ بما سيأتي بعد ذلك في ضوء مقتطف من النص،
[5:43] يمكنك تغذيتها بقليل من النص الأولي وجعلها تلعب بشكل متكرر لعبة التنبؤ بما
[5:48] سيأتي بعد ذلك، وأخذ عينات من التوزيع، والإلحاق ذلك، ثم تكرره مراراً وتكراراً.
[5:53] ربما يتذكر البعض منكم من ذوي الخبرة المدة التي سبقت ظهور ChatGPT في
[5:57] المشهد، هذا هو الشكل الذي كانت تبدو عليه العروض التوضيحية المبكرة لـ
[6:00] GPT-3، حيث يمكنك إكمال القصص والمقالات تلقائيًا بناءً على مقتطف أولي.
[6:05] لتحويل أداة كهذه إلى روبوت دردشة، فإن أسهل نقطة بداية هي الحصول على القليل من النص الذي
[6:10] يحدد إعدادات المستخدم الذي يتفاعل مع مساعد الذكاء الاصطناعي المفيد، وهو ما يمكن أن تسميه
[6:16] موجه النظام، وبعد ذلك ستستخدم السؤال الأولي للمستخدم أو المطالبة به هو الجزء الأول من
[6:21] الحوار، وبعد ذلك يمكنك البدء في التنبؤ بما سيقوله مساعد الذكاء الاصطناعي المفيد ردًا على
[6:26] ذلك.
[6:27] هناك الكثير مما يمكن قوله عن خطوة التدريب المطلوبة
[6:30] لإنجاح هذا الأمر، ولكن على مستوى عالٍ، هذه هي الفكرة.
[6:35] في هذا الفصل، سنتوسع أنا وأنت في تفاصيل ما يحدث في بداية الشبكة، وفي نهايتها،
[6:41] وأريد أيضًا قضاء الكثير من الوقت في مراجعة بعض الأجزاء المهمة من المعرفة الأساسية
[6:47] أشياء كانت ستصبح طبيعة أي مهندس تعلم آلي بحلول الوقت الذي ظهرت فيه المحولات.
[6:53] إذا كنت مرتاحًا لهذه المعرفة الأساسية وقليل الصبر، فلا تتردد في الانتقال إلى
[6:57] الفصل التالي، والذي سيركز على كتل الانتباه، والتي تعتبر بشكل عام قلب المحول.
[7:03] بعد ذلك أريد أن أتحدث أكثر عن كتل الإدراك الحسي متعددة الطبقات، وكيفية
[7:07] عمل التدريب، وعدد من التفاصيل الأخرى التي سيتم تخطيها حتى تلك النقطة.
[7:12] للحصول على سياق أوسع، تعد مقاطع الفيديو هذه إضافات إلى سلسلة مصغرة حول التعلم
[7:16] العميق، ولا بأس إذا لم تكن قد شاهدت مقاطع الفيديو السابقة، أعتقد أنه يمكنك
[7:20] القيام بذلك خارج النظام، ولكن قبل الغوص في المحولات على وجه التحديد، أعتقد من
[7:24] الجدير التأكد من أننا على نفس الصفحة حول الفرضية الأساسية وبنية التعلم العميق.
[7:29] على الرغم من المخاطرة بتوضيح ما هو واضح، فهذا هو أحد أساليب التعلم الآلي، والذي
[7:33] يصف أي نموذج تستخدم فيه البيانات لتحديد كيفية تصرف النموذج بطريقة أو بأخرى.
[7:39] ما أعنيه بذلك هو، لنفترض أنك تريد وظيفة تلتقط صورة وتنتج علامة
[7:43] تصفها، أو مثالنا للتنبؤ بالكلمة التالية في ضوء مقطع من النص، أو
[7:47] أي مهمة أخرى يبدو أنها تتطلب بعض العناصر الحدس والتعرف على الأنماط.
[7:53] نحن نعتبر هذا الأمر أمرا مفروغا منه هذه الأيام، ولكن الفكرة في التعلم الآلي
[7:57] هي أنه بدلا من محاولة تحديد إجراء واضح لكيفية القيام بهذه المهمة في التعليمات
[8:02] البرمجية، وهو ما كان سيفعله الناس في الأيام الأولى للذكاء الاصطناعي، بدلا
[8:06] من ذلك قم بإعداد بنية مرنة للغاية مع معلمات قابلة للضبط، مثل مجموعة من
[8:10] المقابض والأقراص، ثم تستخدم بطريقة ما العديد من الأمثلة حول الشكل الذي يجب
[8:15] أن يبدو عليه الإخراج لمدخل معين لتعديل وضبط قيم تلك المعلمات لتقليد هذا السلوك.
[8:19] على سبيل المثال، ربما يكون أبسط شكل من أشكال التعلم الآلي هو الانحدار
[8:24] الخطي، حيث تكون المدخلات والمخرجات عبارة عن أرقام فردية، شيء مثل
[8:28] اللقطات المربعة للمنزل وسعره، وما تريده هو العثور على خط أفضل ملاءمة
[8:32] من خلال هذا البيانات، كما تعلمون، للتنبؤ بأسعار المنازل في المستقبل.
[8:37] يتم وصف هذا الخط بمعلمتين مستمرتين، على سبيل المثال الميل والتقاطع y،
[8:42] والهدف من الانحدار الخطي هو تحديد تلك المعلمات لمطابقة البيانات بشكل وثيق.
[8:48] وغني عن القول أن نماذج التعلم العميق تصبح أكثر تعقيدًا.
[8:52] GPT-3، على سبيل المثال، لا يحتوي على اثنين، بل 175 مليار معلمة.
[8:58] ولكن هذا هو الأمر، ليس من المسلم به أنه يمكنك إنشاء نموذج عملاق يحتوي على عدد كبير من
[9:03] المعلمات دون الحاجة إلى الإفراط في تجهيز بيانات التدريب بشكل كبير أو استعصاء التدريب
[9:09] تمامًا.
[9:10] يصف التعلم العميق فئة من النماذج التي أثبتت في
[9:13] العقدين الماضيين أنها قابلة للتوسع بشكل ملحوظ.
[9:16] ما يوحدهم هو نفس خوارزمية التدريب، التي تسمى الانتشار العكسي، والسياق
[9:21] الذي أريدك أن تحصل عليه أثناء تقدمنا هو أنه لكي تعمل خوارزمية التدريب
[9:26] هذه بشكل جيد على نطاق واسع، يجب أن تتبع هذه النماذج تنسيقًا محددًا معينًا.
[9:31] إذا كنت تعرف هذا التنسيق، فمن المفيد أن تشرح العديد من الاختيارات
[9:35] الخاصة بكيفية معالجة المحول للغة، والتي قد تتعرض لخطر الشعور بالتعسف.
[9:41] أولاً، أيًا كان النموذج الذي تقوم بإنشائه، يجب تنسيق الإدخال كمصفوفة من الأرقام الحقيقية.
[9:46] قد يعني هذا قائمة من الأرقام، أو يمكن أن تكون مصفوفة ثنائية الأبعاد، أو في كثير من
[9:51] الأحيان تتعامل مع مصفوفات ذات أبعاد أعلى، حيث المصطلح العام المستخدم هو الموتر.
[9:56] غالبًا ما تفكر في أن بيانات الإدخال يتم تحويلها تدريجيًا إلى العديد
[10:00] من الطبقات المتميزة، حيث يتم تنظيم كل طبقة دائمًا كنوع من مجموعة من
[10:04] الأرقام الحقيقية، حتى تصل إلى الطبقة النهائية التي تعتبرها المخرجات.
[10:09] على سبيل المثال، الطبقة الأخيرة في نموذج معالجة النص لدينا هي قائمة من
[10:13] الأرقام التي تمثل التوزيع الاحتمالي لجميع الرموز المميزة التالية الممكنة.
[10:17] في التعلم العميق، يُشار دائمًا إلى معلمات النموذج هذه بالأوزان، وذلك
[10:21] لأن الميزة الرئيسية لهذه النماذج هي أن الطريقة الوحيدة لتفاعل هذه
[10:25] المعلمات مع البيانات التي تتم معالجتها هي من خلال المبالغ المرجحة.
[10:30] يمكنك أيضًا رش بعض الوظائف غير الخطية طوال الوقت، لكنها لن تعتمد على المعلمات.
[10:35] عادةً، بدلًا من رؤية المجاميع المرجحة كلها عارية ومكتوبة بشكل واضح
[10:40] بهذه الطريقة، ستجدها مجمعة معًا كمكونات مختلفة في منتج متجه المصفوفة.
[10:46] إنه يعني قول الشيء نفسه، إذا فكرت مرة أخرى في كيفية عمل ضرب
[10:50] متجه المصفوفة، فإن كل مكون في الإخراج يبدو وكأنه مجموع مرجح.
[10:54] غالبًا ما يكون من الأنظف من الناحية المفاهيمية بالنسبة لي ولكم
[10:58] التفكير في المصفوفات المملوءة بمعلمات قابلة للضبط والتي تحول
[11:01] المتجهات التي يتم استخلاصها من البيانات التي تتم معالجتها.
[11:06] على سبيل المثال، تم تنظيم تلك الأوزان البالغ عددها 175
[11:10] مليارًا في GPT-3 في ما يقل قليلاً عن 28000 مصفوفة متميزة.
[11:14] تنقسم هذه المصفوفات بدورها إلى ثماني فئات مختلفة، وما سنفعله أنا
[11:18] وأنت هو المرور عبر كل واحدة من هذه الفئات لفهم ما يفعله هذا النوع.
[11:23] بينما نمضي قدمًا، أعتقد أنه من الممتع الرجوع إلى الأرقام
[11:27] المحددة من GPT-3 لحساب مصدر تلك الـ 175 مليارًا بالضبط.
[11:31] حتى لو كانت هناك نماذج أكبر وأفضل في الوقت الحاضر، فإن هذا النموذج يتمتع بسحر
[11:36] معين باعتباره نموذج اللغة الكبيرة لجذب انتباه العالم خارج مجتمعات تعلم الآلة.
[11:41] ومن الناحية العملية أيضًا، تميل الشركات إلى الالتزام بأرقام محددة للشبكات الأكثر حداثة.
[11:47] أريد فقط أن أبدأ المشهد، فبينما تنظر إلى أسفل الغطاء لترى ما يحدث داخل أداة مثل
[11:52] ChatGPT، تبدو كل العمليات الحسابية الفعلية تقريبًا مثل مضاعفة متجهات المصفوفات.
[11:57] هناك القليل من المخاطرة بالضياع في بحر مليارات الأرقام، ولكن يجب أن ترسم تمييزًا
[12:02] حادًا للغاية في عقلك بين أوزان النموذج، والتي سألونها دائمًا باللون الأزرق أو الأحمر،
[12:07] والبيانات التي يتم الحصول عليها تمت معالجتها، والتي سألونها دائمًا باللون الرمادي.
[12:12] الأوزان هي العقول الفعلية، وهي الأشياء التي يتم
[12:14] تعلمها أثناء التدريب، وهي التي تحدد كيفية تصرفه.
[12:18] تقوم البيانات التي تتم معالجتها ببساطة بتشفير أي مدخلات
[12:22] محددة يتم إدخالها في النموذج لتشغيل معين، مثل مقتطف من النص.
[12:27] مع كل ذلك كأساس، دعونا نتعمق في الخطوة الأولى من مثال معالجة النص هذا،
[12:32] وهو تقسيم المدخلات إلى أجزاء صغيرة وتحويل تلك الأجزاء إلى متجهات.
[12:37] لقد ذكرت كيف تسمى هذه القطع بالرموز، والتي قد تكون أجزاء من الكلمات
[12:40] أو علامات الترقيم، ولكن بين الحين والآخر في هذا الفصل وخاصة في الفصل
[12:44] التالي، أود فقط أن أتظاهر بأنها مقسمة بشكل أكثر وضوحًا إلى كلمات.
[12:48] نظرًا لأننا نحن البشر نفكر بالكلمات، فإن هذا سيجعل من
[12:51] الأسهل بكثير الرجوع إلى أمثلة صغيرة وتوضيح كل خطوة.
[12:55] يحتوي النموذج على مفردات محددة مسبقًا، وقائمة من كل الكلمات الممكنة،
[12:59] على سبيل المثال 50000 منها، والمصفوفة الأولى التي سنواجهها، والمعروفة
[13:03] باسم مصفوفة التضمين، تحتوي على عمود واحد لكل كلمة من هذه الكلمات.
[13:08] هذه الأعمدة هي التي تحدد المتجه الذي تتحول إليه كل كلمة في تلك الخطوة الأولى.
[13:15] نسميها نحن، ومثل كل المصفوفات التي نراها، تبدأ قيمها
[13:18] بشكل عشوائي، ولكن سيتم تعلمها بناءً على البيانات.
[13:23] كان تحويل الكلمات إلى متجهات ممارسة شائعة في التعلم الآلي قبل فترة
[13:27] طويلة من المحولات، ولكنه أمر غريب بعض الشيء إذا لم يسبق لك رؤيته من
[13:31] قبل، وهو يضع الأساس لكل ما يلي، لذلك دعونا نتوقف لحظة للتعرف عليه.
[13:36] غالبًا ما نطلق على هذا التضمين كلمة، مما يدعوك إلى التفكير في
[13:39] هذه المتجهات بشكل هندسي للغاية كنقاط في مساحة عالية الأبعاد.
[13:44] لن يكون تصور قائمة من ثلاثة أرقام كإحداثيات لنقاط في مساحة ثلاثية
[13:47] الأبعاد مشكلة، لكن تضمين الكلمات يميل إلى أن يكون ذو أبعاد أعلى بكثير.
[13:52] في GPT-3 لديهم 12288 بُعدًا، وكما سترون، من المهم
[13:56] العمل في مساحة بها الكثير من الاتجاهات المميزة.
[14:01] بنفس الطريقة التي يمكنك من خلالها أخذ شريحة ثنائية الأبعاد عبر مساحة ثلاثية
[14:05] الأبعاد وإسقاط جميع النقاط على تلك الشريحة، من أجل تحريك تضمينات الكلمات التي
[14:10] يقدمها لي نموذج بسيط، سأفعل شيئًا مشابهًا عن طريق اختيار شريحة ثلاثية الأبعاد
[14:15] عبر هذا الفضاء ذي الأبعاد العالية جدًا، وإسقاط متجهات الكلمات عليها وعرض النتائج.
[14:21] الفكرة الكبيرة هنا هي أنه عندما يقوم النموذج بتعديل وضبط أوزانه لتحديد
[14:25] كيفية دمج الكلمات كمتجهات أثناء التدريب، فإنه يميل إلى الاستقرار على
[14:29] مجموعة من التضمينات حيث يكون للاتجاهات في الفضاء نوع من المعنى الدلالي.
[14:34] بالنسبة لنموذج تحويل الكلمة إلى ناقل البسيط الذي أستخدمه هنا، إذا
[14:38] قمت بإجراء بحث عن جميع الكلمات التي تكون تضميناتها أقرب إلى كلمة
[14:42] برج، ستلاحظ كيف تبدو جميعها وكأنها تعطي مشاعر برجية متشابهة جدًا.
[14:46] وإذا كنت تريد تعلم بعض لغة بايثون واللعب بها في المنزل،
[14:48] فهذا هو النموذج المحدد الذي أستخدمه لصنع الرسوم المتحركة.
[14:51] إنه ليس محولاً، لكنه يكفي لتوضيح فكرة أن الاتجاهات في الفضاء يمكن أن تحمل معنى دلاليًا.
[14:58] أحد الأمثلة الكلاسيكية على ذلك هو أنه إذا أخذت الفرق بين المتجهات
[15:03] الخاصة بالمرأة والرجل، وهو شيء يمكن أن تتخيله كمتجه صغير يربط
[15:08] طرف أحدهما بطرف الآخر، فهو مشابه جدًا للفرق بين الملك والرجل ملكة.
[15:15] لنفترض أنك لا تعرف كلمة ملكة أنثى، يمكنك العثور عليها عن طريق أخذ الملك،
[15:20] وإضافة اتجاه المرأة-الرجل، والبحث عن التضمينات الأقرب إلى تلك النقطة.
[15:27] على الأقل نوعا ما.
[15:28] على الرغم من كونه مثالًا كلاسيكيًا للنموذج الذي ألعب به، فإن التضمين الحقيقي
[15:32] للملكة هو في الواقع أبعد قليلاً عما قد يوحي به هذا، ربما لأن الطريقة التي
[15:36] يتم بها استخدام الملكة في بيانات التدريب ليست مجرد نسخة أنثوية من الملك.
[15:41] وعندما تجولت في الأمر، بدا أن العلاقات الأسرية توضح الفكرة بشكل أفضل بكثير.
[15:46] النقطة المهمة هي أنه يبدو أثناء التدريب أن النموذج وجد أنه من المفيد اختيار
[15:50] التضمينات بحيث يقوم اتجاه واحد في هذا الفضاء بتشفير المعلومات المتعلقة بالجنس.
[15:56] مثال آخر هو أنك إذا أخذت تضمين إيطاليا، وطرحت تضمين ألمانيا، وأضفت
[16:02] ذلك إلى تضمين هتلر، فستحصل على شيء قريب جدًا من تضمين موسوليني.
[16:08] يبدو الأمر كما لو أن النموذج تعلم ربط بعض الاتجاهات
[16:11] بالهوية الإيطالية، وأخرى بقادة محور الحرب العالمية الثانية.
[16:16] ربما المثال المفضل لدي في هذا السياق هو كيف أنه في بعض النماذج، إذا أخذت الفرق
[16:21] بين ألمانيا واليابان، وأضفته إلى السوشي، فسينتهي بك الأمر قريبًا جدًا من النقانق.
[16:27] أيضًا أثناء لعب لعبة العثور على أقرب الجيران، سررت برؤية مدى قرب كات من الوحش والوحش.
[16:34] أحد الأمور الرياضية البديهية التي من المفيد أن نأخذها في الاعتبار، خاصة في
[16:39] الفصل التالي، هو كيف يمكن اعتبار المنتج النقطي لمتجهين وسيلة لقياس مدى توافقهما.
[16:44] من الناحية الحسابية، تتضمن المنتجات النقطية ضرب جميع المكونات المقابلة ثم إضافة
[16:49] النتائج، وهو أمر جيد، نظرًا لأن الكثير من حساباتنا يجب أن تبدو وكأنها مبالغ مرجحة.
[16:55] هندسيًا، يكون حاصل الضرب النقطي موجبًا عندما تشير المتجهات إلى اتجاهات متشابهة،
[17:00] ويكون صفرًا إذا كانت متعامدة، ويكون سالبًا عندما تشير إلى اتجاهات متعاكسة.
[17:06] على سبيل المثال، لنفترض أنك كنت تلعب بهذا النموذج، وتفترض أن تضمين
[17:11] القطط ناقص القطة قد يمثل نوعًا من اتجاه التعددية في هذا الفضاء.
[17:17] لاختبار ذلك، سأأخذ هذا المتجه وأحسب حاصل ضربه النقطي مقابل تضمينات بعض
[17:22] الأسماء المفردة، ومقارنته مع نواتج الضرب النقطية مع أسماء الجمع المقابلة.
[17:27] إذا تلاعبت بهذا، ستلاحظ أن الجمع يبدو أنه يعطي دائمًا قيمًا أعلى
[17:31] من القيم المفردة، مما يشير إلى أنها تتماشى أكثر مع هذا الاتجاه.
[17:37] ومن الممتع أيضًا أنه إذا أخذت هذا المنتج النقطي مع تضمينات الكلمات
[17:41] 1، 2، 3، وما إلى ذلك، فإنها تعطي قيمًا متزايدة، لذا يبدو الأمر
[17:45] كما لو أننا نستطيع قياس كمي مدى عثور النموذج على كلمة معينة.
[17:50] مرة أخرى، يتم تعلم تفاصيل كيفية تضمين الكلمات باستخدام البيانات.
[17:54] إن مصفوفة التضمين هذه، التي تخبرنا أعمدتها بما
[17:56] يحدث لكل كلمة، هي أول كومة من الأوزان في نموذجنا.
[18:00] باستخدام أرقام GPT-3، يبلغ حجم المفردات على وجه التحديد 50257، ومرة أخرى،
[18:04] لا يتكون هذا من الناحية الفنية من كلمات في حد ذاتها، بل من الرموز المميزة.
[18:10] بُعد التضمين هو 12,288، وبضرب ذلك يخبرنا أن هذا يتكون من حوالي 617 مليون وزن.
[18:18] دعونا نمضي قدمًا ونضيف هذا إلى حصيلة جارية، متذكرين
[18:21] أنه في النهاية يجب أن نحصي ما يصل إلى 175 مليارًا.
[18:25] في حالة المحولات، أنت تريد حقًا أن تفكر في المتجهات الموجودة
[18:28] في مساحة التضمين هذه على أنها لا تمثل مجرد كلمات فردية.
[18:32] لسبب واحد، أنها تقوم أيضًا بتشفير معلومات حول موضع تلك الكلمة، وهو ما سنتحدث عنه
[18:37] لاحقًا، ولكن الأهم من ذلك، يجب أن تفكر فيها على أنها تتمتع بالقدرة على استيعاب السياق.
[18:43] على سبيل المثال، قد يتم سحب وسحب المتجه الذي بدأ حياته كدمج لكلمة &quot;ملك&quot;
[18:49] بواسطة كتل مختلفة في هذه الشبكة، بحيث يشير في النهاية إلى اتجاه أكثر
[18:54] تحديدًا ودقة والذي يشفر بطريقة أو بأخرى. كان ملكًا عاش في اسكتلندا، وقد
[18:59] وصل إلى منصبه بعد قتل الملك السابق، ويتم وصفه باللغة الشكسبيرية.
[19:05] فكر في فهمك لكلمة معينة.
[19:08] يتم تحديد معنى هذه الكلمة بوضوح من خلال البيئة المحيطة، وفي بعض الأحيان يتضمن
[19:13] ذلك السياق من مسافة بعيدة، لذلك عند تجميع نموذج لديه القدرة على التنبؤ
[19:18] بالكلمة التي تأتي بعد ذلك، فإن الهدف هو تمكينه بطريقة ما من دمج السياق بكفاءة.
[19:24] لكي نكون واضحين، في تلك الخطوة الأولى، عندما تقوم بإنشاء مجموعة من المتجهات
[19:28] بناءً على نص الإدخال، يتم انتزاع كل واحد منها ببساطة من مصفوفة التضمين، لذلك
[19:32] في البداية يمكن لكل واحد فقط تشفير معنى كلمة واحدة بدون أي مدخلات من محيطه.
[19:37] لكن يجب أن تفكر في الهدف الأساسي لهذه الشبكة التي تتدفق من خلالها على أنه تمكين كل واحد
[19:43] من تلك المتجهات من استيعاب معنى أكثر ثراءً وتحديدًا مما يمكن أن تمثله مجرد كلمات فردية.
[19:49] يمكن للشبكة معالجة عدد ثابت فقط من المتجهات في
[19:51] المرة الواحدة، وهو ما يُعرف بحجم السياق الخاص بها.
[19:54] بالنسبة لـ GPT-3، تم تدريبه بحجم سياق يبلغ 2048، وبالتالي فإن البيانات المتدفقة عبر
[19:59] الشبكة تبدو دائمًا مثل هذه المجموعة المكونة من 2048 عمودًا، يحتوي كل منها على 12000
[20:04] بُعدًا.
[20:05] يحد حجم السياق هذا من مقدار النص الذي يمكن للمحول دمجه عند التنبؤ بالكلمة التالية.
[20:12] وهذا هو السبب في أن المحادثات الطويلة مع بعض برامج الدردشة
[20:15] الآلية، مثل الإصدارات الأولى من ChatGPT، غالبًا ما أعطت شعورًا
[20:18] بأن الروبوت يفقد خيط المحادثة مع استمرارك لفترة طويلة جدًا.
[20:23] سنتناول تفاصيل الاهتمام في الوقت المناسب، ولكن بالتخطي
[20:25] للأمام، أريد أن أتحدث لمدة دقيقة عما يحدث في النهاية.
[20:29] تذكر أن الناتج المطلوب هو توزيع احتمالي على جميع الرموز المميزة التي قد تأتي بعد ذلك.
[20:35] على سبيل المثال، إذا كانت الكلمة الأخيرة هي &quot;بروفيسور&quot;، وكان
[20:39] السياق يتضمن كلمات مثل &quot;هاري بوتر&quot;، وقبل ذلك مباشرة نرى المعلم
[20:43] الأقل تفضيلًا، وأيضًا إذا أعطيتني بعض الحرية من خلال السماح لي بالتظاهر
[20:47] بأن الرموز تبدو ببساطة وكأنها كلمات كاملة، إذن من المفترض أن تقوم الشبكة
[20:51] المدربة جيدًا والتي اكتسبت المعرفة بهاري بوتر بتخصيص رقم كبير لكلمة Snape.
[20:56] وهذا ينطوي على خطوتين مختلفتين.
[20:58] الأول هو استخدام مصفوفة أخرى تقوم بتعيين المتجه الأخير في هذا السياق
[21:03] إلى قائمة مكونة من 50000 قيمة، واحدة لكل رمز مميز في المفردات.
[21:08] ثم هناك دالة تعمل على تطبيع هذا إلى توزيع احتمالي، تسمى Softmax وسنتحدث عنها
[21:13] أكثر خلال ثانية واحدة فقط، ولكن قبل ذلك قد يبدو غريبًا بعض الشيء استخدام
[21:18] هذا التضمين الأخير فقط للتنبؤ، عندما بعد كل شيء، في تلك الخطوة الأخيرة، هناك
[21:23] الآلاف من المتجهات الأخرى في الطبقة الموجودة هناك مع معانيها الغنية بالسياق.
[21:28] يتعلق هذا بحقيقة أنه في عملية التدريب يتبين أن الأمر أكثر كفاءة إذا استخدمت كل
[21:34] واحد من تلك المتجهات في الطبقة النهائية للتنبؤ في نفس الوقت بما سيأتي بعده مباشرة.
[21:40] هناك الكثير مما يمكن قوله عن التدريب لاحقًا، لكني أريد فقط أن أذكر ذلك الآن.
[21:45] تسمى هذه المصفوفة بمصفوفة Unembedding ونعطيها التسمية WU.
[21:50] مرة أخرى، مثل جميع مصفوفات الوزن التي نراها، تبدأ
[21:52] إدخالاتها بشكل عشوائي، ولكن يتم تعلمها أثناء عملية التدريب.
[21:56] للحفاظ على النتيجة في إجمالي عدد المعلمات لدينا، تحتوي مصفوفة إلغاء التضمين هذه على
[22:01] صف واحد لكل كلمة في المفردات، وكل صف يحتوي على نفس عدد العناصر مثل بُعد التضمين.
[22:06] إنها تشبه إلى حد كبير مصفوفة التضمين، فقط مع تبديل الترتيب، لذا فهي تضيف 617 مليون
[22:11] معلمة أخرى إلى الشبكة، مما يعني أن عددنا حتى الآن يزيد قليلاً عن مليار، وهو جزء
[22:16] صغير ولكنه ليس ضئيلًا تمامًا من الـ 175 مليارًا التي لدينا. سوف ينتهي في المجموع.
[22:22] كدرس صغير أخير في هذا الفصل، أريد أن أتحدث أكثر عن وظيفة
[22:26] softmax هذه، لأنها تظهر لنا مرة أخرى عندما نغوص في كتل الانتباه.
[22:31] الفكرة هي أنه إذا كنت تريد أن تعمل سلسلة من الأرقام كتوزيع
[22:35] احتمالي، مثل التوزيع على جميع الكلمات التالية المحتملة، فيجب
[22:39] أن تكون كل قيمة بين 0 و1، وتحتاج أيضًا إلى جمعها جميعًا حتى 1 .
[22:45] ومع ذلك، إذا كنت تلعب لعبة تعليمية حيث يبدو كل ما تفعله مثل الضرب بمصفوفة
[22:50] ومتجه، فإن المخرجات التي تحصل عليها افتراضيًا لا تلتزم بهذا على الإطلاق.
[22:55] غالبًا ما تكون القيم سالبة، أو أكبر بكثير من 1، ومن المؤكد تقريبًا ألا يكون مجموعها 1.
[23:00] Softmax هي الطريقة القياسية لتحويل قائمة عشوائية من الأرقام إلى توزيع صالح بطريقة
[23:06] تجعل القيم الأكبر تنتهي الأقرب إلى 1، والقيم الأصغر تنتهي قريبة جدًا من 0.
[23:11] هذا كل ما تحتاج إلى معرفته حقًا.
[23:13] لكن إذا كنت فضوليًا، فإن الطريقة التي يتم بها الأمر هي أولاً رفع e إلى قوة كل رقم،
[23:18] وهو ما يعني أن لديك الآن قائمة من القيم الموجبة، وبعد ذلك يمكنك جمع كل تلك القيم
[23:23] الموجبة وتقسيمها كل مصطلح بهذا المبلغ، مما يؤدي إلى تطبيعه في قائمة تضيف ما يصل إلى 1.
[23:30] ستلاحظ أنه إذا كان أحد الأرقام في المدخلات أكبر بكثير من الباقي،
[23:34] ففي المخرجات، يهيمن المصطلح المقابل على التوزيع، لذلك إذا كنت
[23:38] تأخذ عينات منه فمن المؤكد تقريبًا أنك تختار المدخلات القصوى.
[23:42] ولكنه أكثر ليونة من مجرد اختيار الحد الأقصى، بمعنى أنه عندما تكون
[23:46] القيم الأخرى كبيرة بشكل مماثل، فإنها تحصل أيضًا على وزن ذي معنى في
[23:50] التوزيع، وكل شيء يتغير بشكل مستمر حيث تقوم باستمرار بتغيير المدخلات.
[23:55] في بعض المواقف، مثل عندما يستخدم ChatGPT هذا التوزيع لإنشاء كلمة
[23:59] تالية، هناك مساحة لقليل من المرح الإضافي عن طريق إضافة القليل من
[24:04] الإثارة الإضافية إلى هذه الوظيفة، مع إضافة ثابت t إلى مقام تلك الأسس.
[24:09] نحن نسميها درجة الحرارة، لأنها تشبه بشكل غامض دور درجة الحرارة في بعض معادلات الديناميكا
[24:15] الحرارية، والتأثير هو أنه عندما تكون t أكبر، فإنك تعطي وزنًا أكبر للقيم الأقل، مما يعني
[24:21] أن التوزيع يكون أكثر تجانسًا قليلاً، وإذا إذا كان t أصغر، فإن القيم الأكبر سوف تهيمن
[24:26] بقوة أكبر، حيث في الحالة القصوى، تعيين t يساوي الصفر يعني أن كل الوزن يذهب إلى القيمة
[24:32] القصوى.
[24:33] على سبيل المثال، سأطلب من GPT-3 إنشاء قصة بالنص الأساسي، ذات
[24:38] مرة كان هناك A، لكنني سأستخدم درجات حرارة مختلفة في كل حالة.
[24:43] درجة الحرارة صفر تعني أنها تتوافق دائمًا مع الكلمة الأكثر
[24:47] توقعًا، وما تحصل عليه في نهاية المطاف هو مشتق مبتذل من المعتدل.
[24:53] تمنحك درجة الحرارة المرتفعة فرصة لاختيار كلمات أقل احتمالية، ولكنها تنطوي على مخاطرة.
[24:58] في هذه الحالة، تبدأ القصة بشكل أكثر أصالة، حول فنان ويب
[25:02] شاب من كوريا الجنوبية، لكنها سرعان ما تتحول إلى هراء.
[25:06] من الناحية الفنية، لا تسمح لك واجهة برمجة التطبيقات (API) باختيار درجة حرارة أكبر من 2.
[25:11] لا يوجد سبب رياضي لذلك، إنه مجرد قيد تعسفي مفروض
[25:15] لمنع أدواتهم من الظهور وهي تولد أشياء لا معنى لها.
[25:19] لذا، إذا كنت فضوليًا، فإن الطريقة التي تعمل بها هذه الرسوم المتحركة في الواقع هي
[25:24] أنني آخذ الـ 20 رمزًا التاليًا الأكثر احتمالية التي ينشئها GPT-3، والذي يبدو
[25:28] أنه الحد الأقصى الذي سيعطونه لي، ثم أقوم بتعديل الاحتمالات بناءً على على الأس 15.
[25:33] كمصطلح آخر، بنفس الطريقة التي يمكنك من خلالها تسمية مكونات مخرجات هذه
[25:37] الدالة بالاحتمالات، غالبًا ما يشير الأشخاص إلى المدخلات على أنها سجلات،
[25:41] أو يقول بعض الأشخاص سجلات، ويقول بعض الأشخاص سجلات، سأقول سجلات .
[25:46] على سبيل المثال، عندما تقوم بتغذية بعض النصوص، فإن كل هذه الكلمات المضمنة
[25:50] تتدفق عبر الشبكة، وتقوم بإجراء هذا الضرب النهائي باستخدام مصفوفة إلغاء
[25:54] التضمين، وسيشير الأشخاص الذين يتعلمون الآلة إلى المكونات الموجودة في
[25:57] هذا الناتج الأولي غير الطبيعي باسم اللوجيستات للتنبؤ بالكلمة التالية.
[26:03] كان الكثير من الهدف في هذا الفصل هو وضع الأسس لفهم
[26:06] آلية الانتباه، أسلوب طفل الكاراتيه الشمع على الشمع.
[26:10] كما ترى، إذا كان لديك حدس قوي لتضمين الكلمات، ولسوفت ماكس، لكيفية قياس المنتجات
[26:16] النقطية للتشابه، وكذلك الفرضية الأساسية التي مفادها أن معظم الحسابات يجب أن تبدو
[26:21] مثل ضرب المصفوفات بمصفوفات مليئة بالمعلمات القابلة للضبط، ثم فهم الاهتمام يجب أن
[26:26] تكون هذه الآلية، وهي حجر الزاوية في الطفرة الحديثة في الذكاء الاصطناعي، سلسة نسبيًا.
[26:32] لذلك، تعال وانضم إلي في الفصل التالي.
[26:36] بينما أنشر هذا، تتوفر مسودة الفصل التالي للمراجعة من قبل مؤيدي Patreon.
[26:41] من المفترض أن يتم نشر النسخة النهائية للعامة خلال أسبوع أو أسبوعين، ويعتمد ذلك
[26:44] عادةً على مقدار التغيير الذي سأقوم به في نهاية المطاف بناءً على تلك المراجعة.
[26:47] في هذه الأثناء، إذا كنت تريد التعمق في الاهتمام،
[26:50] وإذا كنت تريد مساعدة القناة قليلاً، فهي تنتظرك.