[0:00] الأحرف الأولى من GPT تعني المحول التوليدي المُدرب مسبقًا. [0:05] لذا فإن الكلمة الأولى واضحة بما فيه الكفاية، فهي روبوتات تولد نصًا جديدًا. [0:09] يشير التدريب المسبق إلى كيفية خضوع النموذج لعملية التعلم من كمية هائلة من [0:14] البيانات، وتشير البادئة إلى أن هناك مساحة أكبر لضبطه في مهام محددة مع تدريب إضافي. [0:20] لكن الكلمة الأخيرة، هذه هي القطعة الرئيسية الحقيقية. [0:23] المحول هو نوع محدد من الشبكات العصبية، وهو نموذج للتعلم الآلي، وهو [0:27] الاختراع الأساسي الكامن وراء الطفرة الحالية في الذكاء الاصطناعي. [0:31] ما أريد أن أفعله بهذا الفيديو والفصول التالية [0:35] هو تقديم شرح بصري لما يحدث بالفعل داخل المحول. [0:39] سنقوم بمتابعة البيانات التي تتدفق من خلاله ونتحرك خطوة بخطوة. [0:43] هناك العديد من أنواع النماذج المختلفة التي يمكنك بنائها باستخدام المحولات. [0:47] تأخذ بعض النماذج الصوت وتنتج نصًا. [0:51] تأتي هذه الجملة من نموذج يسير في الاتجاه المعاكس، وينتج خطابًا تركيبيًا من النص فقط. [0:56] كل تلك الأدوات التي اجتاحت العالم في عام 2022 مثل Dolly [1:00] وMidjourney التي تأخذ وصفًا نصيًا وتنتج صورة تعتمد على المحولات. [1:06] حتى لو لم أتمكن من فهم ما يفترض أن يكون عليه مخلوق الفطيرة، ما [1:09] زلت مندهشًا من أن هذا النوع من الأشياء ممكن حتى ولو عن بعد. [1:13] وتم اختراع المحول الأصلي الذي قدمته Google في عام 2017 [1:18] لحالة الاستخدام المحددة لترجمة النص من لغة إلى أخرى. [1:22] لكن المتغير الذي سنركز عليه أنا وأنت، وهو النوع الذي يكمن وراء أدوات مثل [1:27] ChatGPT، سيكون نموذجًا تم تدريبه على استيعاب جزء من النص، ربما حتى مع بعض [1:32] الصور المحيطة أو الصوت المصاحب له، وإنتاج تنبؤ لما سيأتي بعد ذلك في المقطع. [1:38] يأخذ هذا التنبؤ شكل توزيع احتمالي على العديد من أجزاء النص المختلفة التي قد تتبعها. [1:45] للوهلة الأولى، قد تعتقد أن التنبؤ بالكلمة التالية [1:47] يبدو وكأنه هدف مختلف تمامًا عن إنشاء نص جديد. [1:50] ولكن بمجرد أن يكون لديك نموذج تنبؤ مثل هذا، فإن الشيء البسيط الذي يمكنك إنشاء جزء [1:54] أطول من النص هو إعطائه مقتطفًا أوليًا للعمل معه، وجعله يأخذ عينة عشوائية من التوزيع [1:59] الذي أنشأه للتو، وإلحاق تلك العينة بالنص ، ثم قم بتشغيل العملية برمتها مرة أخرى [2:04] لإجراء تنبؤ جديد استنادًا إلى النص الجديد بالكامل، بما في ذلك ما تمت إضافته للتو. [2:10] لا أعرف عنك، لكن يبدو أن هذا لا ينبغي أن ينجح حقًا. [2:13] في هذه الرسوم المتحركة، على سبيل المثال، أقوم بتشغيل GPT-2 على [2:16] جهاز الكمبيوتر المحمول الخاص بي وأطلب منه التنبؤ بشكل متكرر وأخذ [2:19] عينات من الجزء التالي من النص لإنشاء قصة بناءً على النص الأولي. [2:22] القصة ليس لها معنى كبير حقًا. [2:26] ولكن إذا قمت باستبدالها باستدعاءات واجهة برمجة التطبيقات (API) إلى GPT-3 بدلاً من [2:31] ذلك، وهو نفس النموذج الأساسي، ولكنه أكبر بكثير، فسنحصل فجأة وبطريقة سحرية تقريبًا [2:35] على قصة معقولة، قصة يبدو أنها تستنتج أن مخلوق باي سيعيش في عالم أرض الرياضيات والحساب. [2:41] هذه العملية هنا من التنبؤ المتكرر وأخذ العينات هي في الأساس ما يحدث عندما تتفاعل مع [2:46] ChatGPT أو أي من نماذج اللغات الكبيرة الأخرى هذه وتراهم ينتجون كلمة واحدة في كل مرة. [2:52] في الواقع، إحدى الميزات التي سأستمتع بها كثيرًا هي [2:55] القدرة على رؤية التوزيع الأساسي لكل كلمة جديدة تختارها. [3:03] دعونا نبدأ الأمور بمعاينة عالية المستوى لكيفية تدفق البيانات عبر المحول. [3:08] سنقضي المزيد من الوقت في التحفيز والتفسير والتوسع في تفاصيل كل خطوة، ولكن بشكل عام، [3:13] عندما يقوم أحد روبوتات الدردشة هذه بإنشاء كلمة معينة، إليك ما يحدث تحت الغطاء. [3:19] أولاً، يتم تقسيم المدخلات إلى مجموعة من القطع الصغيرة. [3:22] تسمى هذه القطع بالرموز، وفي حالة النص، تميل هذه إلى أن تكون [3:26] كلمات أو أجزاء صغيرة من الكلمات أو مجموعات أحرف مشتركة أخرى. [3:30] إذا كانت الصور أو الصوت متضمنة، فيمكن أن تكون الرموز المميزة [3:33] عبارة عن بقع صغيرة من تلك الصورة أو أجزاء صغيرة من هذا الصوت. [3:37] يتم بعد ذلك ربط كل واحدة من هذه الرموز المميزة بمتجه، مما يعني [3:41] قائمة من الأرقام، والتي تهدف إلى تشفير معنى تلك القطعة بطريقة ما. [3:45] إذا كنت تعتقد أن هذه المتجهات تعطي إحداثيات في مساحة ذات أبعاد عالية جدًا، فإن الكلمات [3:50] ذات المعاني المتشابهة تميل إلى الهبوط على ناقلات قريبة من بعضها البعض في ذلك الفضاء. [3:55] يمر تسلسل المتجهات هذا عبر عملية تُعرف باسم كتلة الانتباه، وهذا يسمح للمتجهات [4:00] بالتحدث مع بعضها البعض وتمرير المعلومات ذهابًا وإيابًا لتحديث قيمها. [4:04] على سبيل المثال، يختلف معنى كلمة نموذج في عبارة [4:08] نموذج التعلم الآلي عن معناها في عبارة نموذج أزياء. [4:12] إن كتلة الانتباه هي المسؤولة عن معرفة الكلمات في السياق ذات الصلة [4:17] بتحديث معاني الكلمات الأخرى، وكيف يجب تحديث هذه المعاني بالضبط. [4:22] ومرة أخرى، كلما استخدمت معنى الكلمة، يتم تشفيرها [4:25] بالكامل بطريقة أو بأخرى في مدخلات تلك المتجهات. [4:29] بعد ذلك، تمر هذه المتجهات من خلال نوع مختلف من العمليات، واعتمادًا على المصدر الذي [4:33] تقرأه، سيشار إلى ذلك باسم الإدراك الحسي متعدد الطبقات أو ربما طبقة التغذية الأمامية. [4:38] وهنا لا تتحدث المتجهات مع بعضها البعض، بل تمر جميعها بنفس العملية بالتوازي. [4:43] وعلى الرغم من صعوبة تفسير هذه الكتلة قليلًا، سنتحدث لاحقًا عن كيف أن الخطوة تشبه إلى [4:48] حدٍ ما طرح قائمة طويلة من الأسئلة حول كل متجه، ثم تحديثها بناءً على إجابات تلك الأسئلة. [4:54] تبدو جميع العمليات في كلتا الكتلتين وكأنها كومة ضخمة من مضاعفات [4:59] المصفوفات، وستكون مهمتنا الأساسية هي فهم كيفية قراءة المصفوفات الأساسية. [5:06] أقوم بتغطية بعض التفاصيل حول بعض خطوات التطبيع التي [5:09] تحدث بينهما، ولكن هذه في النهاية معاينة عالية المستوى. [5:13] بعد ذلك، تتكرر العملية بشكل أساسي، وتتنقل ذهابًا وإيابًا بين كتل الانتباه [5:18] وكتل الإدراك الحسي متعددة الطبقات، حتى النهاية، يكون الأمل هو أن كل [5:23] المعنى الأساسي للمقطع قد تم بطريقة ما خبزه في المتجه الأخير في الترتيب. [5:28] نقوم بعد ذلك بإجراء عملية معينة على المتجه الأخير الذي ينتج توزيعًا احتماليًا على جميع [5:33] الرموز المميزة المحتملة، وجميع الأجزاء الصغيرة المحتملة من النص التي قد تأتي بعد ذلك. [5:38] وكما قلت، بمجرد أن يكون لديك أداة تتنبأ بما سيأتي بعد ذلك في ضوء مقتطف من النص، [5:43] يمكنك تغذيتها بقليل من النص الأولي وجعلها تلعب بشكل متكرر لعبة التنبؤ بما [5:48] سيأتي بعد ذلك، وأخذ عينات من التوزيع، والإلحاق ذلك، ثم تكرره مراراً وتكراراً. [5:53] ربما يتذكر البعض منكم من ذوي الخبرة المدة التي سبقت ظهور ChatGPT في [5:57] المشهد، هذا هو الشكل الذي كانت تبدو عليه العروض التوضيحية المبكرة لـ [6:00] GPT-3، حيث يمكنك إكمال القصص والمقالات تلقائيًا بناءً على مقتطف أولي. [6:05] لتحويل أداة كهذه إلى روبوت دردشة، فإن أسهل نقطة بداية هي الحصول على القليل من النص الذي [6:10] يحدد إعدادات المستخدم الذي يتفاعل مع مساعد الذكاء الاصطناعي المفيد، وهو ما يمكن أن تسميه [6:16] موجه النظام، وبعد ذلك ستستخدم السؤال الأولي للمستخدم أو المطالبة به هو الجزء الأول من [6:21] الحوار، وبعد ذلك يمكنك البدء في التنبؤ بما سيقوله مساعد الذكاء الاصطناعي المفيد ردًا على [6:26] ذلك. [6:27] هناك الكثير مما يمكن قوله عن خطوة التدريب المطلوبة [6:30] لإنجاح هذا الأمر، ولكن على مستوى عالٍ، هذه هي الفكرة. [6:35] في هذا الفصل، سنتوسع أنا وأنت في تفاصيل ما يحدث في بداية الشبكة، وفي نهايتها، [6:41] وأريد أيضًا قضاء الكثير من الوقت في مراجعة بعض الأجزاء المهمة من المعرفة الأساسية [6:47] أشياء كانت ستصبح طبيعة أي مهندس تعلم آلي بحلول الوقت الذي ظهرت فيه المحولات. [6:53] إذا كنت مرتاحًا لهذه المعرفة الأساسية وقليل الصبر، فلا تتردد في الانتقال إلى [6:57] الفصل التالي، والذي سيركز على كتل الانتباه، والتي تعتبر بشكل عام قلب المحول. [7:03] بعد ذلك أريد أن أتحدث أكثر عن كتل الإدراك الحسي متعددة الطبقات، وكيفية [7:07] عمل التدريب، وعدد من التفاصيل الأخرى التي سيتم تخطيها حتى تلك النقطة. [7:12] للحصول على سياق أوسع، تعد مقاطع الفيديو هذه إضافات إلى سلسلة مصغرة حول التعلم [7:16] العميق، ولا بأس إذا لم تكن قد شاهدت مقاطع الفيديو السابقة، أعتقد أنه يمكنك [7:20] القيام بذلك خارج النظام، ولكن قبل الغوص في المحولات على وجه التحديد، أعتقد من [7:24] الجدير التأكد من أننا على نفس الصفحة حول الفرضية الأساسية وبنية التعلم العميق. [7:29] على الرغم من المخاطرة بتوضيح ما هو واضح، فهذا هو أحد أساليب التعلم الآلي، والذي [7:33] يصف أي نموذج تستخدم فيه البيانات لتحديد كيفية تصرف النموذج بطريقة أو بأخرى. [7:39] ما أعنيه بذلك هو، لنفترض أنك تريد وظيفة تلتقط صورة وتنتج علامة [7:43] تصفها، أو مثالنا للتنبؤ بالكلمة التالية في ضوء مقطع من النص، أو [7:47] أي مهمة أخرى يبدو أنها تتطلب بعض العناصر الحدس والتعرف على الأنماط. [7:53] نحن نعتبر هذا الأمر أمرا مفروغا منه هذه الأيام، ولكن الفكرة في التعلم الآلي [7:57] هي أنه بدلا من محاولة تحديد إجراء واضح لكيفية القيام بهذه المهمة في التعليمات [8:02] البرمجية، وهو ما كان سيفعله الناس في الأيام الأولى للذكاء الاصطناعي، بدلا [8:06] من ذلك قم بإعداد بنية مرنة للغاية مع معلمات قابلة للضبط، مثل مجموعة من [8:10] المقابض والأقراص، ثم تستخدم بطريقة ما العديد من الأمثلة حول الشكل الذي يجب [8:15] أن يبدو عليه الإخراج لمدخل معين لتعديل وضبط قيم تلك المعلمات لتقليد هذا السلوك. [8:19] على سبيل المثال، ربما يكون أبسط شكل من أشكال التعلم الآلي هو الانحدار [8:24] الخطي، حيث تكون المدخلات والمخرجات عبارة عن أرقام فردية، شيء مثل [8:28] اللقطات المربعة للمنزل وسعره، وما تريده هو العثور على خط أفضل ملاءمة [8:32] من خلال هذا البيانات، كما تعلمون، للتنبؤ بأسعار المنازل في المستقبل. [8:37] يتم وصف هذا الخط بمعلمتين مستمرتين، على سبيل المثال الميل والتقاطع y، [8:42] والهدف من الانحدار الخطي هو تحديد تلك المعلمات لمطابقة البيانات بشكل وثيق. [8:48] وغني عن القول أن نماذج التعلم العميق تصبح أكثر تعقيدًا. [8:52] GPT-3، على سبيل المثال، لا يحتوي على اثنين، بل 175 مليار معلمة. [8:58] ولكن هذا هو الأمر، ليس من المسلم به أنه يمكنك إنشاء نموذج عملاق يحتوي على عدد كبير من [9:03] المعلمات دون الحاجة إلى الإفراط في تجهيز بيانات التدريب بشكل كبير أو استعصاء التدريب [9:09] تمامًا. [9:10] يصف التعلم العميق فئة من النماذج التي أثبتت في [9:13] العقدين الماضيين أنها قابلة للتوسع بشكل ملحوظ. [9:16] ما يوحدهم هو نفس خوارزمية التدريب، التي تسمى الانتشار العكسي، والسياق [9:21] الذي أريدك أن تحصل عليه أثناء تقدمنا هو أنه لكي تعمل خوارزمية التدريب [9:26] هذه بشكل جيد على نطاق واسع، يجب أن تتبع هذه النماذج تنسيقًا محددًا معينًا. [9:31] إذا كنت تعرف هذا التنسيق، فمن المفيد أن تشرح العديد من الاختيارات [9:35] الخاصة بكيفية معالجة المحول للغة، والتي قد تتعرض لخطر الشعور بالتعسف. [9:41] أولاً، أيًا كان النموذج الذي تقوم بإنشائه، يجب تنسيق الإدخال كمصفوفة من الأرقام الحقيقية. [9:46] قد يعني هذا قائمة من الأرقام، أو يمكن أن تكون مصفوفة ثنائية الأبعاد، أو في كثير من [9:51] الأحيان تتعامل مع مصفوفات ذات أبعاد أعلى، حيث المصطلح العام المستخدم هو الموتر. [9:56] غالبًا ما تفكر في أن بيانات الإدخال يتم تحويلها تدريجيًا إلى العديد [10:00] من الطبقات المتميزة، حيث يتم تنظيم كل طبقة دائمًا كنوع من مجموعة من [10:04] الأرقام الحقيقية، حتى تصل إلى الطبقة النهائية التي تعتبرها المخرجات. [10:09] على سبيل المثال، الطبقة الأخيرة في نموذج معالجة النص لدينا هي قائمة من [10:13] الأرقام التي تمثل التوزيع الاحتمالي لجميع الرموز المميزة التالية الممكنة. [10:17] في التعلم العميق، يُشار دائمًا إلى معلمات النموذج هذه بالأوزان، وذلك [10:21] لأن الميزة الرئيسية لهذه النماذج هي أن الطريقة الوحيدة لتفاعل هذه [10:25] المعلمات مع البيانات التي تتم معالجتها هي من خلال المبالغ المرجحة. [10:30] يمكنك أيضًا رش بعض الوظائف غير الخطية طوال الوقت، لكنها لن تعتمد على المعلمات. [10:35] عادةً، بدلًا من رؤية المجاميع المرجحة كلها عارية ومكتوبة بشكل واضح [10:40] بهذه الطريقة، ستجدها مجمعة معًا كمكونات مختلفة في منتج متجه المصفوفة. [10:46] إنه يعني قول الشيء نفسه، إذا فكرت مرة أخرى في كيفية عمل ضرب [10:50] متجه المصفوفة، فإن كل مكون في الإخراج يبدو وكأنه مجموع مرجح. [10:54] غالبًا ما يكون من الأنظف من الناحية المفاهيمية بالنسبة لي ولكم [10:58] التفكير في المصفوفات المملوءة بمعلمات قابلة للضبط والتي تحول [11:01] المتجهات التي يتم استخلاصها من البيانات التي تتم معالجتها. [11:06] على سبيل المثال، تم تنظيم تلك الأوزان البالغ عددها 175 [11:10] مليارًا في GPT-3 في ما يقل قليلاً عن 28000 مصفوفة متميزة. [11:14] تنقسم هذه المصفوفات بدورها إلى ثماني فئات مختلفة، وما سنفعله أنا [11:18] وأنت هو المرور عبر كل واحدة من هذه الفئات لفهم ما يفعله هذا النوع. [11:23] بينما نمضي قدمًا، أعتقد أنه من الممتع الرجوع إلى الأرقام [11:27] المحددة من GPT-3 لحساب مصدر تلك الـ 175 مليارًا بالضبط. [11:31] حتى لو كانت هناك نماذج أكبر وأفضل في الوقت الحاضر، فإن هذا النموذج يتمتع بسحر [11:36] معين باعتباره نموذج اللغة الكبيرة لجذب انتباه العالم خارج مجتمعات تعلم الآلة. [11:41] ومن الناحية العملية أيضًا، تميل الشركات إلى الالتزام بأرقام محددة للشبكات الأكثر حداثة. [11:47] أريد فقط أن أبدأ المشهد، فبينما تنظر إلى أسفل الغطاء لترى ما يحدث داخل أداة مثل [11:52] ChatGPT، تبدو كل العمليات الحسابية الفعلية تقريبًا مثل مضاعفة متجهات المصفوفات. [11:57] هناك القليل من المخاطرة بالضياع في بحر مليارات الأرقام، ولكن يجب أن ترسم تمييزًا [12:02] حادًا للغاية في عقلك بين أوزان النموذج، والتي سألونها دائمًا باللون الأزرق أو الأحمر، [12:07] والبيانات التي يتم الحصول عليها تمت معالجتها، والتي سألونها دائمًا باللون الرمادي. [12:12] الأوزان هي العقول الفعلية، وهي الأشياء التي يتم [12:14] تعلمها أثناء التدريب، وهي التي تحدد كيفية تصرفه. [12:18] تقوم البيانات التي تتم معالجتها ببساطة بتشفير أي مدخلات [12:22] محددة يتم إدخالها في النموذج لتشغيل معين، مثل مقتطف من النص. [12:27] مع كل ذلك كأساس، دعونا نتعمق في الخطوة الأولى من مثال معالجة النص هذا، [12:32] وهو تقسيم المدخلات إلى أجزاء صغيرة وتحويل تلك الأجزاء إلى متجهات. [12:37] لقد ذكرت كيف تسمى هذه القطع بالرموز، والتي قد تكون أجزاء من الكلمات [12:40] أو علامات الترقيم، ولكن بين الحين والآخر في هذا الفصل وخاصة في الفصل [12:44] التالي، أود فقط أن أتظاهر بأنها مقسمة بشكل أكثر وضوحًا إلى كلمات. [12:48] نظرًا لأننا نحن البشر نفكر بالكلمات، فإن هذا سيجعل من [12:51] الأسهل بكثير الرجوع إلى أمثلة صغيرة وتوضيح كل خطوة. [12:55] يحتوي النموذج على مفردات محددة مسبقًا، وقائمة من كل الكلمات الممكنة، [12:59] على سبيل المثال 50000 منها، والمصفوفة الأولى التي سنواجهها، والمعروفة [13:03] باسم مصفوفة التضمين، تحتوي على عمود واحد لكل كلمة من هذه الكلمات. [13:08] هذه الأعمدة هي التي تحدد المتجه الذي تتحول إليه كل كلمة في تلك الخطوة الأولى. [13:15] نسميها نحن، ومثل كل المصفوفات التي نراها، تبدأ قيمها [13:18] بشكل عشوائي، ولكن سيتم تعلمها بناءً على البيانات. [13:23] كان تحويل الكلمات إلى متجهات ممارسة شائعة في التعلم الآلي قبل فترة [13:27] طويلة من المحولات، ولكنه أمر غريب بعض الشيء إذا لم يسبق لك رؤيته من [13:31] قبل، وهو يضع الأساس لكل ما يلي، لذلك دعونا نتوقف لحظة للتعرف عليه. [13:36] غالبًا ما نطلق على هذا التضمين كلمة، مما يدعوك إلى التفكير في [13:39] هذه المتجهات بشكل هندسي للغاية كنقاط في مساحة عالية الأبعاد. [13:44] لن يكون تصور قائمة من ثلاثة أرقام كإحداثيات لنقاط في مساحة ثلاثية [13:47] الأبعاد مشكلة، لكن تضمين الكلمات يميل إلى أن يكون ذو أبعاد أعلى بكثير. [13:52] في GPT-3 لديهم 12288 بُعدًا، وكما سترون، من المهم [13:56] العمل في مساحة بها الكثير من الاتجاهات المميزة. [14:01] بنفس الطريقة التي يمكنك من خلالها أخذ شريحة ثنائية الأبعاد عبر مساحة ثلاثية [14:05] الأبعاد وإسقاط جميع النقاط على تلك الشريحة، من أجل تحريك تضمينات الكلمات التي [14:10] يقدمها لي نموذج بسيط، سأفعل شيئًا مشابهًا عن طريق اختيار شريحة ثلاثية الأبعاد [14:15] عبر هذا الفضاء ذي الأبعاد العالية جدًا، وإسقاط متجهات الكلمات عليها وعرض النتائج. [14:21] الفكرة الكبيرة هنا هي أنه عندما يقوم النموذج بتعديل وضبط أوزانه لتحديد [14:25] كيفية دمج الكلمات كمتجهات أثناء التدريب، فإنه يميل إلى الاستقرار على [14:29] مجموعة من التضمينات حيث يكون للاتجاهات في الفضاء نوع من المعنى الدلالي. [14:34] بالنسبة لنموذج تحويل الكلمة إلى ناقل البسيط الذي أستخدمه هنا، إذا [14:38] قمت بإجراء بحث عن جميع الكلمات التي تكون تضميناتها أقرب إلى كلمة [14:42] برج، ستلاحظ كيف تبدو جميعها وكأنها تعطي مشاعر برجية متشابهة جدًا. [14:46] وإذا كنت تريد تعلم بعض لغة بايثون واللعب بها في المنزل، [14:48] فهذا هو النموذج المحدد الذي أستخدمه لصنع الرسوم المتحركة. [14:51] إنه ليس محولاً، لكنه يكفي لتوضيح فكرة أن الاتجاهات في الفضاء يمكن أن تحمل معنى دلاليًا. [14:58] أحد الأمثلة الكلاسيكية على ذلك هو أنه إذا أخذت الفرق بين المتجهات [15:03] الخاصة بالمرأة والرجل، وهو شيء يمكن أن تتخيله كمتجه صغير يربط [15:08] طرف أحدهما بطرف الآخر، فهو مشابه جدًا للفرق بين الملك والرجل ملكة. [15:15] لنفترض أنك لا تعرف كلمة ملكة أنثى، يمكنك العثور عليها عن طريق أخذ الملك، [15:20] وإضافة اتجاه المرأة-الرجل، والبحث عن التضمينات الأقرب إلى تلك النقطة. [15:27] على الأقل نوعا ما. [15:28] على الرغم من كونه مثالًا كلاسيكيًا للنموذج الذي ألعب به، فإن التضمين الحقيقي [15:32] للملكة هو في الواقع أبعد قليلاً عما قد يوحي به هذا، ربما لأن الطريقة التي [15:36] يتم بها استخدام الملكة في بيانات التدريب ليست مجرد نسخة أنثوية من الملك. [15:41] وعندما تجولت في الأمر، بدا أن العلاقات الأسرية توضح الفكرة بشكل أفضل بكثير. [15:46] النقطة المهمة هي أنه يبدو أثناء التدريب أن النموذج وجد أنه من المفيد اختيار [15:50] التضمينات بحيث يقوم اتجاه واحد في هذا الفضاء بتشفير المعلومات المتعلقة بالجنس. [15:56] مثال آخر هو أنك إذا أخذت تضمين إيطاليا، وطرحت تضمين ألمانيا، وأضفت [16:02] ذلك إلى تضمين هتلر، فستحصل على شيء قريب جدًا من تضمين موسوليني. [16:08] يبدو الأمر كما لو أن النموذج تعلم ربط بعض الاتجاهات [16:11] بالهوية الإيطالية، وأخرى بقادة محور الحرب العالمية الثانية. [16:16] ربما المثال المفضل لدي في هذا السياق هو كيف أنه في بعض النماذج، إذا أخذت الفرق [16:21] بين ألمانيا واليابان، وأضفته إلى السوشي، فسينتهي بك الأمر قريبًا جدًا من النقانق. [16:27] أيضًا أثناء لعب لعبة العثور على أقرب الجيران، سررت برؤية مدى قرب كات من الوحش والوحش. [16:34] أحد الأمور الرياضية البديهية التي من المفيد أن نأخذها في الاعتبار، خاصة في [16:39] الفصل التالي، هو كيف يمكن اعتبار المنتج النقطي لمتجهين وسيلة لقياس مدى توافقهما. [16:44] من الناحية الحسابية، تتضمن المنتجات النقطية ضرب جميع المكونات المقابلة ثم إضافة [16:49] النتائج، وهو أمر جيد، نظرًا لأن الكثير من حساباتنا يجب أن تبدو وكأنها مبالغ مرجحة. [16:55] هندسيًا، يكون حاصل الضرب النقطي موجبًا عندما تشير المتجهات إلى اتجاهات متشابهة، [17:00] ويكون صفرًا إذا كانت متعامدة، ويكون سالبًا عندما تشير إلى اتجاهات متعاكسة. [17:06] على سبيل المثال، لنفترض أنك كنت تلعب بهذا النموذج، وتفترض أن تضمين [17:11] القطط ناقص القطة قد يمثل نوعًا من اتجاه التعددية في هذا الفضاء. [17:17] لاختبار ذلك، سأأخذ هذا المتجه وأحسب حاصل ضربه النقطي مقابل تضمينات بعض [17:22] الأسماء المفردة، ومقارنته مع نواتج الضرب النقطية مع أسماء الجمع المقابلة. [17:27] إذا تلاعبت بهذا، ستلاحظ أن الجمع يبدو أنه يعطي دائمًا قيمًا أعلى [17:31] من القيم المفردة، مما يشير إلى أنها تتماشى أكثر مع هذا الاتجاه. [17:37] ومن الممتع أيضًا أنه إذا أخذت هذا المنتج النقطي مع تضمينات الكلمات [17:41] 1، 2، 3، وما إلى ذلك، فإنها تعطي قيمًا متزايدة، لذا يبدو الأمر [17:45] كما لو أننا نستطيع قياس كمي مدى عثور النموذج على كلمة معينة. [17:50] مرة أخرى، يتم تعلم تفاصيل كيفية تضمين الكلمات باستخدام البيانات. [17:54] إن مصفوفة التضمين هذه، التي تخبرنا أعمدتها بما [17:56] يحدث لكل كلمة، هي أول كومة من الأوزان في نموذجنا. [18:00] باستخدام أرقام GPT-3، يبلغ حجم المفردات على وجه التحديد 50257، ومرة أخرى، [18:04] لا يتكون هذا من الناحية الفنية من كلمات في حد ذاتها، بل من الرموز المميزة. [18:10] بُعد التضمين هو 12,288، وبضرب ذلك يخبرنا أن هذا يتكون من حوالي 617 مليون وزن. [18:18] دعونا نمضي قدمًا ونضيف هذا إلى حصيلة جارية، متذكرين [18:21] أنه في النهاية يجب أن نحصي ما يصل إلى 175 مليارًا. [18:25] في حالة المحولات، أنت تريد حقًا أن تفكر في المتجهات الموجودة [18:28] في مساحة التضمين هذه على أنها لا تمثل مجرد كلمات فردية. [18:32] لسبب واحد، أنها تقوم أيضًا بتشفير معلومات حول موضع تلك الكلمة، وهو ما سنتحدث عنه [18:37] لاحقًا، ولكن الأهم من ذلك، يجب أن تفكر فيها على أنها تتمتع بالقدرة على استيعاب السياق. [18:43] على سبيل المثال، قد يتم سحب وسحب المتجه الذي بدأ حياته كدمج لكلمة "ملك" [18:49] بواسطة كتل مختلفة في هذه الشبكة، بحيث يشير في النهاية إلى اتجاه أكثر [18:54] تحديدًا ودقة والذي يشفر بطريقة أو بأخرى. كان ملكًا عاش في اسكتلندا، وقد [18:59] وصل إلى منصبه بعد قتل الملك السابق، ويتم وصفه باللغة الشكسبيرية. [19:05] فكر في فهمك لكلمة معينة. [19:08] يتم تحديد معنى هذه الكلمة بوضوح من خلال البيئة المحيطة، وفي بعض الأحيان يتضمن [19:13] ذلك السياق من مسافة بعيدة، لذلك عند تجميع نموذج لديه القدرة على التنبؤ [19:18] بالكلمة التي تأتي بعد ذلك، فإن الهدف هو تمكينه بطريقة ما من دمج السياق بكفاءة. [19:24] لكي نكون واضحين، في تلك الخطوة الأولى، عندما تقوم بإنشاء مجموعة من المتجهات [19:28] بناءً على نص الإدخال، يتم انتزاع كل واحد منها ببساطة من مصفوفة التضمين، لذلك [19:32] في البداية يمكن لكل واحد فقط تشفير معنى كلمة واحدة بدون أي مدخلات من محيطه. [19:37] لكن يجب أن تفكر في الهدف الأساسي لهذه الشبكة التي تتدفق من خلالها على أنه تمكين كل واحد [19:43] من تلك المتجهات من استيعاب معنى أكثر ثراءً وتحديدًا مما يمكن أن تمثله مجرد كلمات فردية. [19:49] يمكن للشبكة معالجة عدد ثابت فقط من المتجهات في [19:51] المرة الواحدة، وهو ما يُعرف بحجم السياق الخاص بها. [19:54] بالنسبة لـ GPT-3، تم تدريبه بحجم سياق يبلغ 2048، وبالتالي فإن البيانات المتدفقة عبر [19:59] الشبكة تبدو دائمًا مثل هذه المجموعة المكونة من 2048 عمودًا، يحتوي كل منها على 12000 [20:04] بُعدًا. [20:05] يحد حجم السياق هذا من مقدار النص الذي يمكن للمحول دمجه عند التنبؤ بالكلمة التالية. [20:12] وهذا هو السبب في أن المحادثات الطويلة مع بعض برامج الدردشة [20:15] الآلية، مثل الإصدارات الأولى من ChatGPT، غالبًا ما أعطت شعورًا [20:18] بأن الروبوت يفقد خيط المحادثة مع استمرارك لفترة طويلة جدًا. [20:23] سنتناول تفاصيل الاهتمام في الوقت المناسب، ولكن بالتخطي [20:25] للأمام، أريد أن أتحدث لمدة دقيقة عما يحدث في النهاية. [20:29] تذكر أن الناتج المطلوب هو توزيع احتمالي على جميع الرموز المميزة التي قد تأتي بعد ذلك. [20:35] على سبيل المثال، إذا كانت الكلمة الأخيرة هي "بروفيسور"، وكان [20:39] السياق يتضمن كلمات مثل "هاري بوتر"، وقبل ذلك مباشرة نرى المعلم [20:43] الأقل تفضيلًا، وأيضًا إذا أعطيتني بعض الحرية من خلال السماح لي بالتظاهر [20:47] بأن الرموز تبدو ببساطة وكأنها كلمات كاملة، إذن من المفترض أن تقوم الشبكة [20:51] المدربة جيدًا والتي اكتسبت المعرفة بهاري بوتر بتخصيص رقم كبير لكلمة Snape. [20:56] وهذا ينطوي على خطوتين مختلفتين. [20:58] الأول هو استخدام مصفوفة أخرى تقوم بتعيين المتجه الأخير في هذا السياق [21:03] إلى قائمة مكونة من 50000 قيمة، واحدة لكل رمز مميز في المفردات. [21:08] ثم هناك دالة تعمل على تطبيع هذا إلى توزيع احتمالي، تسمى Softmax وسنتحدث عنها [21:13] أكثر خلال ثانية واحدة فقط، ولكن قبل ذلك قد يبدو غريبًا بعض الشيء استخدام [21:18] هذا التضمين الأخير فقط للتنبؤ، عندما بعد كل شيء، في تلك الخطوة الأخيرة، هناك [21:23] الآلاف من المتجهات الأخرى في الطبقة الموجودة هناك مع معانيها الغنية بالسياق. [21:28] يتعلق هذا بحقيقة أنه في عملية التدريب يتبين أن الأمر أكثر كفاءة إذا استخدمت كل [21:34] واحد من تلك المتجهات في الطبقة النهائية للتنبؤ في نفس الوقت بما سيأتي بعده مباشرة. [21:40] هناك الكثير مما يمكن قوله عن التدريب لاحقًا، لكني أريد فقط أن أذكر ذلك الآن. [21:45] تسمى هذه المصفوفة بمصفوفة Unembedding ونعطيها التسمية WU. [21:50] مرة أخرى، مثل جميع مصفوفات الوزن التي نراها، تبدأ [21:52] إدخالاتها بشكل عشوائي، ولكن يتم تعلمها أثناء عملية التدريب. [21:56] للحفاظ على النتيجة في إجمالي عدد المعلمات لدينا، تحتوي مصفوفة إلغاء التضمين هذه على [22:01] صف واحد لكل كلمة في المفردات، وكل صف يحتوي على نفس عدد العناصر مثل بُعد التضمين. [22:06] إنها تشبه إلى حد كبير مصفوفة التضمين، فقط مع تبديل الترتيب، لذا فهي تضيف 617 مليون [22:11] معلمة أخرى إلى الشبكة، مما يعني أن عددنا حتى الآن يزيد قليلاً عن مليار، وهو جزء [22:16] صغير ولكنه ليس ضئيلًا تمامًا من الـ 175 مليارًا التي لدينا. سوف ينتهي في المجموع. [22:22] كدرس صغير أخير في هذا الفصل، أريد أن أتحدث أكثر عن وظيفة [22:26] softmax هذه، لأنها تظهر لنا مرة أخرى عندما نغوص في كتل الانتباه. [22:31] الفكرة هي أنه إذا كنت تريد أن تعمل سلسلة من الأرقام كتوزيع [22:35] احتمالي، مثل التوزيع على جميع الكلمات التالية المحتملة، فيجب [22:39] أن تكون كل قيمة بين 0 و1، وتحتاج أيضًا إلى جمعها جميعًا حتى 1 . [22:45] ومع ذلك، إذا كنت تلعب لعبة تعليمية حيث يبدو كل ما تفعله مثل الضرب بمصفوفة [22:50] ومتجه، فإن المخرجات التي تحصل عليها افتراضيًا لا تلتزم بهذا على الإطلاق. [22:55] غالبًا ما تكون القيم سالبة، أو أكبر بكثير من 1، ومن المؤكد تقريبًا ألا يكون مجموعها 1. [23:00] Softmax هي الطريقة القياسية لتحويل قائمة عشوائية من الأرقام إلى توزيع صالح بطريقة [23:06] تجعل القيم الأكبر تنتهي الأقرب إلى 1، والقيم الأصغر تنتهي قريبة جدًا من 0. [23:11] هذا كل ما تحتاج إلى معرفته حقًا. [23:13] لكن إذا كنت فضوليًا، فإن الطريقة التي يتم بها الأمر هي أولاً رفع e إلى قوة كل رقم، [23:18] وهو ما يعني أن لديك الآن قائمة من القيم الموجبة، وبعد ذلك يمكنك جمع كل تلك القيم [23:23] الموجبة وتقسيمها كل مصطلح بهذا المبلغ، مما يؤدي إلى تطبيعه في قائمة تضيف ما يصل إلى 1. [23:30] ستلاحظ أنه إذا كان أحد الأرقام في المدخلات أكبر بكثير من الباقي، [23:34] ففي المخرجات، يهيمن المصطلح المقابل على التوزيع، لذلك إذا كنت [23:38] تأخذ عينات منه فمن المؤكد تقريبًا أنك تختار المدخلات القصوى. [23:42] ولكنه أكثر ليونة من مجرد اختيار الحد الأقصى، بمعنى أنه عندما تكون [23:46] القيم الأخرى كبيرة بشكل مماثل، فإنها تحصل أيضًا على وزن ذي معنى في [23:50] التوزيع، وكل شيء يتغير بشكل مستمر حيث تقوم باستمرار بتغيير المدخلات. [23:55] في بعض المواقف، مثل عندما يستخدم ChatGPT هذا التوزيع لإنشاء كلمة [23:59] تالية، هناك مساحة لقليل من المرح الإضافي عن طريق إضافة القليل من [24:04] الإثارة الإضافية إلى هذه الوظيفة، مع إضافة ثابت t إلى مقام تلك الأسس. [24:09] نحن نسميها درجة الحرارة، لأنها تشبه بشكل غامض دور درجة الحرارة في بعض معادلات الديناميكا [24:15] الحرارية، والتأثير هو أنه عندما تكون t أكبر، فإنك تعطي وزنًا أكبر للقيم الأقل، مما يعني [24:21] أن التوزيع يكون أكثر تجانسًا قليلاً، وإذا إذا كان t أصغر، فإن القيم الأكبر سوف تهيمن [24:26] بقوة أكبر، حيث في الحالة القصوى، تعيين t يساوي الصفر يعني أن كل الوزن يذهب إلى القيمة [24:32] القصوى. [24:33] على سبيل المثال، سأطلب من GPT-3 إنشاء قصة بالنص الأساسي، ذات [24:38] مرة كان هناك A، لكنني سأستخدم درجات حرارة مختلفة في كل حالة. [24:43] درجة الحرارة صفر تعني أنها تتوافق دائمًا مع الكلمة الأكثر [24:47] توقعًا، وما تحصل عليه في نهاية المطاف هو مشتق مبتذل من المعتدل. [24:53] تمنحك درجة الحرارة المرتفعة فرصة لاختيار كلمات أقل احتمالية، ولكنها تنطوي على مخاطرة. [24:58] في هذه الحالة، تبدأ القصة بشكل أكثر أصالة، حول فنان ويب [25:02] شاب من كوريا الجنوبية، لكنها سرعان ما تتحول إلى هراء. [25:06] من الناحية الفنية، لا تسمح لك واجهة برمجة التطبيقات (API) باختيار درجة حرارة أكبر من 2. [25:11] لا يوجد سبب رياضي لذلك، إنه مجرد قيد تعسفي مفروض [25:15] لمنع أدواتهم من الظهور وهي تولد أشياء لا معنى لها. [25:19] لذا، إذا كنت فضوليًا، فإن الطريقة التي تعمل بها هذه الرسوم المتحركة في الواقع هي [25:24] أنني آخذ الـ 20 رمزًا التاليًا الأكثر احتمالية التي ينشئها GPT-3، والذي يبدو [25:28] أنه الحد الأقصى الذي سيعطونه لي، ثم أقوم بتعديل الاحتمالات بناءً على على الأس 15. [25:33] كمصطلح آخر، بنفس الطريقة التي يمكنك من خلالها تسمية مكونات مخرجات هذه [25:37] الدالة بالاحتمالات، غالبًا ما يشير الأشخاص إلى المدخلات على أنها سجلات، [25:41] أو يقول بعض الأشخاص سجلات، ويقول بعض الأشخاص سجلات، سأقول سجلات . [25:46] على سبيل المثال، عندما تقوم بتغذية بعض النصوص، فإن كل هذه الكلمات المضمنة [25:50] تتدفق عبر الشبكة، وتقوم بإجراء هذا الضرب النهائي باستخدام مصفوفة إلغاء [25:54] التضمين، وسيشير الأشخاص الذين يتعلمون الآلة إلى المكونات الموجودة في [25:57] هذا الناتج الأولي غير الطبيعي باسم اللوجيستات للتنبؤ بالكلمة التالية. [26:03] كان الكثير من الهدف في هذا الفصل هو وضع الأسس لفهم [26:06] آلية الانتباه، أسلوب طفل الكاراتيه الشمع على الشمع. [26:10] كما ترى، إذا كان لديك حدس قوي لتضمين الكلمات، ولسوفت ماكس، لكيفية قياس المنتجات [26:16] النقطية للتشابه، وكذلك الفرضية الأساسية التي مفادها أن معظم الحسابات يجب أن تبدو [26:21] مثل ضرب المصفوفات بمصفوفات مليئة بالمعلمات القابلة للضبط، ثم فهم الاهتمام يجب أن [26:26] تكون هذه الآلية، وهي حجر الزاوية في الطفرة الحديثة في الذكاء الاصطناعي، سلسة نسبيًا. [26:32] لذلك، تعال وانضم إلي في الفصل التالي. [26:36] بينما أنشر هذا، تتوفر مسودة الفصل التالي للمراجعة من قبل مؤيدي Patreon. [26:41] من المفترض أن يتم نشر النسخة النهائية للعامة خلال أسبوع أو أسبوعين، ويعتمد ذلك [26:44] عادةً على مقدار التغيير الذي سأقوم به في نهاية المطاف بناءً على تلك المراجعة. [26:47] في هذه الأثناء، إذا كنت تريد التعمق في الاهتمام، [26:50] وإذا كنت تريد مساعدة القناة قليلاً، فهي تنتظرك.