كيف يتم تدريب شات GPT؟

اذا كنت على دراية بـ ChatGPT ، فربما سمعت أنه تم تدريبه على مجموعة ضخمة من البيانات. ولكن ماذا يعني هذا بالضبط؟ في هذه المقالة، سنتناول تفاصيل مدى تدريب ChatGPT "

ChatGPT هو نموذج لغوي مدرَّب مسبقًا تم ضبطه من خلال مزيج من تقنيات التعلم المشرَّف والتعزيز. شمل عملية تدريب ChatGPT إدخال كمية كبيرة من بيانات النص في النموذج وضبط معلماته بحيث يمكنه إنتاج نص مشابه للنص في مجموعة البيانات التدريبية.

تم استخدام نهج التعلم غير المشروط لهذه العملية، مما يعني أن الموديل لم يتلق تغذية راجعة صريحة حول ما إذا كان النص الذي تم إنتاجه صحيحًا أم غير صحيح. بدلاً من ذلك، يقوم الموديل بضبط معالمه بناءً على احتمالية أن يكون النص الذي تم إنتاجه مشابهًا للنص الموجود في النص التدريبي.

يعد GPT-3، النموذج الأم لـ ChatGPT-3، واحدًا من أكبر النماذج اللغوية التي تم إنشاؤها على الإطلاق، مع 175 مليارًا من المعالم وسياقًا طويلًا بـ 2048 رمزًا. تم تدريبه على مئات المليارات من الكلمات من Common Crawl، WebText2، Books1/2، Wikipedia باللغة الإنجليزية، وأمثلة على رموز CSS و JSX و Python وغيرها من لغات البرمجة.

تعتمد طريقة التدريب المستخدمة لـGPT-3 على البرمجة التدريبية التوليدية ، مما يعني أنه تم تدريبها للتنبؤ بالرمز أو الكلمة التالية في جملة الإدخال.

أفضل بديل لشات جي بي تي

تعلُّم مراقب

تمّ تهيئة نموذج ChatGPT من خلال عملية تعلّم مراقبة من مدرّبين بشريّين. قام هؤلاء المدرّبين بمحادثات وشغلوا دوري المستخدم والمساعد الذكي في الوقت ذاته.

تمنحهم النموذج بعض الاقتراحات لتوجيههم ومساعدتهم في صياغة الردود، التي يتم خلطها مع مجموعة بيانات InstructGPT وتحويلها إلى تنسيق الحوار.

تعلُّم تعزيزي

تم تحسين النموذج بشكل أكبر من خلال التعلم التعزيزي باستخدام تحسين السياسة القريبة (PPO). وقد قام المدربون البشريون بتقييم الردود التي يولدها النموذج من محادثة سابقة واستخدموا هذه التقييمات لتطوير نماذج الجوائز. تم ضبط النموذج بعد ذلك استنادًا إلى هذه النماذج الجوائز.

تم عدة مرات إجراء عملية الضبط الدقيق لتحقيق أداء أفضل. تعتبر خوارزميات PPO فعالة من حيث التكلفة مقارنة بالخوارزميات الأخرى ولديها أداء أسرع، مما يجعلها مثالية لهذه العملية.

تواصل OpenAI جمع المعلومات من المستخدمين الذين يتفاعلون مع ChatGPT، والتي يمكن استخدامها لتعزيز وتحسين النموذج بشكل أكبر.

يمتلك المستخدمون خيار التصويت على ردود ChatGPT بإمكانية الإيجابية أو السلبية، ويمكنهم أيضًا تقديم تعليقات إضافية. يتم استخدام هذه البيانات لتحسين أداء النموذج بشكل أكبر وجعله أفضل في إنتاج نصوص تشبه البشر.

البيانات المستخدمة لتدريب النموذج

ChatGPT-3 هو نموذج لغوي معدل من سلسلة GPT-3.5 ، تم تدريبه باستخدام بنية تحتية للحوسبة السحابية. تم تدريبه على كمية كبيرة جدًا من النصوص التي تم جمعها من الإنترنت ، بما في ذلك الكتب ومنتديات الدردشة والمقالات والمواقع والأوراق الأكاديمية والشفرات البرمجية ومصادر أخرى.

تم استخدام جسم النصوص البيانية الذي يستخدم لتدريب ChatGPT-3 بحجم أكثر من 45 تيرابايت ، وهو حجم ضخم للغاية ويساهم في قدرة النموذج على إنتاج نصوص مشابهة لتلك التي قد ينتجها صحفي أو كاتب.

كيف يتم تدريب Chat GPT؟

تعلُّم مراقب

تعلُّم تعزيزي

البيانات المستخدمة لتدريب النموذج

المقالات ذات الصلة