رقم 2: ما تحتاج إلى معرفته عن خوارزميات التعلم الآلي ولماذا يجب أن تهتم

هذا هو الجزء 2 من البرنامج التعليمي المكون من 6 أجزاء ، دليل PM خطوة بخطوة لبناء المنتجات القائمة على التعلم الآلي.

ناقشنا سابقًا نوع التأثير التجاري الذي يمكن أن يكون لـ ML. الآن ، دعنا نراجع جميع المصطلحات التقنية التي تحتاج إلى معرفتها للعمل بشكل فعال مع فريق علوم البيانات ومساعدتهم على إحداث أكبر تأثير على عملك (أو على الأقل يبدو وكأنك تعرف ما يتحدثون عنه).

الخوارزميات والنماذج والبيانات

على المستوى المفاهيمي ، نقوم ببناء آلة ستعطي مجموعة معينة من المدخلات مخرجات معينة مرغوبة من خلال إيجاد أنماط في البيانات والتعلم منها.

من الحالات الشائعة جدًا أن تبدأ الآلة بالنظر في مجموعة معينة من المدخلات ومجموعة من المخرجات التي تتوافق مع هذه المدخلات. إنها تحدد الأنماط بينها وتخلق مجموعة من القواعد المعقدة التي يمكن تطبيقها بعد ذلك على المدخلات الجديدة التي لم ترها من قبل وتنتج المخرج المطلوب. على سبيل المثال ، بالنظر إلى المساحة المربعة والعنوان وعدد الغرف (المدخلات) ، نتطلع إلى توقع سعر بيع المنزل (الناتج). لنفترض أن لدينا بيانات عن اللقطات المربعة وعنوان وعدد الغرف في 10000 منزل ، بالإضافة إلى سعر مبيعاتها. ستقوم الآلة "بتدريب" نفسها على البيانات - أي تحديد الأنماط التي تحدد كيفية تأثير اللقطات المربعة والعنوان وعدد الغرف على سعر المنزل ، بحيث إذا قدمنا ​​له هذه المدخلات الثلاثة لمنزل لم يره من قبل ، فإنه يمكن التنبؤ بسعر المنزل.

يتمثل دور عالم البيانات في العثور على الجهاز الأمثل لاستخدامه نظرًا للمدخلات والمخرجات المتوقعة. لديها قوالب متعددة - تسمى الخوارزميات - للآلات. الآلات التي تنتجها من تلك القوالب لحل مشكلة معينة تسمى النماذج. تحتوي القوالب على خيارات وإعدادات مختلفة يمكنها تعديلها لإنتاج نماذج مختلفة من نفس القالب. يمكنها استخدام قوالب مختلفة و / أو تعديل الإعدادات لنفس القالب لإنشاء العديد من النماذج التي يمكنها اختبارها لمعرفة أيها يعطي أفضل النتائج.

لاحظ أن مخرجات النموذج صحيحة / مفيدة لصنع القرار عند درجة معينة من الاحتمال. النماذج ليست صحيحة بنسبة 100٪ ، ولكنها بالأحرى "أفضل التخمينات" نظرًا لكمية البيانات التي شاهدها النموذج. كلما زاد عدد البيانات التي شاهدها النموذج ، زادت احتمالية تقديم مخرجات مفيدة.

مجموعة المدخلات والمخرجات المعروفة التي يستخدمها عالم البيانات "لتدريب" الآلة - أي السماح للنموذج بتحديد الأنماط في البيانات وإنشاء القواعد - هي "مجموعة التدريب". يتم استخدام هذه البيانات مع "نموذج" واحد أو أكثر لإنشاء نموذج واحد أو أكثر يعتقد العلماء أن البيانات يمكن أن تعمل على حل المشكلة. تذكر أنه حتى لو استخدمت "قالبًا" واحدًا فقط (خوارزمية) ، يمكنها تعديل بعض الخيارات لإنشاء نماذج متعددة من نفس القالب ، مع إعدادات مختلفة ، لذلك من المحتمل أن تنتهي بعدة نماذج.

بعد حصولها على عدد قليل من هذه النماذج "المدربة" ، عليها أن تتحقق من مدى جودة عملها وأيها أفضل. تقوم بذلك باستخدام مجموعة جديدة من البيانات تسمى "مجموعة التحقق". تقوم بتشغيل النماذج على مدخلات مجموعة التحقق لمعرفة أيها يعطي النتائج الأقرب إلى مخرجات مجموعة التحقق. في مثالنا - أي نموذج يتنبأ بسعر المنزل الأقرب إلى السعر الفعلي الذي تم بيع المنزل من أجله. إنها بحاجة إلى مجموعة جديدة من البيانات في هذه المرحلة لأنه تم إنشاء النماذج بناءً على أدائها مع مجموعة التدريب ، لذا فهي منحازة للعمل بشكل جيد على تلك المجموعة ولن تقدم قراءة حقيقية.

بمجرد أن تتحقق من النموذج الأفضل أداءً وتختار الفائز ، يحتاج عالم البيانات لدينا إلى تحديد الأداء الفعلي لهذا النموذج ، أي مدى جودة أفضل نموذج يمكنها إنتاجه حقًا في حل المشكلة. مرة أخرى ، إنها بحاجة إلى مجموعة بيانات جديدة لأن النموذج يعمل بشكل جيد في مجموعات التدريب والتحقق - هكذا تم اختياره! تسمى مجموعة البيانات النهائية "مجموعة الاختبار". في مثالنا ، ستتحقق من مدى قرب أسعار المنازل المتوقعة لمدخلات مجموعة الاختبار من أسعار المنازل الفعلية المحددة للاختبار. سنناقش قياس الأداء بمزيد من التفاصيل في وقت لاحق.

أنواع "التعلم"

يعتمد نوع الخوارزمية التي يمكنك تطبيقها لحل مشكلة تعلُّم الآلة كثيرًا على البيانات التي لديك. يعتمد التصنيف الرئيسي لخوارزميات التعلم على البيانات المطلوبة لبناء النماذج التي تستخدمها: سواء كانت البيانات تحتاج إلى تضمين كل من المدخلات والمخرجات أو المدخلات فقط ، وعدد نقاط البيانات المطلوبة ومتى يتم جمع البيانات. ويشمل 4 فئات رئيسية: التعلم تحت الإشراف ، والتعلم غير الخاضع للرقابة ، والتعلم شبه الخاضع للإشراف ، والتعلم المعزز.

التعلم تحت الإشراف

تصف الحالة التي ناقشناها بالتفصيل في القسم السابق ما نسميه "التعلم تحت الإشراف". هذا هو نوع من التعلم حيث تحتاج الخوارزمية إلى رؤية الكثير من أمثلة البيانات المصنفة - البيانات التي تتكون من كل من المدخلات والمخرجات المقابلة ، من أجل العمل. يشير الجزء "المسمى" إلى وضع علامة على المدخلات بالنتيجة التي يحاول النموذج التنبؤ بها ، في مثال أسعار المنازل.

ترى خوارزميات التعلم تحت الإشراف البيانات المصنفة (المعروفة أيضًا باسم بيانات "الحقيقة الأساسية") ، وتعلم منها وقم بعمل تنبؤات استنادًا إلى تلك الأمثلة. تتطلب الكثير من البيانات المصنفة مقدمًا: في حين أن الرقم يعتمد على حالة الاستخدام ، فإن مئات نقاط البيانات هي الحد الأدنى للوصول إلى أي شيء مفيد عن بعد.

هناك مشكلتان كلاسيكيتان يتم حلهما من خلال التعلم تحت الإشراف هما:

  • تراجع. إن استنتاج قيمة متغير غير معروف استنادًا إلى أجزاء أخرى من البيانات التي من المنطقي أن يكون لها تأثير على هذا المتغير. هناك استخدامان شائعان للتنبؤات الزمنية في الوقت - على سبيل المثال مثالنا السابق للتنبؤ بقيمة المنزل بناءً على متغيرات مثل الموقع واللقطات المربعة ، والتنبؤ بالقيم المستقبلية - على سبيل المثال التنبؤ بقيم المنزل بعد عام من الآن استنادًا إلى قيمة المنزل التاريخية والحالية البيانات. الانحدار هو طريقة إحصائية تحدد العلاقة بين المتغيرات المستقلة (البيانات التي لديك بالفعل) والمتغير التابع الذي تتطلع إلى توقع قيمته).
  • تصنيف. تحديد الفئة التي ينتمي إليها الكيان من مجموعة معينة من الفئات. يمكن أن يكون هذا تصنيفًا ثنائيًا - على سبيل المثال تحديد ما إذا كانت المشاركة ستنتشر (نعم / لا) والتصنيف متعدد التصنيفات - على سبيل المثال تصنيف صور المنتج مع الفئة المناسبة التي ينتمي إليها المنتج (من المحتمل مئات الفئات).

تعليم غير مشرف عليه

في التعلم غير الخاضع للرقابة ، تحاول الخوارزمية تحديد الأنماط في البيانات دون الحاجة إلى وضع علامة على مجموعة البيانات بالنتيجة المرجوة. البيانات "غير مصنفة" - إنها فقط "هي" ، بدون أي تسمية ذات معنى مرتبطة بها. بعض المشاكل الكلاسيكية التي تم حلها من خلال طرق التعلم غير الخاضعة للرقابة هي:

  • تجمع. بالنظر إلى معايير تشابه معينة ، ابحث عن العناصر الأكثر تشابهًا مع بعضها البعض. أحد المجالات التي يتم فيها استخدام نظام المجموعات هو النص - فكر في نتائج البحث التي تُرجع العديد من المستندات المتشابهة جدًا. يمكن استخدام التجميع لتجميعها معًا وتسهيل التعرف على أكثر المستندات تميزًا.
  • جمعية. صنِّف الكائنات في مجموعات استنادًا إلى بعض العلاقات ، بحيث يتنبأ وجود كائن في مجموعة بوجود كائن آخر. على سبيل المثال ، مشكلة التوصية "الأشخاص الذين اشتروا ... اشتروا أيضًا ...": إذا كشف تحليل عدد كبير من عربات التسوق أن وجود المنتج X في عربة التسوق من المحتمل أن يشير إلى أن المنتج Y سيكون أيضًا في عربة التسوق ، يمكنك على الفور التوصية بالمنتج Y لأي شخص يضع المنتج X في سلة التسوق الخاصة به.
  • إكتشاف عيب خلقي. تحديد الأنماط غير المتوقعة في البيانات التي يجب الإبلاغ عنها ومعالجتها. التطبيقات القياسية هي كشف الاحتيال والمراقبة الصحية للأنظمة المعقدة. (ملاحظة: هناك تقنيات للكشف عن الحالات الشاذة الخاضعة للإشراف ، ولكن استخدام التقنيات غير الخاضعة للرقابة أمر شائع لأنه بحكم التعريف من الصعب جدًا الحصول على بيانات مصنفة للتشوهات ، وهذا شرط مسبق لاستخدام التقنيات الخاضعة للإشراف.)

التعلم شبه الخاضع للإشراف

هذا هو مزيج بين التعلم الخاضع للإشراف وغير الخاضع للرقابة ، حيث تتطلب الخوارزمية بعض بيانات التدريب ، ولكن أقل بكثير مما هو عليه في حالة التعلم الخاضع للإشراف (ربما يكون ترتيب أقل). يمكن أن تكون الخوارزميات امتدادًا للطرق المستخدمة في التعلم الخاضع للإشراف وغير الخاضع للإشراف - التصنيف والانحدار والتكتل والكشف عن الشذوذ وما إلى ذلك.

تعزيز التعلم

هنا تبدأ الخوارزمية بمجموعة محدودة من البيانات وتكتشف أنها تحصل على مزيد من التعليقات حول تنبؤاتها بمرور الوقت.

كما ترى ، بالإضافة إلى نوع المشكلة التي تحاول حلها ، فإن كمية البيانات التي لديك ستؤثر على أنواع طرق التعلم التي يمكنك استخدامها. ينطبق هذا أيضًا على الطريقة الأخرى - قد تتطلب منك طريقة التعلم التي تحتاج إلى استخدامها الحصول على بيانات أكثر مما لديك من أجل حل مشكلتك بشكل فعال. سنناقش ذلك في وقت لاحق.

غيرها من "Buzzwords" الشائعة تستحق المعرفة

هناك بعض المصطلحات الأخرى التي ستواجهها غالبًا عندما تعمل أكثر في الفضاء. من المهم فهم علاقتهم (أو عدمها) بالفئات التي ناقشناها.

التعلم العميق متعامد مع التعريفات المذكورة أعلاه. إنه ببساطة تطبيق نوع معين من النظام لحل مشاكل التعلم - يمكن الإشراف على الحل ، بدون إشراف إلخ.

الشبكة العصبية الاصطناعية (ANN) هي نظام تعليمي يحاول محاكاة الطريقة التي يعمل بها دماغنا - من خلال شبكة من "الخلايا العصبية" المنظمة في طبقات. تحتوي الشبكة العصبية كحد أدنى على طبقة إدخال - مجموعة الخلايا العصبية التي يتم من خلالها استيعاب البيانات في الشبكة ، طبقة الإخراج - الخلايا العصبية التي يتم من خلالها توصيل النتائج ، وطبقة واحدة أو أكثر بينهما ، تسمى "الطبقات المخفية" وهي الطبقات التي تقوم بالعمل الحسابي. التعلم العميق هو ببساطة استخدام الشبكات العصبية مع أكثر من طبقة خفية لإنجاز مهمة التعلم. إذا استخدمت مثل هذه الشبكات في أي وقت - تهانينا ، يمكنك أيضًا إلقاء نظرة خاطفة على الكلمة الطنانة أيضًا!

طرق المجموعة أو التعلم الجماعي هو استخدام نماذج متعددة للحصول على نتيجة أفضل مما يمكن لكل نموذج تحقيقه بشكل فردي. يمكن أن تستند النماذج على خوارزميات مختلفة أو على خوارزمية واحدة مع معلمات مختلفة. الفكرة هي أنه بدلاً من أن يكون لديك نموذج واحد يأخذ المدخلات وينتج المخرجات - لنقل تنبؤًا من نوع ما ، لديك مجموعة من النماذج التي يولد كل منها تنبؤًا ، وبعض العمليات لتقييم النتائج المختلفة وتحديد ما هو ناتج يجب أن تكون المجموعة المدمجة. تُستخدم طرق المجموعات بشكل متكرر في التعلم الخاضع للإشراف (وهي مفيدة جدًا في مشاكل التنبؤ) ولكن يمكن أيضًا تطبيقها في التعلم غير الخاضع للرقابة. من المرجح أن يقوم فريق علوم البيانات الخاص بك باختبار هذه الأساليب وتطبيقها عند الاقتضاء.

معالجة اللغة الطبيعية (NLP) هو مجال علوم الكمبيوتر الذي يتعامل مع فهم اللغة بواسطة الآلات. لا تستخدم جميع أنواع البرمجة اللغوية العصبية التعلم الآلي. على سبيل المثال ، إذا أنشأنا "علامة سحابة للعلامات" - تمثيل مرئي لعدد مرات ظهور كلمة في نص - فلن يكون هناك تعلم. غالبًا ما يتطلب التحليل والفهم الأكثر تعقيدًا للغة والنص ML. بعض الأمثلة:

  • توليد الكلمات الرئيسية. فهم موضوع نص ما وإنشاء كلمات رئيسية له تلقائيًا
  • توضيح اللغة. تحديد المعنى المناسب من التفسيرات المحتملة المتعددة لكلمة أو جملة (هذا شرح رائع مع أمثلة)
  • تحليل المشاعر. فهم أين تكمن المشاعر المعبر عنها في النص على مقياس السلبية إلى الإيجابية
  • استخراج كيان مسمى. تحديد الشركات والأشخاص والأماكن والعلامات التجارية وما إلى ذلك في النص ؛ هذا صعب بشكل خاص عندما تكون الأسماء غير مميزة (على سبيل المثال ، يسهل تحديد شركة "Microsoft" من شركة "Target" ، وهي أيضًا كلمة باللغة الإنجليزية)

لا يتم استخدام البرمجة اللغوية العصبية (NLP) فقط في التطبيقات متعددة اللغات مثل MLbots مثل برامج الدردشة. كما أنها تستخدم على نطاق واسع لإعداد البيانات ومعالجتها قبل أن تكون مدخلات مفيدة في العديد من نماذج ML. المزيد عن ذلك لاحقًا.

يرجى ملاحظة ما يلي: التعريفات المذكورة أعلاه تهدف إلى نقل الأفكار الرئيسية وتكون عملية ؛ للحصول على تعريف علمي مفصل يرجى الرجوع إلى مصادر أخرى.

كيف تؤثر المشكلة على الحل (وبعض مفاهيم ML الرئيسية الأخرى)

الهدف الاستراتيجي الذي تحاول تحقيقه باستخدام ML سيحدد العديد من القرارات النهائية. من المهم فهم بعض مفاهيم ML الأساسية وتأثيرها على أهداف عملك للتأكد من أن فريق علوم البيانات الخاص بك يمكنه تقديم الحل المناسب لعملك.

اختيار الخوارزمية

يمكن أن يعني التغيير الطفيف في تعريف المشكلة وجود خوارزمية مختلفة تمامًا لحلها ، أو على الأقل سيتم بناء نموذج مختلف مع إدخالات بيانات مختلفة. قد يستخدم موقع المواعدة الذي يتطلع إلى تحديد أنواع الصور التي تعمل بشكل جيد للمستخدمين تقنيات التعلم غير الخاضعة للرقابة مثل التجميع لتحديد الموضوعات الشائعة التي تعمل ، بينما إذا كانت المشكلة هي التوصية بالتواريخ المحتملة لشخص معين ، فقد يستخدم الموقع التعلم تحت الإشراف بناءً على المدخلات خاص بالمستخدم الفردي ، مثل الصور التي شاهدوها بالفعل.

اختيار ميزة

تحدد نماذج ML أنماط البيانات. البيانات التي تغذيها في النماذج منظمة في ميزات (تسمى أيضًا المتغيرات أو السمات): وهي أجزاء بيانات ذات صلة ومستقلة إلى حد كبير تصف بعض جوانب الظاهرة التي تحاول التنبؤ بها أو تحديدها.

خذ المثال السابق لشركة تتطلع إلى إعطاء الأولوية للتواصل مع المتقدمين للحصول على قروض. إذا حددنا المشكلة على أنها "إعطاء الأولوية للعملاء استنادًا إلى احتمالية التحويل" ، فسنقوم بتضمين ميزات مثل معدل استجابة العملاء المشابهين لأنواع الشركة المختلفة للتواصل. إذا حددنا المشكلة على أنها "إعطاء الأولوية للعملاء الأكثر احتمالًا لسداد قروضهم" ، فقد لا نقوم بتضمين تلك الميزات لأنها غير ذات صلة بتقييم احتمالية الدفع للعميل.

اختيار الوظيفة الهدف

وظيفة الهدف هي الهدف الذي تقوم بتحسينه أو النتيجة التي يحاول النموذج التنبؤ بها. على سبيل المثال ، إذا كنت تحاول اقتراح منتجات قد يكون المستخدم مهتمًا بها ، فقد يكون ناتج النموذج هو احتمال أن ينقر المستخدم على المنتج إذا شاهده. قد يكون من المحتمل أيضًا أن يشتري المستخدم المنتج. يعتمد اختيار الوظيفة الموضوعية بشكل أساسي على هدف عملك - في هذا المثال ، هل أنت مهتم أكثر بإشراك المستخدم ، وفي هذه الحالة قد تكون وظيفتك الهدف نقرات أو وقت استراحة ، أو في الإيرادات المباشرة ، وفي هذه الحالة ستكون وظيفتك الهدف المشتريات؟ الاعتبار الرئيسي الآخر هو توفر البيانات: لكي تتعلم الخوارزمية ، سيتعين عليك إطعامها العديد من نقاط البيانات "المصنفة" على أنها إيجابية (المنتجات التي شاهدها المستخدم ونقر عليها) أو سلبية (المنتجات التي شاهدها المستخدم و لم تنقر على). من المحتمل أن يكون لديك طلب بحجم أكبر لنقاط بيانات المنتجات التي تم النقر عليها (أو لم يتم النقر عليها) مقابل المنتجات التي تم شراؤها.

التفسير والتفسير

غالبًا ما يكون إخراج نماذج ML عبارة عن رقم - الاحتمالية ، والتنبؤ باحتمالية حدوث شيء ما أو أنه صحيح. في مثال توصيات المنتج ، يمكن تعيين المنتجات الموجودة على الموقع باحتمال قيام مستخدم فردي بالنقر عليها ، وسيتم عرض المنتجات ذات الاحتمال الأعلى للمستخدم. ولكن كيف تعرف أنها تعمل؟ في هذه الحالة ، من السهل نسبيًا التحقق من عمل الخوارزمية - ربما يمكنك إجراء اختبار قصير ومعرفة. ولكن ماذا لو كانت الكيانات التي تصنفها من الموظفين المحتملين واختبر نموذجك احتمالية أن يكونوا مرشحين جيدين لشركة؟ هل سيأخذ المستخدم (على سبيل المثال ، مدير التوظيف) كلمتك فقط ، أم سيتعين عليه أن يفهم لماذا صنفت الخوارزمية الشخص A قبل الشخص B؟

في كثير من الحالات سيكون لديك بعض الشرح للقيام به. ومع ذلك ، فإن العديد من خوارزميات ML هي صندوق أسود: يمكنك إدخال العديد من الميزات ، والحصول على نموذج يصعب تفسيره. غالبًا ما تكون الأنماط التي يجدها الجهاز في البيانات معقدة جدًا بحيث لا يستطيع الإنسان فهمها حتى إذا كان من السهل وضعها في الكلمات.

سنرى في الأقسام اللاحقة أن الحاجة إلى قابلية الشرح - إلى أي درجة يحتاج المستخدم النهائي إلى فهم كيفية تحقيق النتيجة ، وقابلية التفسير - إلى أي درجة يحتاج المستخدم لاستخلاص استنتاجات معينة بناءً على النتائج ، هي اعتبارًا حاسمًا في أسلوبك في النمذجة واختيار الميزات وتقديم النتائج.

النمذجة وقياس الأداء PMS مطبات يجب أن تنتبه

سيتعامل علماء البيانات الخاصة بك مع بعض المشكلات الشائعة في معالجة البيانات والنمذجة ، ولكن من أجل إجراء محادثات مثمرة معهم ، من المفيد لمديري المشاريع فهم عدد قليل من العثرات الشائعة. إنها ليست قائمة شاملة ، ولكنها تتضمن بعض المشكلات الأكثر شيوعًا التي تظهر.

المبالغة

يُقال أن النموذج "مُجهَز بشكل مفرط" عندما يتبع البيانات عن كثب لدرجة أنه ينتهي إلى وصف الكثير من الضوضاء بدلاً من العلاقة الكامنة الحقيقية داخل البيانات (انظر الشكل). بشكل عام ، إذا كانت دقة النموذج على البيانات التي تدربها بها (البيانات التي يتعلمها النموذج) أفضل بكثير من دقتها على البيانات التي تتحقق من صحتها واختبارها ، فقد تكون لديك حالة من التلاعب .

التوضيح overfitting

الدقة والاستدعاء والتبادل بينهما

هناك مصطلحان محيران للغاية في المرة الأولى التي تسمع فيها ، ولكن من المهم أن تفهم تمامًا حيث أن لها آثارًا تجارية واضحة.

غالبًا ما يتم قياس دقة التصنيف (وتقنيات ML الأخرى شائعة الاستخدام مثل استرداد المستندات) بمقياسين رئيسيين: الدقة والاستدعاء. تقيس الدقة حصة التنبؤات الإيجابية الحقيقية من بين جميع التوقعات الإيجابية التي ولّدتها الخوارزمية ، أي النسبة المئوية للتنبؤات الإيجابية الصحيحة. إذا كانت الدقة X٪ ، فإن X٪ من تنبؤات الخوارزمية الإيجابية هي نتائج إيجابية حقيقية و (100-X)٪ هي نتائج إيجابية خاطئة. بعبارة أخرى ، كلما زادت الدقة ، كلما كانت الإيجابيات الأقل خطأً.

الاستدعاء هو حصة التوقعات الإيجابية من بين جميع الإيجابيات الحقيقية في البيانات - أي النسبة المئوية من الإيجابيات الحقيقية في البيانات التي تمكنت الخوارزمية من تحديدها على أنها إيجابية. إذا كان الاستدعاء هو X٪ ، فقد تم تحديد X٪ من الإيجابيات الحقيقية في البيانات بواسطة الخوارزمية على أنها إيجابية ، بينما تم تحديد (100-X)٪ على أنها سلبية (خاطئة). وبعبارة أخرى ، كلما زاد الاستدعاء ، كلما قلت السلبيات الكاذبة.

هناك دائمًا مفاضلة بين الدقة والاستدعاء. إذا كنت لا تريد أي إيجابيات خاطئة - أي أنك تحتاج إلى دقة أعلى ، فإن الخوارزمية سيكون لها المزيد من السلبيات الكاذبة ، أي استدعاء أقل ، لأنها "تفضل" تصنيف شيء ما على أنه سلبي من وصفه خطأ بأنه إيجابي ، و والعكس صحيح. هذه المقايضة هي قرار عمل. خذ مثالاً على طلب القرض: هل تفضل أن تلعبه بأمان وتقبل فقط المتقدمين الذين أنت متأكد تمامًا من قبولهم ، مما يزيد من فرص رفض بعض العملاء الجيدين (دقة أعلى ، استدعاء أقل = إيجابيات أقل كاذبة ، سلبية أكثر كاذبة) ، أو قبول المزيد من المتقدمين للحصول على قروض يجب رفضهم ولكن لا تخاطر بفقدان العملاء الجيدين (استدعاء أعلى ولكن دقة أقل = سلبيات أقل كاذبة ، أكثر إيجابية) على الرغم من أنه يمكنك القول ببساطة أن هذه مشكلة تحسين ، إلا أنه غالبًا ما تكون هناك عوامل يجب وضعها في الاعتبار لا يمكن قياسها بسهولة مثل معنويات العملاء (على سبيل المثال ، سيكون العملاء المرفوضون بشكل غير عادل غاضبًا وصوتًا) ، فإن مخاطر العلامة التجارية (مثل سمعتك كمكتتب تعتمد على انخفاض معدل التخلف عن سداد القرض) ، والالتزامات القانونية ، وما إلى ذلك ، مما يجعل هذا عملًا كبيرًا ، وليس علم بيانات ، قرار

مقياس دقة النموذج المضلل غالبًا

دقة النموذج وحدها ليست مقياسًا جيدًا لأي نموذج. تخيل مرضًا بمعدل الإصابة 0.1٪ في السكان. النموذج الذي يقول أنه لا يوجد مريض مصاب بالمرض بغض النظر عن المدخلات دقيق بنسبة 99.9 ٪ ، ولكنه عديم الفائدة تمامًا. من المهم دائمًا مراعاة كل من الدقة والاستدعاء وموازنتها وفقًا لاحتياجات العمل. الدقة هي مقياس جيد عندما يكون توزيع النتائج المحتملة متماثلًا تمامًا وأهمية الإيجابيات الكاذبة والسلبيات الكاذبة هي أيضًا متساوية ، وهو نادرًا ما يحدث.

حساب متوسط ​​المقاييس وبيانات التدريب غير المتوازنة

عندما تتعامل مع شرائح متعددة يجب على النموذج معالجتها ، فأنت بحاجة إلى إلقاء نظرة على مقاييس الأداء لكل شريحة (أو على الأقل الأجزاء المهمة) بشكل منفصل. خذ على سبيل المثال نموذج تصنيف يصنف الصور في واحدة من مجموعة من الفئات حسب نوع الحيوان في الصورة. قد لا تعكس أرقام الدقة / الاستدعاء الإجمالية للنموذج حالة تكون فيها بعض الفئات ذات دقة عالية ، بينما تتمتع الأخرى بدقة منخفضة جدًا. يحدث هذا عادة عندما يكون لديك خلل في بيانات التدريب الخاصة بك - لنفترض أن لديك 1000 صورة مصنفة للقطط والكلاب و 10 صور فقط للدببة. قد تكون الدقة العامة عالية جدًا نظرًا لأن معظم صور القطط والكلاب سيتم تصنيفها بشكل صحيح ، في حين أن جميع الدببة يتم تعريفها بشكل خاطئ لأن النموذج لا يحتوي على بيانات مرتبطة بها. إذا كانت هذه الفئات الأقل تكرارًا مهمة لنشاطك التجاري ، فقد تحتاج إلى جهد متضافر للحصول على بيانات التدريب لهم لجعل نموذجك يعمل بشكل جيد في جميع المجالات.

حسنًا - كان هذا طويلًا جدًا ، ولكن آمل أن يكون لديك الآن فهم جيد لجميع الأساسيات التقنية. بعد ذلك ، سنمر بعملية تفصيلية خطوة بخطوة لتطوير نموذج من التفكير إلى الإطلاق في الإنتاج.

إذا وجدت هذا المنشور مثيرًا للاهتمام ، فهل يرجى النقر على القلب الأخضر أدناه لإخباري أو مشاركته مع شخص آخر قد يجده مفيدًا؟ سيجعل هذا يومي تمامًا!