أهمية استخدام بيانات عالية الجودة وغير منحازة في نظم الذكاء الاصطناعي
ينبغي تصميم نظم الذكاء الاصطناعي بحيث تستخدم بيانات عالية الجودة وغير منحازة، وذلك لمنع الانحيازات والنتائج التمييزية. البيانات عالية الجودة والكاملة هي بيانات تمثيلية وتقلل من فرص الانحياز. فجودة نظام الذكاء الاصطناعي هي ببساطة بقدر جودة البيانات المدخلة إليه. ومن ثم، فتنظيف حزم البيانات التدريبية من الافتراضات الواعية وغير الواعية حول النوع والعرق والمفاهيم الأيديولوجية الأخرى من شأنه أن يمكن المنظمة من تطوير نظام ذكاء اصطناعي يصنع قرارات غير منحازة مبنية على البيانات. إضافة إلى ذلك تضمن البيانات غير المنحازة أن تعمل تطبيقات الذكاء الاصطناعي بطريقة منصفة وموضوعية، مما يؤدي إلى تطبيقات منفتحة لا تستبعد أحدا. على سبيل المثال، ينبغي ألا تعطي نظم الذكاء الاصطناعي أفضلية لأي جماعة من المستخدمين على غيرها، وينبغي تجنب إصدار قرارات لا يمكن للبشر تبريرها بقدر كاف.
كيف يمكن للبيانات المنحازة أن تؤدي إلى نتائج تمييزية
يمكن إرجاع الانحياز إلى عدد ضخم من العوامل منها الافتقار إلى بيانات تمثيلية أو إعادة توجيه نظام ذكاء اصطناعي للاستخدام في سياق تطبيق مختلف عن السياق الذي تم تدريب النظام فيه في البداية. ومن الجدير بالذكر أن الذكاء البشري عرضة لصور متنوعة من الانحيازات بما في ذلك الانحياز للوهم، والانحياز الدعم للاختيار. وبالمثل، ليست نظم الذكاء الاصطناعي مختلفة عن البشر بهذا الخصوص. عندما يتم تدريبها في سياق بيانات غير تمثيلية أو منحازة تكون أميل لإنتاج قرارات واختيارات غير موضوعية. ويشير ذلك إلى أن العديد من خبراء الذكاء الاصطناعي وعلماء البيانات يطورون أنظمة منحازة دون قهم ما بها من مشاكل والعواقب المترتبة على استخدامها. ويمكن تصنيف النظم المنحازة إلى نوعين عامين وهما: نظم منحازة بسبب البيانات، ونظم منحازة لأسباب مجتمعية.
النظم المنحازة بسبب البيانات تعني أن تكون خوارزميات الذكاء الاصطناعي منحازة بسبب تدريبها باستخدام بيانات غير تمثيلية. ويؤدي ذلك إلى نظم منحازة تصنع قرارات تمييزية وخاطئة. على جانب آخر، النظم المنحازة لأسباب مجتمعية تعني تطوير آليات ذكاء اصطناعي بطريقة تُضمن الانحيازات القائمة في صنعها للقرارات، وذلك بسبب بناء تطويرها على نظم تقليدية منحازة. ومن ثم، تخلق النظم المنحازة بشكل غير متعمد بعدة طرق:
الانحياز التاريخي: يمكن لحزم البيانات التاريخية الضخمة والتي تحتوي قرارات منحازة أن تؤدي إلى انحياز تاريخي عند استخدامها لتطوير نظم الذكاء الاصطناعي. على سبيل المثال، تدريب خوارزمية للتوظيف للمدراء القدامى في شركات التكنولوجيا من خلال بيانات توظيف قديمة يمكن أن يؤدي إلى نظام تعلم آلة منحاز جندريا. وهذا نظرا لحقيقة أن شركات التكنولوجيا تفضل المرشحين من الذكور على نظرائهم من النساء.
الانحياز التمثيلي: البيانات التي تتجاهل قطاعات بأكملها من السكان، تؤدي عند استخدامها لتدريب نظم الذكاء الاصطناعي إلى الانحياز التمثيلي. على سبيل المثال، استخدام بيانات من مواقع التواصل الاجتماعي ومن تطبيقات المدينة لتدريب نظم المدن الذكية لتقديم الخدمات إلى المواطنين يؤدي إلى خوارزميات لا تضع في اعتبارها احتياجات المواطنين ذوي الدخل المحدود. تلك الجماعات ليست من المستخدمين النشطين لتطبيقات الإنترنت؛ ومن ثم، فمن المرجح أن يكون تمثيلهم متدن في حزم البيانات التي تجمعها نظم الذكاء الاصطناعي.
الانحياز التجميعي: يمكن للبيانات التي تجمع حزم البيانات من جماعات سكانية ومصادر متنوعة، أن تؤدي عند استخدامها لتدريب نظم الذكاء الاصطناعي إلى انحياز تجميعي. على سبيل المثال، خوارزميات الذكاء الاصطناعي لتخمين وتشخيص الأمراض يمكن تدريبها على حزم بيانات متنوعة من قواعد بيانات مواطنين أمريكيين وآسيويين وأوروبيين. هذا أمر شائع لحزم البيانات الضخمة التي يمكنها تمرين الشبكات العصبية الاصطناعية. ويستخدم نظام الذكاء الاصطناعي المطور لاحقا لتخمين وتشخيص الأمراض لأي جماعة سكانية، ولكن النتائج ستكون منحازة لجماعة الأغلبية في حزمة البيانات المجمعة.
انحياز الغرض/النشر: يمكن لنظام تم تطويره وتدريبه لغرض بعينه، ولكنه استخدم لغرض أن آخر أن يسهم في انحياز النشر. أحد الأمثلة هو تدريب نظام ذكاء اصطناعي للتنبؤ بالسلوك المستقبلي لسجين، ثم استخدامه بعد عدة سنوات بهدف تقييم ما إذا كان من المناسب خفض مدة عقوبته. يؤدي هذا إلى انحياز غرض أو نشر، حيث أن تصميم النظام وتطويره لم يكونا من عوامل هذا الاستخدام اللاحق له.
أمثلة لتسبب البيانات المنحازة في نتائج تمييزية
خوارزمية العمل الشرطي التنبؤي PredPol: هذا مثال للبيانات المنحازة التي أدت إلى نتائج تمييزية ضد الأقليات. فالخوارزمية تهدف إلى التنبؤ بالموقع الذي ستحدث به جرائم في المستقبل بناء على بيانات الجريمة التي جمعتها الشرطة، بما في ذلك عدد مكالمات الشرطة في الموقع وعدد حالات التوقيف. تستخدم أقسام البوليس الأمريكية في ميريلاند، كاليفورنيا هذه الخوارزمية بالفعل لتقليل الانحياز البشري في أقسام الشرطة من خلال ترك التنبؤ بالجرائم للذكاء الاصطناعي. ولكن الباحثين الأمريكيين اكتشفوا الانحياز المتضمن في الخوارزمية، حيث أنها أرسلت رجال الشرطة إلى مناطق بعينها يعيش بها عدد كبير من الأقليات العرقية بعض النظر عن عدد الجرائم التي وقعت في هذه المناطق. كان ذلك نتيجة لدورة تغذية راجعة في الخوارزمية حيث تنبأت بجرائم أكثر في المناطق التي صدر عنها تقارير شرطة أكثر. على عكس ذلك، ثمة فرصة لأن يكون العدد الكبير من تقارير الشرطة الصادرة عن هذه المناطق راجع لكثافة وجود رجال الشرطة فيها، ربما بسبب الانحياز البشري القائم.
خوارزمية إيديميا IDEMIA للتعرف على الوجوه: إيديميا هي منظمة تطور خوارزميات التعرف على الوجوه والتي تستخدمها قوات إنفاذ القانون في فرنسا، والولايات المتحدة، وأستراليا. يحلل هذا النظام للتعرف على الوجوه ما يقرب من 30 مليون صورة رسمية في الولايات المتحدة لفحص ما إذا كان شخص ما مجرما أو يمثل تهديدا للمجتمع. فحص المعهد الوطني للمعايير القياسية والتكنولوجيا الخوارزمية، مما أدى إلى الكشف عن أنها قد وقعت في أخطاء فادحة في التعرف على النساء السود أكثر من النساء البيض. وأثبت المعهد أن خوارزمية إيديميا قد أنتجت مطابقات زائفة لنساء أمريكيات من أصول إفريقية بمعدل 10 أضعاف أكثر. وتعتبر خوارزميات التعرف على الوجوه مقبولة بصفة عامة إذا ما كان معدل المطابقات الزائفة لها حوالي مرة لكل 10,000، ولكن المطابقة الزائفة التي اكتشفت للنساء من أصول إفريقية كانت أعلى.
توصيات لضمان استخدام بيانات عالية الجودة وغير منحازة في أنظم الذكاء الاصطناعي
عمليات النشر لكشف الانحيازات: ينبغي على المنظمات أن تنشر عمليات نشر منهجية لكشف الانحياز خلال مراحل تصميم وتطوير النظام.
تخفيف أثر الانحيازات وإزالتها: بعد الكشف عن الانحياز، ينبغي على الشركات أن تحدد الخطوات التي يجب اتخاذها للتخفيف من أثر الانحياز أو التخلص منه. ومن ثم، ينبغي تحديد وتنفيذ عملية واضحة ومدققة لتخفيف أثر الانحياز. على سبيل المثال يمكن جمع وتضمين مزيد من البيانات، إزالة البيانات التجميعية، أو تحسين معدل وجودة القياس الذي تقوم به أداة ما.
الالتزام التنظيمي: ينبغي أن يكون من الممكن إجراء تدقيقات خارجية لأمن وموثوقية، وجدارة نظم الذكاء الاصطناعي. ستكون مثل هذه التدقيقات مهمة بشكل ملحوظ في البيئات عالية المخاطر، حيث تكون حياة البشر أو حتى الموارد المالية في خطر. إضافة إلى ذلك، يمكن للتدقيقات الخارجية أن تكشف انحيازات ممكنة وأن توصي بآليات ذكاء اصطناعي لتخفيف أثرها ومعالجتها.