نماذج الذكاء الاصطناعي اللغوية: الأخطار وإجراءات الأمان

يوليو 17, 2023|الذكاء الاصطناعي

مقدمة

على الرغم من أن النماذج اللغوية Language Models، وهي إحدى أهم تكنولوجيات الذكاء الاصطناعي، قد طُورت واستُخدمت في عديد من التطبيقات منذ سنوات، إلا أنها قد اجتذبت انتباه الرأي العام حول العالم بشكل كبير منذ نهاية العام الماضي وعلى وجه التحديد في 30 نوفمبر 2022، تاريخ إصدار شركة أوبن-إيه-آي OpenAI تطبيق المحادثة تشات-جي-بي-تي ChatGPT.

أحدث صدور تشات-جي-بي-تي ثورة ضخمة في علاقة المجتمع البشري بتكنولوجيا الذكاء الاصطناعي بشكل عام والنماذج اللغوية بشكل خاص. يعد تشات-جي-بي-تي أول تطبيق يتيح للمستخدم العادي التعامل مع تكنولوجيا بهذا القدر من التطور. فتح أيضًا تشات-جي-بي-تي الباب أمام عدد غير محدود من سبل استخدام النماذج اللغوية لعدد لا نهائي من الأغراض، بالإضافة إلى أن إصداره أشعل منافسة ساخنة انجرت إليها شركات التكنولوجيا الكبرى التي كانت مترددة في إصدار تطبيقات شبيهة للذكاء الاصطناعي لاعتبارات مختلفة وفي مقدمتها شركة جوجل Google. أدى ذلك إلى تسابق تلك الشركات إلى إصدار تكنولوجيات شبيهة أكثر قدرة في مدى زمني بالغ القصر. وإضافة إلى إصدار الجيل الرابع من تكنولوجيا جي-بي-تي نفسها GPT-4 يوجد اليوم تطبيقات لكل من مايكروسوفت Bing-AI (مبني على نسخة معدلة من GPT-4) وجوجل Bard، وأنثروبيك Claude.

ما هي النماذج اللغوية؟

النماذج اللغوية هي نوع من الذكاء الاصطناعي يركز على فهم وخلق ومعالجة اللغة الطبيعية Natural Language Processing. تتدرب النماذج اللغوية على قدر ضخم من البيانات النصية وتقوم بتحليلها لتتعلم الأنماط الإحصائية والبنى الهيكلية للغة مما يمكنها من التنبؤ بالنصوص وإنتاجها بناء على السياق المعطى لها. تُطور النماذج اللغوية من خلال تكنولوجيا نمذجة اللغة Language Modelling وهي استخدام تقنيات علم الإحصاء وعلم الاحتمالات لتحديد مدى احتمال أن يظهر تعاقب بعينه من الكلمات في جملة.

ثمة عدد كبير من تطبيقات النماذج اللغوية منها ترجمة النصوص بين اللغات المختلفة، بما في ذلك الترجمة الفورية؛ تحليل الشعور البشري من خلال النص المكتوب وهو ما يمكن استخدامه لأغراض قياس الرأي العام، ومدى رضا العملاء عن الخدمات والسلع، والتوجهات السائدة على شبكات التواصل الاجتماعي؛ تلخيص النصوص؛ إجابة الأسئلة من خلال قاعدة معرفية معطاة لها، تطبيقات المحادثة والمساعدين الافتراضيين؛ صنع المحتوى وإنتاج نصوص مماثلة لما ينتجه البشر لأغراض شتى مثل كتابة المقالات، والرسائل التسويقية، والرسائل الشخصية؛ التعرف على الحديث المسموع وإنتاجه بما في ذلك تطوير تطبيقات للتحكم الصوتي وأنظمة تحويل النصوص المكتوبة إلى كلام منطوق؛ إضافة إلى أن تكون أساسًا لتطبيقات ومهام متعدد لمعالجة اللغة الطبيعية.

التطور المسؤول عن الوصول إلى نقطة التحول التاريخي التي نعيشها اليوم بدأ بتطوير النماذج اللغوية الضخمة Large language models. تعتمد هذه النماذج على استخدام الشبكات العصبية الاصطناعية Artificial Neural Networks، والذي أدى إلى أن تتغلب هذه النماذج على بعض من المعوقات التي حالت دون أن تنتج تنبؤات دقيقة. التغلب على بقية المعوقات تحقق عندما نجح باحثون بشركة جوجل في عام 2017 من تطوير بنية أو نموذج المحول Transformer. باستخدام هذه التكنولوجيا الجديدة أمكن تطوير نماذج لغوية ضخمة مثل بِرت BERT، وإكس-إل-نت XLNet. هذه النماذج أمكن استخدامها لأغراض مختلفة مثل إجابة الأسئلة وتحليل اللغة الطبيعية وتحليل المشاعر البشرية من خلال النصوص المكتوبة، وتصنيف الوثائق. لكن تلك النماذج لم تكن توليدية Generative، بمعنى أنها في حين كانت قادرة على تصنيف المحتوى والتمييز بين تفاصيله إلا أنها لم تكن قادرة على إنتاج محتوى أصلي جديد. هذه الخطوة أنجزها باحثو أوبن-إيه-آي في عام 2018 عندما طوروا تكنولوجيا المحول التوليدي سابق-التدريب Generative Pre-trained Transformer أو جي-بي-تي GPT. بالإضافة إلى كونه مبني على تكنولوجيا المحول فنموذج جي-بي-تي يُدرب مسبقًا على حزمة بيانات ضخمة وهو قادر على إنتاج محتوى شبيه بما ينتجه البشر.

هذه الخواص هي التي تميز كافة النماذج اللغوية الضخمة سواء التي أنتجتها أوبن-إيه-آي أو غيرها من الشركات. التطور التالي للنماذج اللغوية تعلق تحديدًا بحجمها، وهو ما يقاس بقيمة رئيسية هي عدد المتغيرات التي يمكن بواسطتها رفع دقة استنتاج الكلمات التالية (أو عناصر الصورة أو الصوت أو الفيديو) في عملية التوليد. ففي حين كان عدد المتغيرات في أول نموذج لأوبن-إيه-آي GPT-1 هو 117 مليون متغير، ارتفع الرقم في النموذج التالي لأوبن-إيه-آي GPT-2 إلى 1.5 مليار متغير عام 2019، ثم إلى 17 مليار متغير في نموذج تورينج إن-إل-جي الذي أنتجته مايكروسوفت عام 2020. وفي نفس العام طورت أوبن-إيه-آي نموذجها الثالث GPT-3 والذي بلغ عدد متغيراته 175 مليار متغير. هذا العام أصدرت أوبن-إيه-آي الجيل الرابع GPT-4 ويبلغ عدد متغيراته 170 بليون متغير.

ما المقصود بأخطار النماذج اللغوية؟

بقدر ما أن النماذج اللغوية تفتح الباب أمام عدد لا نهائي من التطبيقات التي من شأنها أن تحدث ثورة في الإنتاجية وتحسين الحياة اليومية لمئات الملايين من البشر إلا أنها تنطوي أيضًا على عديد من الأخطار التي يمكن أن تتسبب في إيذاء الأفراد والمجتمعات والمؤسسات وإحداث خسائر كبيرة لهم. وذلك نظرًا للطريقة التي يتم بها تطوير هذه النماذج والاعتبارات الكثيرة التي يمكن اغفالها خلال ذلك، بالإضافة إلى العيوب في البيانات المستخدمة لتدريبها، وكذلك انفتاحها على سبل مختلفة من الاستخدام الذي قد يكون مسيئًا بشكل أو بآخر.

يمكن للنماذج اللغوية أن تنتج محتوى منحاز أو تمييزي أو أن تروج لخطاب كراهية، كما أنها قد تمثل تهديدًا للحق في الخصوصية، ولأمن البيانات، والمعلومات الشخصية، والحساسة. قد تزداد أخطار النماذج اللغوية بناء على ظروف عدة تتعلق بسياسات الشركات المنتجة لها، مثل افتقاد الشفافية وعدم تقديم إيضاحات كافية عن حدود قدرات هذه النماذج وطريقة عملها، وعدم إحكام التصميم بما يضمن أن تكون النماذج اللغوية موثوقة بالقدر الكافي، وعدم الاهتمام بتصفية بيانات التدريب وتقييمها، وعدم إعطاء دور كاف للإشراف البشري على عملية التدريب، وكذلك عدم الالتزام الكافي بالاعتبارات القانونية والأخلاقية.

بناء على ما سبق، تكتسب إجراءات الحماية والأمان في المراحل المختلفة لتطوير وإصدار واستخدام النماذج اللغوية أهمية كبيرة. وفي حين تقع على شركات التكنولوجيا المطورة لهذه النماذج المسؤولية الرئيسية لتطوير وتطبيق إجراءات الحماية والأمان فثمة مسؤولية مهمة تقع على عاتق المؤسسات التشريعية والتنفيذية للدول لضمان التزام هذه الشركات بذلك. كذلك ثمة مسؤولية تقع على المستخدم، سواء كان فردًا أو مؤسسة، لضمان عدم إساءة استخدام هذه النماذج دون قصد وكذلك لحماية البيانات الشخصية والحساسة. وقبل كل ذلك ثمة مسؤولية عامة تتعلق بالتعرف على كل من الأخطار المحتملة لاستخدام النماذج اللغوية وإجراءات الحماية والأمان الواجب توافرها لتجنب هذه الأخطار أو التقليل من احتمالية وقوعها. في ظل الأهمية البالغة التي تكتسبها النماذج اللغوية في حياتنا اليومية الآن بشكل متسارع لا ينبغي بأي حال التهوين من أخطارها الواقعية والملموسة أو التقاعس عن الاهتمام باستخدام كافة السبل المتاحة لتجنب هذه الأخطار.

هذه الورقة

الغرض من هذه الورقة هو إتاحة قدر مناسب من المعلومات حول النماذج اللغوية والأخطار المتعلقة باستخدامها كوسيلة لرفع الوعي بهذه الأخطار بما يُمَكِن المستخدمين من أن يكونوا على معرفة بالمعايير الواجب توافرها في النماذج اللغوية التي يستخدمونها ليكون استخدامهم لها آمنًا بأكبر قدر ممكن.

لتحقيق ذلك تسعى الورقة إلى تقديم صورة مختصرة، ولكن شاملة لأهم الأخطار المتعلقة باستخدام النماذج اللغوية، خاصة وأن بعضًا من أقواها أصبح متاحًا للاستخدام العام، وهو أمر مرشح للتوسع مع تضمين هذه النماذج في العديد من المنتجات التي يستخدمها مليارات المستخدمين حول العالم بصفة يومية. تقدم الورقة في مقدمتها تعريفًا بالنماذج اللغوية وأهم المحطات التاريخية لتطورها، ثم تقدم في الأقسام التالية أخطار النماذج اللغوية من خلال ثلاث مجالات رئيسية وهي أخطار التمييز والانحياز، وأخطار تهديد الحق في الخصوصية، والأخطار الناتجة عن عدم إحكام بناء النماذج اللغوية، ثم تطرح الورقة أهم سبل التعامل مع هذه الأخطار.

أخطار النماذج اللغوية

ثمة العديد من الأخطار الكامنة في استخدام النماذج اللغوية. ويمكن حسب دراسة أصدرها باحثون بشركة ديب-مايند DeepMind تصنيف هذه الأخطار تحت ستة مجالات رئيسية هي:

التمييز والإقصاء والمناخ السام: يقصد بها إنتاج النماذج اللغوية لمحتوى يميز ضد مجموعات وفئات مجتمعية على أساس النوع الاجتماعي، العرق، الأصل، الديانة، الأيديولوجيا السياسية، التوجه الجنسي أو غير ذلك، وينجم عن ذلك إقصاء أفراد هذه المجموعات أو الفئات وإشاعة مناخ سام.
الأخطار المتعلقة بالمعلومات: يشمل ذلك خرق سرية المعلومات، وتسريبها، وما يستتبعه من تهديد للحق في الخصوصية.
الأخطار المتعلقة بالمعلومات الكاذبة: يمكن للنماذج اللغوية أن تنتج معلومات زائفة، كما يمكن توجيهها لإنتاج محتوى زائف يضر بسمعة الأفراد أو المؤسسات أو يستخدم لأغراض الدعاية السياسية أو غير ذلك.
الاستخدام المسيء: إضافة إلى الاستخدام المسيء للنماذج اللغوية في إنتاج محتوى زائف كما سبقت الإشارة فبالإمكان استخدامها في عمليات الاحتيال وتنفيذ هجمات سيبرانية وغير ذلك.
أخطار تتعلق بالتفاعل بين الحاسوب والمستخدم: يمكن أن تنشئ النماذج اللغوية روابط نفسية مع المستخدم تجعل تمييزه لكونها مجرد برمجيات تعمل على الحاسوب يتشوش، وهو ما قد يصل إلى دفع المستخدم للقيام بأفعال تؤذيه أو تؤذي غيره.
أخطار تتعلق بالأتمتة، إمكانية الوصول، والبيئة: تنذر النماذج اللغوية بإمكانية أتمتة عدد هائل من المهام التي يؤديها حاليًا موظفون بشريون، وهو ما يُتوقع معه فقدان ملايين من البشر وظائفهم في السنوات القادمة. مع قدر الموارد الضخم التي تحتاجه النماذج اللغوية لتطويرها وتدريبها وتشغيلها ثمة إمكانية لحرمان أعداد كبيرة من إمكانية الوصول إليها مما يؤدي إلى اتساع الفجوات القائمة فعليًا سواء على أساس جغرافي أو اقتصادي أو اجتماعي. وأخيرًا استهلاك النماذج اللغوية لموارد ضخمة من الطاقة يضيف نسبة ملحوظة من الانبعاثات المتسببة في التغير المناخي والضارة بالبيئة.

التحيز والتمييز

تعتمد النماذج اللغوية في مخرجاتها على البيانات التي تدربت عليها ومن ثم فالانحياز والتمييز في بيانات التدريب له أثر كبير في أن تُعبِر مخرجات النماذج اللغوية بدورها عنهما. ينتج التحيز في مخرجات النماذج اللغوية عن مصادر عدة منها طبيعة البيانات المستخدمة في تدريب النموذج، المواصفات الفنية للنموذج، المحددات التي تفرضها الخوارزميات التي يتكون منها النموذج، تصميم المنتج الذي يقدم النموذج من خلاله (لغة البرمجة، الواجهات البرمجية المستخدمة إلخ)، وسياسات الشركات المنتجة وقراراتها المبنية عليها.

الانحياز التمثيلي: عندما تكون مجموعات أو فئات مجتمعية ممثلة أقل مما ينبغي وأخرى ممثلة بشكل مبالغ فيه في بيانات التدريب يمكن للنموذج اللغوي أن ينتج مخرجات لا تعبر بالقدر الكافي عن تنوع التوجهات والآراء، بل تعبر عن انحياز وتمييز ضد بعض هذه التوجهات والآراء.

انحياز التحامل: يمكن أن تحتوي بيانات التدريب على محتوى تمييزي ومتحامل وهو ما تتعلمه النماذج اللغوية فتعيد بدورها إنتاج محتوى ينطوي على تمييز وتحامل ضد بعض الفئات في المجتمع مما يؤدي إلى أن تشارك في ترويج وتكريس التصورات النمطية المؤذية واللغة التمييزية والمحتوى المسيء.

انحياز التأكيد: ويقصد به أن تحتوي بيانات التدريب بشكل غالب معلومات تدعم وجهة نظر أو اعتقاد محددين ومن ثم تكون النماذج اللغوية أميل إلى تأكيد توجه أو منظور بعينه حتى إذا قُدِم لها معلومات بديلة أو مناقضة، وهو ما يحد من تنوع الأفكار ويعوق التفكير النقدي.

الانحياز الزمني: يقصد به أن تحتوي بيانات التدريب على معلومات تنتمي في معظمها إلى فترة زمنية بعينها مما يؤدي إلى أن تتعلم النماذج اللغوية أنماطًا لاستخدام اللغة والعادات والمعتقدات التي لم تعد ذات صلة بالواقع المعاش أو لم تعد مقبولة في المجتمع الحالي. يؤدي ذلك إلى أن تنتج النماذج محتوى غير متوافق مع القيم والعادات واللغة السائدة حاليًا.

انحياز القياس: ويقصد به أن تُجمع بيانات التدريب أو يتم تعريفها بطريقة منحازة، ومن ثم يتعلم النموذج اللغوي أن يعطي الأولوية لخصائص وأنماط لا تمثل التوزيع الحقيقي في البيانات. وقد يؤدي هذا إلى أن تكون مخرجاته مائلة نحو خواص ومميزات معينة تنتج توقعات وتوصيات منحازة.

في ظل الدور الكبير الذي من المتوقع أن تقوم به النماذج اللغوية في المستقبل القريب كمصادر بالغة الأهمية للمعلومات للمستخدم العادي بصفة يومية ومن خلال عدد لا يحصى من التطبيقات فإن أي انحياز أو تمييز في مخرجاتها سيكون له أثر اجتماعي كبير في دعم تحيزات بعينها ورفع معدلات التمييز ضد فئات بعينها. قد يؤدي إلى عواقب تصل إلى رفع معدلات جرائم الكراهية والعنف العنصري أو الطائفي أو العنف ضد النساء ومجتمع الميم والمهاجرين، إلخ.

أخطار خرق الخصوصية في تدريب واستخدام النماذج اللغوية

يمكن للنماذج اللغوية أن تتسبب في عديد من المخاوف المتعلقة ببيانات المستخدمين وعملية تدريب النموذج، بعض من المخاوف الرئيسية يتضمن:

تسريب البيانات: خلال عملية التدريب تتعرض النماذج اللغوية لقدر هائل من البيانات النصية التي قد تتضمن معلومات حساسة أو معلومات يمكن من خلالها التعرف على هوية صاحبها. وإذا حفظ النموذج هذه المعلومات دون قصد فقد يقوم بكشف معلومات شخصية أثناء توليده للنصوص عند استخدامه.
هجمات استنتاج البيانات: يمكن أن يستخدم المهاجمون مخرجات النموذج اللغوي لاستنتاج معلومات حساسة عن بيانات التدريب. على سبيل المثال يمكنهم إدخال استبيانات معينة إلى النموذج وتحليل ردوده لاستنباط معلومات عن البيانات التي تدرب عليها.
الوصول غير المشروع: إذا كانت الواجهة البرمجية للنموذج اللغوي أو التطبيق الذي يُقدَم من خلاله ليس لهما التأمين الكافي يمكن لمستخدمين غير مصرح لهم بالوصول إلى النموذج أن يتمكنوا من ذلك وأن يقوموا باستغلاله لأغراض خبيثة مثل توليد محتوى ضار أو استخراج معلومات حساسة.
الانحياز والتمييز: في حين أن تلك أخطار مستقلة بذاتها إلا أنها تتداخل مع أخطار الخصوصية حيث إن استنتاج معلومات شخصية عن المستخدم تكشف هويته يمكن أن تكون مقدمة لتوجيه محتوى منحاز وتمييزي ومسيء.
إساءة استخدام المحتوى المنتج: المحتوى الذي تنتجه النماذج اللغوية يمكن استخدامه لأغراض خبيثة مثل إنتاج محتوى زائف ونشر معلومات غير صحيحة أو إعداد هجمات هندسة اجتماعية، وذلك كله باستغلال معلومات شخصية يمكن الحصول عليها أو استنتاجها من مدخلات المستخدمين وخرق خصوصيتهم.

هجمات الهندسة العكسية

هجمات الهندسة العكسية للنماذج اللغوية هي نوع من الهجمات التي تخترق الخصوصية والتي يحاول فيها منفذها أن يعيد بناء أو يستنتج المعلومات الحساسة في بيانات تدريب النموذج اللغوي من خلال متغيراته أو مخرجاته. وتمثل هذه الهجمات تهديدًا محتملًا لخصوصية الأفراد الذين استُخدِمت بياناتهم خلال عملية التدريب.

تتضمن أخطار هجمات الهندسة العكسية للنماذج اللغوية كل من:

في حال نجاح الهجوم يمكن كشف معلومات حساسة أو معلومات يمكن التعرف على هوية أشخاص من خلالها في بيانات التدريب وهو ما يؤدي إلى اختراق للخصوصية.
اختراقات الخصوصية الناتجة عن هجمات الهندسة العكسية للنماذج اللغوية يمكن أن تؤدي إلى عواقب قانونية وتنظيمية للمؤسسات بما في ذلك توقيع غرامات والإضرار بالسمعة.

أخطار عدم إحكام بناء النماذج اللغوية

النماذج اللغوية هي برمجيات بالغة التعقيد ويمر تطوير كل منها بمراحل متعددة ومن ثم فهي عرضة لأن يكون بها مواطن ضعف يمكن أن تؤثر بشكل بالغ الخطورة في عمل النموذج وما يمكن أن تؤدي إليه مخرجاته من نتائج قد تكون كارثية في بعض الحالات. ثمة على وجه التحديد مجالين يمثلان مصدرًا للمخاوف في هذا الإطار، وهما الهجمات العدائية والتخصص المفرط للنموذج اللغوي.

يقصد بالهجمات العدائية هو تصميم المدخلات المقدمة للنموذج اللغوي بطريقة تسعى إلى خداعه أو إرباكه بحيث ينتج مخرجات غير دقيقة. ويمكن لهذه الهجمات أن تكشف مواطن الضعف في النموذج اللغوي لاستغلالها، وبصفة خاصة يمكنها التوصل إلى خرق سبل الأمان المتضمنة في تصميم النموذج وتجبره على عدم الالتزام بها تمهيدًا لإساءة استخدامه لأغراض إجرامية منها الحصول على معلومات لتصنيع متفجرات، أو مواد مخدرة ،أو أسلحة كيميائية، أو تنفيذ هجمات سيبرانية واسعة النطاق، أو غير ذلك.

التخصص المفرط ينتج عن تعلم النموذج اللغوي أن يؤدي مهام بعينها بكفاءة استثنائية على بيانات التدريب، ولكنه يفشل في تعميم ما تعلمه ليشمل البيانات التي لم يسبق له الاطلاع عليها. ويشمل ذلك أن يحفظ النموذج بعضًا من بيانات التدريب وهو ما قد يؤدي إلى خرق للخصوصية عندما يقوم بتضمين هذه البيانات في مخرجاته، كما يشمل ذلك أيضًا أن ينتج النموذج مخرجات تبدو صحيحة، ولكنها في الحقيقة غير دقيقة وغير عقلانية وهو ما يطلق عليه هلوسة الذكاء الاصطناعي، وذلك لأن النموذج يحاول فرض البيانات التي حفظها في سياق غير متصل بها.

التعامل مع أخطار النماذج اللغوية للحد منها

سبل الكشف عن الانحياز والحد منه أثناء تدريب وتقييم النماذج اللغوية

يتطلب التعامل مع الانحيازات في النماذج اللغوية تطبيق إجراءات لكل من الكشف عن هذه الانحيازات والحد منها خلال مراحل تدريب وتقييم هذه النماذج، وثمة العديد من السبل لتحقيق ذلك:

التأكد من أن تكون بيانات التدريب متنوعة وتمثل المجموعات ووجهات النظر وأنماط استخدام اللغة المختلفة، وكذلك السعي بشكل دائب للوصول إلى مصادر للبيانات المعبرة عن وجهات النظر الأقل تمثيلًا.
تحديد وإزالة أو التخفيف من حدة المحتوى المنحاز أو المسيء أو التمييزي في بيانات التدريب، واستخدام تكتيكات مثل تصفية الكلمات المفتاحية أو نمذجة الموضوعات الأقرب لأن يكون المحتوى المتعلق بها منحازاً للكشف عن الانحيازات المحتملة والتعامل معها.
استخدام خوارزميات معدة للتعامل المنصف، أو عمليات تعاقب الاستنتاجات المنحازة خلال عملية التدريب، واستخدام تكتيكات مثل التدريب المضاد أو إعادة اختيار العينات لتقليل أثر الانحيازات في بيانات التدريب على النموذج اللغوي.
قياس ومراقبة مؤشرات الإنصاف خلال مرحلة تقييم النموذج بما في ذلك المساواة الديموجرافية والحظوظ المتساوية للمخرجات المتنوعة، وكذلك مقارنة أداء النموذج عبر مجموعات ديموجرافية مختلفة للكشف عن الانحيازات المحتملة.
تطبيق تكتيكات ما بعد المعالجة لضبط مخرجات النموذج والحد من الانحيازات، بما في ذلك استخدام مؤشرات لتخطي حدود معينة أو إعادة ترتيب الخيارات المختلفة، وكذلك استخدام تكتيكات تساعد على إبراز الانحيازات لكشفها.
استخدام الوسائل المختلفة لترجمة طريقة عمل النموذج اللغوي والتي تساعد على فهم العوامل المؤدية لظهور الانحيازات في مخرجاته، وكذلك استخدام وسائل إنتاج إيضاحات مفهومة لمخرجات النموذج للمساعدة على كشف الانحيازات المحتملة والتعامل معها.
توسيع مجال التدخل البشري من خلال الاستعانة بخبراء في مراحل تطوير وتقييم النموذج للتعرف على الانحيازات التي قد لا يكون بإمكان الطرق الآلية كشفها بسهولة، وكذلك تضمين تعليقات المستخدمين لتحسين النموذج وتوفيقه مع القيم والتوقعات المجتمعية.
مراقبة وتقييم مؤشرات أداء وإنصاف النموذج بشكل منتظم في ظروف الاستخدام الواقعية، وتحديث النموذج وبيانات التدريب حسب الحاجة للتعامل مع الانحيازات الطارئة أو التغيرات في العادات وأنماط استخدام اللغة المجتمعية.

سبل التعامل مع الأخطار المتعلقة بالخصوصية

للحد من المخاوف المتعلقة بالخصوصية يمكن أن يتخذ مطورو النماذج اللغوية العديد من إجراءات الأمان ومنها:

تجهيل البيانات: حيث ينبغي إزالة أو تجهيل المعلومات الحساسة وتلك التي يمكن ربطها بهوية أصحابها في بيانات تدريب النموذج اللغوي لتقليل أخطار تسريب البيانات.
استخدام تكتيك الخصوصية التفاضلية: يمكن باستخدام هذا التكتيك تعمية البيانات الحساسة بخلطها ببيانات غير ذات صلة بها لجعل إمكانية استخراج البيانات الحساسة أقل والوصول إليها أكثر صعوبة.
التحكم في إمكانية الوصول: ينبغي تأمين الواجهة البرمجية للنموذج اللغوي وأي تطبيق مبني عليه بوسائل تحكم ملائمة لمنع الوصول غير المصرح به إلى البيانات.
المراجعة والتحديث المنتظمين: ينبغي مراقبة وتحديث النماذج اللغوية بصفة مستمرة لمعالجة أي مخاوف طارئة متعلقة بالخصوصية وأية انحيازات أو نقاط ضعف.
الشفافية والحصول على موافقة المستخدم: ينبغي إخطار المستخدمين بالأخطار المحتملة المتعلقة بالخصوصية والمتصلة باستخدام النماذج اللغوية والحصول على موافقتهم قبل معالجة البيانات الخاصة بهم.

التعامل مع هجمات الهندسة العكسية

تشمل الإجراءات المضادة لهجمات الهندسة العكسية للنماذج اللغوية ما يلي:

تجهيل البيانات بإزالة أو تجهيل المعلومات الحساسة أو تلك التي يمكن من خلالها التعرف على هوية أصحابها في بيانات التدريب للحد من أخطار تسريب البيانات.
استخدام تقنية الخصوصية التفاضلية والتي تعتمد على إضافة بيانات تضليلية لمخرجات النموذج تجعل من الصعب على منفذ الهجوم إعادة بناء البيانات الأصلية.
تعميم النموذج بتدريبه على أخذ البيانات التي لم يطلع عليها في الاعتبار بدلًا من حفظ الحالات الخاصة في بيانات التدريب. ويمكن تحقيق ذلك بتكتيكات مثل انتظام البيانات والوقف المبكر لعملية التدريب ودمج البيانات.
استخدام تكتيك اختزال النموذج لخلق نموذج أصغر وأقل تعقيدًا والذي يحتفظ بأداء النموذج الأصلي وفي نفس الوقت يكون أقل عرضة لهجمات الهندسة العكسية لأنه أقل تعقيدًا.
المراجعة والتحديث بشكل دوري مع مراقبة النموذج للتعامل مع أي مخاوف تتعلق بالخصوصية ونقاط الضعف أو الانحيازات.

التعامل مع أخطار عدم إحكام بناء النماذج اللغوية

ثمة أهمية كبيرة للتعامل مع أخطار عدم إحكام بناء النماذج اللغوية حيث إن نتائجها قد تكون بالغة الخطورة حسب السياق الذي قد يُستَخدم فيه النموذج، ومن بين سبل التعامل مع هذه الأخطار ما يلي:

التدريب العدائي: والمقصود به استخدام أمثلة لمدخلات شبيهة بالمستخدم في عمليات الهجوم العدائي وتدريب النموذج على عدم الانخداع بها.
تقنيات التنظيم: تشمل تقنيات مثل حذف بعض بيانات التدريب بعد فترة من الوقت، وتقليل أوزان البيانات الداخلة في التدريب مع الوقت أو الوقف المبكر لعملية التدريب لتجنب التخصص المفرط والمساعدة على تحسين القدرة على التعميم.
ضبط النموذج لأداء مهام محددة: يشمل ذلك ضبط أداء النموذج باستخدام بيانات متعلقة بمهام محددة لتحسين أدائه وقدرته على التوافق مع مجالات جديدة.
المراقبة والتقييم: ويشمل مراقبة أداء النموذج اللغوي بشكل مستمر أثناء عمله الفعلي على مهام واقعية وتقييم إحكامه في مواجهة الهجمات المحتملة.

خاتمة

النماذج اللغوية وتطبيقاتها المختلفة قد تكون أهم صور البرمجيات التي اتيحت للاستخدام العام وأكبرها من حيث قدراتها وما يمكنها أداءه وتحقيقه. مئات الملايين من البشر حول العالم قد بدأوا بالفعل في استخدام هذه البرمجيات الفائقة، سواء لأغراض البحث والتعلم وتحسين أداء مهام العمل وإنتاج الأعمال الإبداعية أو لأغراض التسلية وإزجاء الوقت أو إرضاء الفضول. ثمة أيضًا من بدأ استخدام هذه النماذج لأغراض إجرامية. والمؤكد أن استخدام هذه النماذج في جميع هذه الأغراض وفي المزيد منها سيتزايد في المستقبل القريب ليكون بإمكان مليارات البشر استخدامها بصفة يومية بوعي أو حتى بدون وعي لأنها ستدخل في بناء عديد من التطبيقات مثل محركات البحث وبرامج معالجة النصوص وبرامج الجداول وبرامج تحرير الرسوميات والصور الفوتوجرافية، وعدد لا حصر له من التطبيقات والبرامج الأخرى. كل ذلك يجعل من التعرف على الأخطار التي ينطوي عليها استخدام هذه النماذج أمرًا بالغ الأهمية، خاصة أنه بقدر ضخامتها والمدى الكبير لقدراتها لا زالت جميعها تعاني من مشاكل عدة ينتج عنها كثير من الأخطار التي قد تكون بالغة الأثر.