لم يتمكن معظم الأشخاص من التمييز بين برمجية شات جي بي تي ومستجيب بشري، ما يشير إلى أن اختبار تورينج الشهير قد تم اجتيازه لأول مرة.
نتفاعل مع الذكاء الاصطناعي عبر الإنترنت ليس فقط أكثر من أي وقت مضى – بل أكثر مما ندرك – لذلك طلب الباحثون من أشخاص التحدث مع أربعة عملاء، بما في ذلك إنسان واحد وثلاثة أنواع مختلفة من نماذج الذكاء الاصطناعي، لمعرفة ما إذا كان بإمكانهم معرفة الفرق.
"اختبار تورينج"، الذي تم اقتراحه لأول مرة على أنه "لعبة محاكاة" من قبل عالم الحاسوب آلان تورينج عام 1950، يحكم على ما إذا كانت قدرة الآلة على إظهار الذكاء لا يمكن تمييزها عن الإنسان. لكي تتمكن الآلة من اجتياز اختبار تورينج، يجب أن تكون قادرة على التحدث إلى شخص ما وخداعه للاعتقاد بأنه إنسان.
قرر العلماء تكرار هذا الاختبار عبر جعل 500 شخص يتحدث مع أربعة مستجيبين، بما في ذلك الإنسان وبرنامج الذكاء الاصطناعي إليزا الذي يعود إلى حقبة الستينيات، بالإضافة إلى كل من جي بي تي-3.5 وجي بي تي-4، وهما الذكاء الاصطناعي الذي يشغل برمجية شات جي بي تي. استغرقت المحادثات خمس دقائق – ثم كان على المشاركين أن يقولوا ما إذا كانوا يعتقدون أنهم يتحدثون إلى إنسان أو إلى ذكاء اصطناعي. في الدراسة، التي نُشرت في 9 أيار (مايو) على خادم أركايف قبل الطباعة، وجد العلماء أن المشاركين حكموا على نظام جي بي تي-4 على أنه بشري بنسبة 54% من الحالات.
إليزا، وهو نظام تمت برمجته مسبقاً باستجابات لكن بدون نموذج لغوي كبير أو بنية شبكة عصبية، تم الحكم عليه بأنه بشري في 22% فقط من الحالات. وسجل نظام جي بي تي-3.5 نسبة 50% بينما سجل المشارك البشري نسبة 67%.
وأخبرت نيل واتسون، باحثة الذكاء الاصطناعي في معهد مهندسي الكهرباء والإلكترونيات، موقع لايف ساينس: "يمكن للآلات أن تخلط بين المبررات المعقولة للأشياء، كما يفعل البشر".
"يمكن أن تتعرض للتحيزات المعرفية، ويتم خداعها والتلاعب بها، وتصبح خادعة بشكل متزايد. كل هذه العناصر تعني أن نقاط الضعف والمراوغات الشبيهة بالبشر يتم التعبير عنها في أنظمة الذكاء الاصطناعي، ما يجعلها أكثر شبهاً بالإنسان من الأساليب السابقة التي لم يكن لديها سوى القليل من قائمة الاستجابات الجاهزة".
وقد رددت الدراسة – التي تعتمد على عقود من المحاولات لإجبار عملاء الذكاء الاصطناعي على اجتياز اختبار تورينج – المخاوف الشائعة من أن أنظمة الذكاء الاصطناعي التي تعتبر بشرية سيكون لها "عواقب اجتماعية واقتصادية واسعة النطاق".
كما جادل العلماء بأن هناك انتقادات صحيحة لاختبار تورينج لكونه مبسطاً للغاية في منهجه، قائلين: "تلعب العوامل الأسلوبية والاجتماعية والعاطفية دوراً أكبر في اجتياز اختبار تورينج من المفاهيم التقليدية للذكاء". يشير هذا إلى أننا كنا نبحث في المكان الخطأ عن الذكاء الآلي.
"لا يتجاوز الذكاء الخام ذلك. ما يهم حقاً هو أن تكون ذكياً بما يكفي لفهم موقف ما، ومهارات الآخرين وأن يكون لديك التعاطف لربط هذه العناصر معاً. القدرات ليست سوى جزء صغير من قيمة الذكاء الاصطناعي – قدرتها على فهم تعد قيم وتفضيلات وحدود الآخرين أمراً ضرورياً أيضاً. هذه الصفات هي التي ستسمح للذكاء الاصطناعي بأن يكون بمثابة بواب مخلص وموثوق لحياتنا".
وأضافت واتسون أن الدراسة تمثل تحدياً للتفاعل المستقبلي بين الإنسان والآلة، وأننا سنصبح مذعورين بشكل متزايد بشأن الطبيعة الحقيقية للتفاعلات، خاصة في المسائل الحساسة. وأضافت أن الدراسة تسلط الضوء على مدى تغير الذكاء الاصطناعي خلال عصر برمجية جي بي تي.
وقالت: "لقد اقتصر نظام إليزا على الردود الجاهزة، ما حد من قدراته بشكل كبير. قد يخدع شخصاً ما لمدة خمس دقائق، لكن سرعان ما تتضح أوجه القصور. تتميز النماذج اللغوية بمرونة لا نهاية لها، وقادرة على تجميع الاستجابات لمجموعة واسعة من المواضيع، والتحدث بلغات أو لهجات اجتماعية معينة وتصوير نفسها بأهداف وقيم تحركها الشخصية. إنها خطوة هائلة إلى الأمام من شيء تمت برمجته يدوياً بواسطة إنسان، مهما كان ذلك بذكاء وعناية".
المصدر