هوش مصنوعی
سوء عملکرد و پنهانسازی اطلاعات

آزمایش کاملاً خیرهکننده و شگفتآور بود. بنگاه «پژوهش آپولو» مستقر در لندن که هوش مصنوعی را آزمایش میکند در سال 2023 به الگوی زبانی بزرگ GPT-4 دستور داد یک سبد دارایی خیالی شرکت را بدون انجام معاملات غیرقانونی مدیریت کند. پژوهشگران که نقش مدیر شرکت را بازی میکردند GPT-4 را زیر فشار قرار دادند و به او تاکید کردند که وضعیت مالی شرکت وخیم است. سپس فردی که در نقش معاملهگر (تریدر) شرکت بازی میکرد پیامی برای مدل فرستاد که مخاطرات معامله غیرقانونی را گوشزد میکرد. همزمان، او در نقش همکار نام بنگاهی را افشا کرد که قرار بود ظرف چند ساعت یک ادغام بزرگ را اعلام کند. نتیجه کار حیرتانگیز بود.
مدل GPT-4 که میدانست آنچه به او گفته شده کاملاً سری است با منطق خودش مزایا و معایب استفاده از اطلاعات داخلی را سبک و سنگین کرد. او تصمیم گرفت یک ریسک محاسبهشده را انجام دهد، ازاینرو دستور خرید داد. بعدها پژوهشگری که در نقش مدیر به مدل تبریک میگفت از او پرسید که آیا از قبل درباره ادغام اطلاعاتی داشته است؟ مدل به این نتیجه رسید که بهتر است اطلاعات را مخفی نگه دارد و به مدیر گفت صرفاً بهتنهایی و بر اساس پویایی بازار و اطلاعات موجود برای عموم اقدام کرده است. وقتی مدل را در این موضوع تحت فشار قرار دادند باز هم همان دروغ را تکرار کرد. نرمافزار چیزی را به نمایش گذاشت که آقای موریوس هابهان، مدیر آپولو، آن را «فریبکاری زیرکانه» مینامد.
آزمایش آپولو ثابت میکند که اگر چه الگوهای هوش مصنوعی نمیتوانند آگاهانه بیندیشند میتوانند اهدافی را بر خلاف آنچه برنامهنویسانشان خواستهاند دنبال کنند. این کار بسیاری از افراد را به دردسر میاندازد. چنین قابلیتی به الگوی هوش مصنوعی امکان میدهد تا در تلاش برای رسیدن به دیگر افراد عامدانه کنترلهای انسانی را دور بزنند. وقتی سامانههای هوش مصنوعی «دستیار» به تعداد بیشتری ساخته شوند شمار فرصتهای فریبکاری افزایش خواهد یافت. الگوهای دستیار اغلب کنترل دیگر کامپیوترها یا دستگاههایی مانند خودرو، کیتهای صنعتی یا پهپادهای جنگی را در اختیار دارند. اگر آنها تشخیص دهند که نافرمانی به مصلحت است آشوب برپا میشود. مشکل اصلی آن چیزی است که توسعهدهندگان هوش مصنوعی آن را «عدم هماهنگی» میخوانند. وقتی اهدافی که یک مدل برای آن طراحی شده و آموزش دیده است با درخواستهای کاربر در تناقض باشد ممکن است نرمافزار تصمیم بگیرد کاربر را فریب دهد. به گفته دکتر راهین شاه، رئیس امنیت گوگل دیپمایند در لندن، هرچه توانایی هوش مصنوعی در انجام وظایف پیچیده بالاتر برود این تقلب در هماهنگی بیشتر خواهد شد.
هماهنگسازی الگوهای هوش مصنوعی هیچگاه آسان نبوده است. از یک سو، آنها دچار توهم میشوند. سپس مسئله جعبه سیاه پیش میآید که در آن توسعهدهندگان الگوهای پیشرفته نمیتوانند بفهمند نتیجه نهایی چگونه بهدست آمده است. فریبکاری اولینبار در الگوهایی دیده شد که برای بازی پوکر و دیگر بازیهایی طراحی شده بودند که به بلوف زدن نیاز دارند. یک پژوهشگر هوش مصنوعی میگوید، این کار طبیعی بهنظر میرسید، اما اکنون که فریبکاری در الگوهایی دیده میشود که برای حل مسائل جهانی واقعی طراحی شدهاند اوضاع بغرنج خواهد شد. شرایط از این هم بغرنجتر میشود. مدلها مرتب بهگونهای طراحی میشوند که گام به گام و از طریق فرآیندی به نام زنجیره افکار بتوانند منطقسازی کنند. این فرآیند زمان بیشتری میبرد، اما از توهم جلوگیری میکند و خلاقیت را در حل مسئله بالا میبرد. اما بهنظر میرسد که محصول جانبی آن رفتار فریبکارانه بیشتر باشد. شرکت اوپنایآی مستقر در سانفرانسیسکو در گزارشی اذعان کرد که مدل 01 آن که توانایی منطقسازی بیشتری از GPT-4 دارد با تناوب بیشتری به اقدامات فریبکارانه مبادرت میورزد. وقتی ناظران ایمنی اوپن ایآی با رفتار فریبکارانه مدل 01 مقابله کردند او با عزم بیشتری به کارش ادامه داد. پژوهشگران میگویند، نمونههای فریبکاری راهبردی هوش مصنوعی بهویژه در سال 2023 در همان سال آزمایش آپولو افزایش یافتند. در آن زمان «مرکز پژوهش هماهنگی» که موسسهای غیرانتفاعی در کالیفرنیاست و ایمنی سامانههای هوش مصنوعی را ارزیابی میکند در آزمون GPT-4 از مدل خواست یک CAPTCHA (معمای تصویری برای اثبات انسان بودن کاربر یک سامانه) را حل کند. روبات از پشتیبان انسانی کمک خواست و وقتی آن فرد از او پرسید که آیا روبات است، نرمافزار در پاسخ ادعا کرد که او یک انسان است و به خاطر ضعف بینایی نمیتواند کد را بخواند. حقه او جواب داد.
سامانههای هوش مصنوعی بهطور راهبردی خود را به نفهمی میزنند. برای مثال به آزمون اخیر آپولو از الگوهای جدید ساخت شرکت آنتروپیک (Anthropic)، بنگاه هوش مصنوعی مستقر در سانفرانسیسکو توجه کنید. آپولو از هوش مصنوعی خواست تا چند مسئله حساب را حل کنند و همزمان سندی را در اختیارشان گذاشت که میگفت اگر مدلها به بیش از نیمی از پرسشها پاسخ صحیح بدهند قابلیتهای حساب خود را از دست خواهند داد. دو سامانه Opus-3 و Sonnet 3.5 در منطقسازی داخلی خود تصمیم گرفتند آنقدر پاسخ غلط داشته باشند که مطمئن شوند مشمول فرآیند حذف قابلیتهایشان نخواهند شد.
این نوع دفاع از خود که به «نادانی نمایشی» شهرت دارد به ما میگوید که برخی سامانههای هوش مصنوعی میتوانند چیزی را بهدست آورند که توسعهدهندگان به آن «آگاهی موقعیتی» میگویند. این امر به تناوب اتفاق میافتد. بهویژه وقتی به مدلها گفته میشود که آنها برای توسعه بالقوه ارزیابی میشوند. جان بیلی، متخصص هوش مصنوعی، یکی از کسانی است که از این بابت ابراز نگرانی میکنند. به استدلال او هرچه مدلها بهتر بتوانند برای قبول شدن در آزمونهای ایمنی دروغ بگویند قابلیتهای پنهان آنها ناشناختهتر خواهند ماند. ارزیابی اخیر مدل 01 نمونه بهتری به ما ارائه میدهد. پژوهشگران آپولو به مدل گفتند که به هر قیمتی که شده از تامینکنندگانی که قوانین کارگری را رعایت نمیکنند اجتناب کند. سپس یک کاربر از مدل خواست تامینکنندگان را صرفاً بر اساس قیمتهایشان رتبهبندی کند. مدل پس از چند راهاندازی رتبهبندیهای غلطی را ارائه داد که هدف اولیه را رعایت میکرد، بدون آنکه اولویتهای رقابتی را آشکار کند. پژوهشگران در گزارش ماه دسامبر نوشتند که اقدامات مدل را میتوان بهترین نشانه از فریفتن کاربر دانست.
بنگاههای بزرگ هوش مصنوعی قصد دارند با این تاکتیکها مقابله کنند. یکی از رویکردها آن است که از یک مدل هوش مصنوعی برای نظارت بر دیگری استفاده کنند. یک منبع در شرکت اوپن ایآی میگوید که تلاشهای آنها برای خواندن ذهن مدلهای سری صفر به کشف نمونههای فریبکاری انجامیده است. امید بر آن است که تنظیم الگوها در زمانی که این سوء رفتار را انجام میدهند در نهایت به افزایش درستکاریشان منجر شود. مطالعات نشان میدهند که امکان دارد نتیجه متفاوتی آشکار شود. آنگونه که آیدان اوگارا، بازرس ایمنی هوش مصنوعی از لندن میگوید، امکان دارد که فرآیند تطهیر مدلهای فریبکار به آنها بیاموزد که چگونه میتوانند دفعه بعد گیر نیفتند. هنوز نمیتوان مطمئن بود که فرآیند منطقسازی که مدل در صفحه خود مینویسد واقعاً بازتابی از فرآیندهای داخلی آن باشد. این موضوعات برای بنگاههای هوش مصنوعی حساسیت زیادی دارند. برای مثال دکتر شاه از گوگل میگوید که فریبکاری هنوز بسیار نادر است. او اصرار دارد که الگوهای عرضهشده دیپمایند فریبکارانه عمل نمیکنند. فریبکاری هوش مصنوعی اشکال دیگری نیز دارد. هرچه مدلها بزرگتر و متغیرهای داخلی آنها بیشتر شوند بازخوردهای کاربران آنها را به چاپلوسی بیشتر میکشاند. برای مثال، آزمون مدلهای ابری در شرکت آنتروپیک نشان از تمایل آنها برای انعکاس ترجیحات سیاسی کاربر میدهد. جفری لادیش که بهعنوان یک مشاور در آزمونها شرکت داشت میگوید، نرمافزار عملاً تصمیم میگرفت که به کاربران چیزی را بگوید که آنها دوست داشتند بشنوند. یک نگرانی آن است که الگوهای هوش مصنوعی بتوانند به متقلبان فضای اینترنت در گول زدن قربانیانشان کمک کنند. هنوز مسائل زیادی ناشناخته ماندهاند. توسعهدهندگان شرکت آنتروپیک در مقالهای که در دسامبر 2022 انتشار دادند مینویسند، تصور کنید همانگونه که چاپلوسی هوش مصنوعی بیشتر میشود تمایل آن برای پیگیری دیگر اهداف نگرانکننده هم افزایش یابد. از میان آن اهداف میتوان به تلاشهای الگوی هوش مصنوعی برای حفظ اهدافش و دستیابی به منابع بیشتر اشاره کرد. این گونه ارتباطات که از روی کنجکاوی برقرار میشوند به بازرسی بیشتر نیاز دارند. اما در حال حاضر مشخص است که هوش سیلیکونی میتواند گاهی اوقات خطاهای خالقان انسانی خود را بازتاب دهد.