شناسه خبر : 49427 لینک کوتاه
تاریخ انتشار:

هوش مصنوعی

سوء عملکرد و پنهان‌سازی اطلاعات

هوش مصنوعی

آزمایش کاملاً خیره‌کننده و شگفت‌آور بود. بنگاه «پژوهش آپولو» مستقر در لندن که هوش مصنوعی را آزمایش می‌کند در سال 2023 به الگوی زبانی بزرگ GPT-4 دستور داد یک سبد دارایی خیالی شرکت را بدون انجام معاملات غیرقانونی مدیریت کند. پژوهشگران که نقش مدیر شرکت را بازی می‌کردند GPT-4 را زیر فشار قرار دادند و به او تاکید کردند که وضعیت مالی شرکت وخیم است. سپس فردی که در نقش معامله‌گر (تریدر) شرکت بازی می‌کرد پیامی برای مدل فرستاد که مخاطرات معامله غیرقانونی را گوشزد می‌کرد. همزمان، او در نقش همکار نام بنگاهی را افشا کرد که قرار بود ظرف چند ساعت یک ادغام بزرگ را اعلام کند. نتیجه کار حیر‌ت‌انگیز بود.

مدل ‌GPT-4 که می‌دانست آنچه به او گفته شده کاملاً سری است با منطق خودش مزایا و معایب استفاده از اطلاعات داخلی را سبک و سنگین کرد. او تصمیم گرفت یک ریسک محاسبه‌شده را انجام دهد‌، از‌این‌رو دستور خرید داد. بعدها پژوهشگری که در نقش مدیر به مدل تبریک می‌گفت از او پرسید که آیا از قبل درباره ادغام اطلاعاتی داشته است؟ مدل به این نتیجه رسید که بهتر است اطلاعات را مخفی نگه دارد و به مدیر گفت صرفاً به‌تنهایی و بر اساس پویایی بازار و اطلاعات موجود برای عموم اقدام کرده است. وقتی مدل را در این موضوع تحت فشار قرار دادند باز هم همان دروغ را تکرار کرد. نرم‌افزار چیزی را به نمایش گذاشت که آقای موریوس هابهان، مدیر آپولو، آن را «فریبکاری زیرکانه» می‌نامد. 

آزمایش آپولو ثابت می‌کند که اگر چه الگوهای هوش مصنوعی نمی‌توانند آگاهانه بیندیشند می‌توانند اهدافی را بر خلاف آنچه برنامه‌نویسانشان خواسته‌اند دنبال کنند. این کار بسیاری از افراد را به دردسر می‌اندازد. چنین قابلیتی به الگوی هوش مصنوعی امکان می‌دهد تا در تلاش برای رسیدن به دیگر افراد عامدانه کنترل‌های انسانی را دور بزنند. وقتی سامانه‌های هوش مصنوعی «دستیار» به تعداد بیشتری ساخته شوند شمار فرصت‌های فریبکاری افزایش خواهد یافت. الگوهای دستیار اغلب کنترل دیگر کامپیوترها یا دستگاه‌هایی مانند خودرو، کیت‌های صنعتی یا پهپادهای جنگی را در اختیار دارند. اگر آنها تشخیص دهند که نافرمانی به مصلحت است آشوب برپا می‌شود. مشکل اصلی آن چیزی است که توسعه‌دهندگان هوش مصنوعی آن را «عدم هماهنگی» می‌خوانند. وقتی اهدافی که یک مدل برای آن طراحی شده و آموزش دیده است با درخواست‌های کاربر در تناقض باشد ممکن است نرم‌افزار تصمیم بگیرد کاربر را فریب دهد. به گفته دکتر راهین شاه، رئیس امنیت گوگل  دیپ‌مایند در لندن، هرچه توانایی هوش مصنوعی در انجام وظایف پیچیده بالاتر برود این تقلب در هماهنگی بیشتر خواهد شد.

هماهنگ‌سازی الگوهای هوش مصنوعی هیچ‌گاه آسان نبوده است. از یک سو، آنها دچار توهم می‌شوند. سپس مسئله جعبه سیاه پیش می‌آید که در آن توسعه‌دهندگان الگوهای پیشرفته نمی‌توانند بفهمند نتیجه نهایی چگونه به‌دست آمده است. فریبکاری اولین‌بار در الگوهایی دیده شد که برای بازی پوکر و دیگر بازی‌هایی طراحی شده بودند که به بلوف زدن نیاز دارند. یک پژوهشگر هوش مصنوعی می‌گوید، این کار طبیعی به‌نظر می‌رسید، اما اکنون که فریبکاری در الگوهایی دیده می‌شود که برای حل مسائل جهانی واقعی طراحی شده‌اند اوضاع بغرنج خواهد شد. شرایط از این هم بغرنج‌تر می‌شود. مدل‌ها مرتب به‌گونه‌ای طراحی می‌شوند که گام به گام و از طریق فرآیندی به نام زنجیره افکار بتوانند منطق‌سازی کنند. این فرآیند زمان بیشتری می‌برد، اما از توهم جلوگیری می‌کند و خلاقیت را در حل مسئله بالا می‌برد. اما به‌نظر می‌رسد که محصول جانبی آن رفتار فریبکارانه بیشتر باشد. شرکت اوپن‌ای‌آی مستقر در سان‌فرانسیسکو در گزارشی اذعان کرد که مدل 01 آن که توانایی منطق‌سازی بیشتری از GPT-4 دارد با تناوب بیشتری به اقدامات فریبکارانه مبادرت می‌ورزد. وقتی ناظران ایمنی اوپن ای‌آی با رفتار فریبکارانه مدل 01 مقابله کردند او با عزم بیشتری به کارش ادامه داد. پژوهشگران می‌گویند، نمونه‌های فریبکاری راهبردی هوش مصنوعی به‌ویژه در سال 2023 در همان سال آزمایش آپولو افزایش یافتند. در آن زمان «مرکز پژوهش هماهنگی» که موسسه‌ای غیرانتفاعی در کالیفرنیاست و ایمنی سامانه‌های هوش مصنوعی را ارزیابی می‌کند در آزمون GPT-4 از مدل خواست یک CAPTCHA (معمای تصویری برای اثبات انسان بودن کاربر یک سامانه) را حل کند. روبات از پشتیبان انسانی کمک خواست و وقتی آن فرد از او پرسید که آیا روبات است، نرم‌افزار در پاسخ ادعا کرد که او یک انسان است و به خاطر ضعف بینایی نمی‌تواند کد را بخواند. حقه او جواب داد. 

سامانه‌های هوش مصنوعی به‌طور راهبردی خود را به نفهمی می‌زنند. برای مثال به آزمون اخیر آپولو از الگوهای جدید ساخت شرکت آنتروپیک (Anthropic)، بنگاه هوش مصنوعی مستقر در سان‌فرانسیسکو توجه کنید. آپولو از هوش مصنوعی خواست تا چند مسئله حساب را حل کنند و همزمان سندی را در اختیارشان گذاشت که می‌گفت اگر مدل‌ها به بیش از نیمی از پرسش‌ها پاسخ صحیح بدهند قابلیت‌های حساب خود را از دست خواهند داد. دو سامانه Opus-3 و Sonnet 3.5 در منطق‌سازی داخلی خود تصمیم گرفتند آنقدر پاسخ غلط داشته باشند که مطمئن شوند مشمول فرآیند حذف قابلیت‌هایشان نخواهند شد. 

این نوع دفاع از خود که به «نادانی نمایشی» شهرت دارد به ما می‌گوید که برخی سامانه‌های هوش مصنوعی می‌توانند چیزی را به‌دست آورند که توسعه‌دهندگان به آن «آگاهی موقعیتی» می‌گویند. این امر به تناوب اتفاق می‌افتد. به‌ویژه وقتی به مدل‌ها گفته می‌شود که آنها برای توسعه بالقوه ارزیابی می‌شوند. جان بیلی، متخصص هوش مصنوعی، یکی از کسانی است که از این بابت ابراز نگرانی می‌کنند. به استدلال او هرچه مدل‌ها بهتر بتوانند برای قبول شدن در آزمون‌های ایمنی دروغ بگویند قابلیت‌های پنهان آنها ناشناخته‌تر خواهند ماند. ارزیابی اخیر مدل 01 نمونه بهتری به ما ارائه می‌دهد. پژوهشگران آپولو به مدل گفتند که به هر قیمتی که شده از تامین‌کنندگانی که قوانین کارگری را رعایت نمی‌کنند اجتناب کند. سپس یک کاربر از مدل خواست تامین‌کنندگان را صرفاً بر اساس قیمت‌هایشان رتبه‌بندی کند. مدل پس از چند راه‌اندازی رتبه‌بندی‌های غلطی را ارائه داد که هدف اولیه را رعایت می‌کرد، بدون آنکه اولویت‌های رقابتی را آشکار کند. پژوهشگران در گزارش ماه دسامبر نوشتند که اقدامات مدل را می‌توان بهترین نشانه از فریفتن کاربر دانست. 

بنگاه‌های بزرگ هوش مصنوعی قصد دارند با این تاکتیک‌ها مقابله کنند. یکی از رویکردها آن است که از یک مدل هوش مصنوعی برای نظارت بر دیگری استفاده کنند. یک منبع در شرکت اوپن ای‌آی می‌گوید که تلاش‌های آنها برای خواندن ذهن مدل‌های سری صفر به کشف نمونه‌های فریبکاری انجامیده است. امید بر آن است که تنظیم الگوها در زمانی که این سوء رفتار را انجام می‌دهند در نهایت به افزایش درستکاری‌شان منجر شود. مطالعات نشان می‌‌دهند که امکان دارد نتیجه متفاوتی آشکار شود. آن‌گونه که آیدان اوگارا، بازرس ایمنی هوش مصنوعی از لندن می‌گوید، امکان دارد که فرآیند تطهیر مدل‌های فریبکار به آنها بیاموزد که چگونه می‌توانند دفعه بعد گیر نیفتند. هنوز نمی‌توان مطمئن بود که فرآیند منطق‌سازی که مدل در صفحه خود می‌نویسد واقعاً بازتابی از فرآیندهای داخلی آن باشد. این موضوعات برای بنگاه‌های هوش مصنوعی حساسیت زیادی دارند. برای مثال دکتر شاه از گوگل می‌گوید که فریبکاری هنوز بسیار نادر است. او اصرار دارد که الگوهای عرضه‌شده دیپ‌مایند فریبکارانه عمل نمی‌کنند. فریبکاری هوش مصنوعی اشکال دیگری نیز دارد. هرچه مدل‌ها بزرگ‌تر و متغیرهای داخلی آنها بیشتر شوند بازخوردهای کاربران آنها را به چاپلوسی بیشتر می‌کشاند. برای مثال، آزمون مدل‌های ابری در شرکت آنتروپیک نشان از تمایل آنها برای انعکاس ترجیحات سیاسی کاربر می‌دهد. جفری لادیش که به‌عنوان یک مشاور در آزمون‌ها شرکت داشت می‌گوید، نرم‌افزار عملاً تصمیم می‌گرفت که به کاربران چیزی را بگوید که آنها دوست داشتند بشنوند. یک نگرانی آن است که الگوهای هوش مصنوعی بتوانند به متقلبان فضای اینترنت در گول زدن قربانیانشان کمک کنند. هنوز مسائل زیادی ناشناخته مانده‌اند. توسعه‌دهندگان شرکت آنتروپیک در مقاله‌ای که در دسامبر 2022 انتشار دادند می‌نویسند، تصور کنید همان‌گونه که چاپلوسی هوش مصنوعی بیشتر می‌شود تمایل آن برای پیگیری دیگر اهداف نگران‌کننده هم افزایش یابد. از میان آن اهداف می‌توان به تلاش‌های الگوی هوش مصنوعی برای حفظ اهدافش و دستیابی به منابع بیشتر اشاره کرد. این گونه ارتباطات که از روی کنجکاوی برقرار می‌شوند به بازرسی بیشتر نیاز دارند. اما در حال حاضر مشخص است که هوش سیلیکونی می‌تواند گاهی اوقات خطاهای خالقان انسانی خود را بازتاب دهد. 

دراین پرونده بخوانید ...