مغز ما به طور مداوم با تصمیمگیری مواجه است. گاهی تصمیمها ساده به نظر میرسند: مثلاً برای شام در رستوران جدیدی رزرو کردهاید، اما هنوز چند ساعت تا زمان رزرو مانده و شما بهشدت گرسنهاید. آیا باید چیزی بخورید و ریسک ازدستدادن اشتها را بپذیرید، یا صبر کنید تا غذای اصلی را با لذت بخورید؟ مسئله اینجاست که کدام انتخاب پاداش بیشتری دارد.
به گزارش پایگاه خبری تکانه و به نقل از singularityhub، جواد فیاض: نورونهای دوپامین در مغز، این تصمیمها و نتایجشان را دنبال میکنند. اگر از یک انتخاب پشیمان شوید، دفعه بعد احتمالاً انتخاب متفاوتی خواهید داشت. این سازوکار «یادگیری تقویتی» (reinforcement learning) نام دارد و به مغز کمک میکند دائماً خود را با تغییرات تطبیق دهد. این همان الگویی است که در بسیاری از سامانههای هوش مصنوعی نیز بهکار گرفته میشود؛ الگوریتمهایی که مانند انسان از موفقیتها و اشتباهات خود میآموزند.
اما مسئله فقط «دریافت یا عدم دریافت پاداش» نیست. سؤالاتی مثل: «آیا انتخاب من بسیار رضایتبخش بود یا فقط کمی خوشحالکننده؟» یا «آیا این انتظار ارزشش را داشت؟» نیز اهمیت دارند.
نقشه ذهنی
به گزارش پایگاه خبری تکانه و به نقل از singularityhub، اخیر پژوهشگرانی از بنیاد «چمپلیمود» پرتغال (Champalimaud)، دانشگاه هاروارد و چند مؤسسه دیگر اعلام کردند که به سازوکار تازهای از سیگنالدهی دوپامین (مادهای شیمیایی که گاهی از آن بهعنوان «مولکول لذت» نیز یاد میشود) در مغز دست یافتهاند که تاکنون از چشم محققان پنهان مانده بود. پروژهشگران با ثبت فعالیت تکتک نورونهای دوپامین در مغز موشها در حین یادگیری یک وظیفه جدید، دریافتند که این سلولها تنها به دنبال پاداش نیستند، بلکه زمان دریافت پاداش و میزان آن را نیز ردیابی میکنند؛ در واقع، آنها نقشهای ذهنی از انواع پاداشهای ممکن در آینده نزدیک و دور را ترسیم میکنند.
مارگاریدا سوسا (Margarida Sousa)، یکی از نویسندگان این مطالعه، در بیانیهای مطبوعاتی گفت: «مطالعات پیشین معمولاً فعالیت نورونها را به طور میانگین بررسی میکردند، اما ما خواستیم تنوع کاملی را در این جمعیت سلولی را ثبت کنیم تا ببینیم که هر نورون به چه شکلی در انجام وظایف خود تخصص پیدا کرده و چگونه در ساخت یک تصویر جمعی نقش ایفا میکند.»
بر اساس یافتههای آنها، برخی از نورونهای دوپامین پاداشهای فوری را ترجیح میدهند، درحالیکه برخی دیگر فعالیت خود را بهتدریج افزایش میدهند تا برای پاداشی با تأخیر آماده شوند. هر نورون همچنین به اندازه پاداش حساس است و به سیگنالهای درونی مغز هم گوش میدهد. (برای مثال، اینکه آیا موش تشنه یا گرسنه است و چقدر انگیزه دارد.)
شگفتانگیزتر آنکه، این نقشه چندبُعدی از پاداشها، شباهت زیادی به برخی سامانههای نوظهور هوش مصنوعی دارد که از الگوریتم یادگیری تقویتی استفاده میکنند. برخلاف رویکردهایی که دیدگاههای مختلف را به یک تصمیم واحد محدود میکنند، برخی از این سامانهها از الگوریتمهایی استفاده میکنند که مجموعهای گسترده از سناریوهای ممکن برای دریافت پاداش را رمزگذاری کرده و سپس از طریق رأیگیری به تصمیم نهایی میرسند.
در چند شبیهسازی که مدل هوش مصنوعی از چنین نقشهای برای استدلال خود استفاده میکرد، مدل در مواجهه با عدم قطعیت و ریسک (در اینجا وظایف مرتبط با جستوجوی غذا) عملکرد بهتری از خود نشان داد.
یکی از گروههای پژوهشی در گزارشی نوشته است: «این نتایج افقهای تازهای برای طراحی سامانههای هوش مصنوعی بر پایه یادگیری تقویتی را باز میکند که بتوانند بهتر عدم قطعیتها را پیشبینی و خود را با آنها تطبیق دهند.» همچنین معتقدند که این یافتهها میتواند به درک عمیقتری از فرایند تصمیمگیری در مغز انسان منجر شود و حتی در درمان اختلالاتی نظیر بیماری پارکینسون و رفتارهای تکانشی موثر واقع شود.
جرقهای به نام دوپامین
برای دههها، دانشمندان علوم اعصاب میدانستند که نورونهای دوپامین، زیربنای یادگیری تقویتی را تشکیل میدهند. این نورونها هنگام دریافت پاداشی غیرمنتظره، مقدار اندکی دوپامین ترشح میکنند. همین سیگنالهای کوچک است که میتواند در گذر زمان، موشی تشنه را از میان یک مارپیچ پیچیده عبور دهد تا به قطرهای آب در انتهای مسیر برسد.
پژوهشگران با ثبت فعالیت الکتریکی نورونهای دوپامین در حین یادگیری این رفتارها، چارچوبی برای یادگیری تقویتی توسعه دادهاند. در این مدلها، نورونهای دوپامین در پاسخ به پاداشهای نزدیک، فعالیت بالایی دارند و این فعالیت با گذر زمان کاهش میابد؛ فرایندی که دانشمندان آن را «تنزیل زمانی» (temporal discounting) مینامند.
اما این تحلیلها، اغلب فعالیت نورونها را بهصورت میانگین در نظر میگیرند و بهجای بررسی طیف کامل خروجیهای ممکن در طول زمان، مثل پاداشهای بزرگتر اما با تأخیر بیشتر، صرفاً بر یک پاداش موردانتظار تمرکز میکنند. چنین مدلهایی ممکن است صرفاً فقط به ما بگویند که پاداشی دریافت کردهایم یا نه اما در انتقال ظرافتهایی مانند «چه زمانی» و «چقدر» ناکارآمدند. مثلاً در مثالی ساده، آیا انتظار برای یک وعده غذا خیلی خاص واقعاً ارزش تحمل چندساعته رنج گرسنگی شدید را دارد یا خیر؟
سرنخ غیرمنتظره
سوسا و همکارانش با این پرسش روبهرو شدند که آیا سیگنالدهی دوپامین پیچیدهتر از آن چیزی است که تاکنون تصور میشد؟ جالب آن که الهامبخش این مطالعه، رویکردی از دنیای هوش مصنوعی بود؛ در یادگیری تقویتی توزیعی (distributional reinforcement learning)، بهجای تمرکز بر یک پاداش واحد، طیفی از حالات ممکن پاداش تخمین زده میشود و یادگیری از طریق آزمونوخطا انجام میگیرد.
دانشمندان علوم اعصاب در دانشگاه هاروارد به سرپرستی «نااوشیگه اوچیدا» (Naoshige Uchida) به دنبال یافتن پاسخ رفتند. آنها فعالیت الکتریکی تکتک نورونهای دوپامین در مغز موشها را ثبت کردند؛ درحالیکه این حیوانات میآموختند در ازای انجام یک وظیفه، پاداش خود (آب) را دریافت کنند. در ابتدای هر آزمایش، موشها بویی خاص را استشمام میکردند که هم حجم آب (یعنی اندازه پاداش) و هم فاصله زمانی رسیدن به آب (زمان دریافت پاداش) را پیشبینی میکرد.
هر نورون، ترجیح خاص خود را داشت. برخی نورونها کمطاقت بودند و پاداش فوری را صرفنظر از مقدار آن ترجیح میدادند. برخی دیگر صبورتر بودند و فعالیت خود را بهتدریج افزایش میدادند به پاداشهای دیرهنگام ولی بزرگتر چشم داشتند. تصور کنید در بیابانی خشک و تشنهاید: آیا تمام ذخیره آب خود را یکباره مینوشید یا بهآرامی مصرف میکنید تا برای مسیر طولانیتر ذخیره آب کافی داشته باشید؟
جالبتر آن که هر نورون شخصیت خاص خود را داشت. نورونهای خوشبین به پاداشهای بزرگ و غیرمنتظره واکنش انفجاری نشان میدادند، درحالیکه نورونهای بدبین غالباً منفعل باقی میماندند. ترکیب این سیگنالها از سوی نورونهایی با دیدگاههای مختلف، نوعی کدگذاری جمعی را به وجود آورد که رفتار نهایی موشها را تعیین میکرد. به گفته «دنیل مکنامی» (Daniel McNamee)، یکی از نویسندگان مطالعه، این موضوع شبیه به این است که تیمی از مشاوران با سطوح مختلف ریسکپذیری کنار هم قرار گرفته باشند و دیدگاه خود را نسبت به یک رخداد یکسان بیان کنند. برخی میگویند: «همین حالا پاداش را بگیر، شاید بعداً وجود نداشته نباشد» و برخی دیگر هشدار میدهند که «صبر کن، شاید پاداش بهتری در راه باشد.»
موضع هر نورون نیز انعطافپذیر بود. زمانی که پاداش به طور مداوم با تأخیر همراه بود، جمع نورونها بهتدریج موضع خود را تغییر دادند و به نفع پاداشهای بلندمدت رأی دادند. این مسئله نشان میدهد که مغز ما تا چه اندازه میتواند سریع با شرایط جدید سازگار شود. به گفته جو پاتون (Joe Paton)، یکی دیگر از نویسندگان مطالعه، وقتی کل جمعیت نورونهای دوپامین را در نظر گرفتیم، مشخص شد که آنها نهتنها احتمال دریافت پاداش را رمزگذاری میکردند، بلکه یک نقشه مختصاتی از زمان و اندازه احتمالی پاداش را نیز ارائه میدادند.
از هوش ذهنی تا هوش مصنوعی
دادههای بهدستآمده از ثبت فعالیت مغز شباهت زیادی به سامانههای هوش مصنوعی موسوم به مدلهای جمعی (ensemble AI) داشتند؛ جایی که هر مدل دیدگاه خاص خود را دارد، اما در کنار هم کار میکنند تا با عدم قطعیتها بهتر مقابله کنند.
این تیم پژوهشی همچنین الگوریتمی جدید با نام «یادگیری تقویتی زمان-مقدار» (Time-Magnitude Reinforcement Learning) یا بهاختصار TMRL را نیز طراحی کرده است؛ الگوریتمی که میتواند انتخابهای آینده را پیشبینی و برنامهریزی کند. مدلهای کلاسیک یادگیری تقویتی، تنها در پایان روند اجرا، پاداش دریافت میکنند، بنابراین الگوریتم برای رسیدن به بهترین تصمیم، نیاز به تکرارهای زیادی از فرایند یادگیری دارد. اما الگوریتم TMRL با ترسیم سریع مجموعهای از گزینههای ممکن، این امکان را برای انسان یا هوش مصنوعی فراهم میکند که با تعداد تکرار بسیار کمتر، بهترین تصمیم را انتخاب کنند. این مدل حتی حالات درونی (مانند میزان گرسنگی در مطالعه بر روی موشها) را نیز در نظر میگیرد تا تصمیمگیری دقیقتری داشته باشد.
در یکی از آزمایشها، وقتی الگوریتمها از یک «نقشه چندبُعدی شبیه دوپامین» استفاده میکردند، عملکرد بهتری در یک وظیفه شبیهسازیشده برای جستوجوی غذا در مقایسه با مدلهای معمولی یادگیری تقویتی از خود نشان دادند.
سوسا و همکارانش در مقاله خود عنوان کردند: «اینکه بتوان از همان ابتدا، دامنه و احتمال پاداشهای قابلدستیابی و زمان تقریبی وقوع آنها را دانست، میتواند برای برنامهریزی و رفتار انعطافپذیر، بهویژه در محیطهای پیچیده و با حالات درونی متغیر، بسیار مفید باشد.»
این دو پژوهش، تازهترین نمونههایی هستند که قدرت همافزایی میان علوم اعصاب (نوروساینس – neuroscience) و هوش مصنوعی را به نمایش میگذارند. مدلسازی عملکرد درونی مغز میتواند الهامبخش ساخت سامانههای هوش مصنوعی شبیهتر به انسان باشد. در مقابل، هوش مصنوعی نیز اکنون در حال روشنکردن گوشههای تاریک سازوکار مغز ماست و شاید راهی برای درک بهتر اختلالات عصبی بگشاید. جو پاتون در پایان میگوید: «الهامگیری از مغز، میتواند کلید توسعه ماشینهایی باشد که منطقشان بیشتر به انسان شباهت دارد.»
کپشن پست تلگرام:
آیا تا به حال فکر کردهاید مغز چگونه تصمیم میگیرد؟ نورونهای دوپامین، معروف به «مولکول لذت»، نه تنها پاداشها را ردیابی میکنند، بلکه زمان و میزان آنها را هم پیشبینی میکنند. پژوهشگران دانشگاه هاروارد و بنیاد چمپلیمود کشف کردند که این نورونها نقشهای ذهنی از پاداشهای آینده میسازند. این سازوکار، مشابه الگوریتمهای یادگیری تقویتی در هوش مصنوعی است که از موفقیتها و بازخودها میآموزند. این یافتهها نه تنها درک ما از تصمیمگیری را عمیقتر میکند، بلکه افقهای جدیدی برای طراحی سیستمهای هوشمند و درمان بیماریهایی مثل پارکینسون باز میکند.