قابلیت‌های مغزی ، دفترچه راهنمای توسعه هوش مصنوعی

 

مغز ما به طور مداوم با تصمیم‌گیری مواجه است. گاهی تصمیم‌ها ساده به نظر می‌رسند: مثلاً برای شام در رستوران جدیدی رزرو کرده‌اید، اما هنوز چند ساعت تا زمان رزرو مانده و شما به‌شدت گرسنه‌اید. آیا باید چیزی بخورید و ریسک ازدست‌دادن اشتها را بپذیرید، یا صبر کنید تا غذای اصلی را با لذت بخورید؟ مسئله اینجاست که کدام انتخاب پاداش بیشتری دارد.

به گزارش پایگاه خبری تکانه و به نقل از singularityhub، جواد فیاض: نورون‌های دوپامین در مغز، این تصمیم‌ها و نتایج‌شان را دنبال می‌کنند. اگر از یک انتخاب پشیمان شوید، دفعه بعد احتمالاً انتخاب متفاوتی خواهید داشت. این سازوکار «یادگیری تقویتی» (reinforcement learning) نام دارد و به مغز کمک می‌کند دائماً خود را با تغییرات تطبیق دهد. این همان الگویی است که در بسیاری از سامانه‌های هوش مصنوعی نیز به‌کار گرفته می‌شود؛ الگوریتم‌هایی که مانند انسان از موفقیت‌ها و اشتباهات خود می‌آموزند.

اما مسئله فقط «دریافت یا عدم دریافت پاداش» نیست. سؤالاتی مثل: «آیا انتخاب من بسیار رضایت‌بخش بود یا فقط کمی خوشحال‌کننده؟» یا «آیا این انتظار ارزشش را داشت؟» نیز اهمیت دارند.

نقشه ذهنی

به گزارش پایگاه خبری تکانه و به نقل از singularityhub، اخیر پژوهشگرانی از بنیاد «چمپلیمود» پرتغال (Champalimaud)، دانشگاه هاروارد و چند مؤسسه دیگر اعلام کردند که به سازوکار تازه‌ای از سیگنال‌دهی دوپامین (ماده‌ای شیمیایی که گاهی از آن به‌عنوان «مولکول لذت» نیز یاد می‌شود) در مغز دست یافته‌اند که تاکنون از چشم محققان پنهان مانده بود. پروژهشگران با ثبت فعالیت تک‌تک نورون‌های دوپامین در مغز موش‌ها در حین یادگیری یک وظیفه جدید، دریافتند که این سلول‌ها تنها به دنبال پاداش نیستند، بلکه زمان دریافت پاداش و میزان آن را نیز ردیابی می‌کنند؛ در واقع، آن‌ها نقشه‌ای ذهنی از انواع پاداش‌های ممکن در آینده نزدیک و دور را ترسیم می‌کنند.

مارگاریدا سوسا (Margarida Sousa)، یکی از نویسندگان این مطالعه، در بیانیه‌ای مطبوعاتی گفت: «مطالعات پیشین معمولاً فعالیت نورون‌ها را به طور میانگین بررسی می‌کردند، اما ما خواستیم تنوع کاملی را در این جمعیت سلولی را ثبت کنیم تا ببینیم که هر نورون به چه شکلی در انجام وظایف خود تخصص پیدا کرده و چگونه در ساخت یک تصویر جمعی نقش ایفا می‌کند.»

بر اساس یافته‌های آن‌ها، برخی از نورون‌های دوپامین پاداش‌های فوری را ترجیح می‌دهند، درحالی‌که برخی دیگر فعالیت خود را به‌تدریج افزایش می‌دهند تا برای پاداشی با تأخیر آماده شوند. هر نورون همچنین به اندازه پاداش حساس است و به سیگنال‌های درونی مغز هم گوش می‌دهد. (برای مثال، اینکه آیا موش تشنه یا گرسنه است و چقدر انگیزه دارد.)

شگفت‌انگیزتر آنکه، این نقشه چندبُعدی از پاداش‌ها، شباهت زیادی به برخی سامانه‌های نوظهور هوش مصنوعی دارد که از الگوریتم یادگیری تقویتی استفاده می‌کنند. برخلاف رویکردهایی که دیدگاه‌های مختلف را به یک تصمیم واحد محدود می‌کنند، برخی از این سامانه‌ها از الگوریتم‌هایی استفاده می‌کنند که مجموعه‌ای گسترده از سناریوهای ممکن برای دریافت پاداش را رمزگذاری کرده و سپس از طریق رأی‌گیری به تصمیم نهایی می‌رسند.

در چند شبیه‌سازی که مدل هوش مصنوعی از چنین نقشه‌ای برای استدلال خود استفاده می‌کرد، مدل در مواجهه با عدم قطعیت و ریسک (در اینجا وظایف مرتبط با جست‌وجوی غذا) عملکرد بهتری از خود نشان داد.

یکی از گروه‌های پژوهشی در گزارشی نوشته است: «این نتایج افق‌های تازه‌ای برای طراحی سامانه‌های هوش مصنوعی بر پایه یادگیری تقویتی را باز می‌کند که بتوانند بهتر عدم قطعیت‌ها را پیش‌بینی و خود را با آن‌ها تطبیق دهند.» همچنین معتقدند که این یافته‌ها می‌تواند به درک عمیق‌تری از فرایند تصمیم‌گیری در مغز انسان منجر شود و حتی در درمان اختلالاتی نظیر بیماری پارکینسون و رفتارهای تکانشی موثر واقع شود.

جرقه‌ای به نام دوپامین

برای دهه‌ها، دانشمندان علوم اعصاب می‌دانستند که نورون‌های دوپامین، زیربنای یادگیری تقویتی را تشکیل می‌دهند. این نورون‌ها هنگام دریافت پاداشی غیرمنتظره، مقدار اندکی دوپامین ترشح می‌کنند. همین سیگنال‌های کوچک است که می‌تواند در گذر زمان، موشی تشنه را از میان یک مارپیچ پیچیده عبور دهد تا به قطره‌ای آب در انتهای مسیر برسد.

پژوهشگران با ثبت فعالیت الکتریکی نورون‌های دوپامین در حین یادگیری این رفتارها، چارچوبی برای یادگیری تقویتی توسعه داده‌اند. در این مدل‌ها، نورون‌های دوپامین در پاسخ به پاداش‌های نزدیک، فعالیت بالایی دارند و این فعالیت با گذر زمان کاهش میابد؛ فرایندی که دانشمندان آن را «تنزیل زمانی» (temporal discounting) می‌نامند.

اما این تحلیل‌ها، اغلب فعالیت نورون‌ها را به‌صورت میانگین در نظر می‌گیرند و به‌جای بررسی طیف کامل خروجی‌های ممکن در طول زمان، مثل پاداش‌های بزرگ‌تر اما با تأخیر بیشتر، صرفاً بر یک پاداش موردانتظار تمرکز می‌کنند. چنین مدل‌هایی ممکن است صرفاً فقط به ما بگویند که پاداشی دریافت کرده‌ایم یا نه اما در انتقال ظرافت‌هایی مانند «چه زمانی» و «چقدر» ناکارآمدند. مثلاً در مثالی ساده، آیا انتظار برای یک وعده غذا خیلی خاص واقعاً ارزش تحمل چندساعته رنج گرسنگی شدید را دارد یا خیر؟

 

سرنخ غیرمنتظره

سوسا و همکارانش با این پرسش روبه‌رو شدند که آیا سیگنال‌دهی دوپامین پیچیده‌تر از آن چیزی است که تاکنون تصور می‌شد؟ جالب آن که الهام‌بخش این مطالعه، رویکردی از دنیای هوش مصنوعی بود؛ در یادگیری تقویتی توزیعی (distributional reinforcement learning)، به‌جای تمرکز بر یک پاداش واحد، طیفی از حالات ممکن پاداش تخمین زده می‌شود و یادگیری از طریق آزمون‌وخطا انجام می‌گیرد.

دانشمندان علوم اعصاب در دانشگاه هاروارد به سرپرستی «نااوشیگه اوچیدا» (Naoshige Uchida) به دنبال یافتن پاسخ رفتند. آن‌ها فعالیت الکتریکی تک‌تک نورون‌های دوپامین در مغز موش‌ها را ثبت کردند؛ درحالی‌که این حیوانات می‌آموختند در ازای انجام یک وظیفه، پاداش خود (آب) را دریافت کنند. در ابتدای هر آزمایش، موش‌ها بویی خاص را استشمام می‌کردند که هم حجم آب (یعنی اندازه پاداش) و هم فاصله زمانی رسیدن به آب (زمان دریافت پاداش) را پیش‌بینی می‌کرد.

هر نورون، ترجیح خاص خود را داشت. برخی نورون‌ها کم‌طاقت بودند و پاداش فوری را صرف‌نظر از مقدار آن ترجیح می‌دادند. برخی دیگر صبورتر بودند و فعالیت خود را به‌تدریج افزایش می‌دادند به پاداش‌های دیرهنگام ولی بزرگ‌تر چشم داشتند. تصور کنید در بیابانی خشک و تشنه‌اید: آیا تمام ذخیره آب خود را یک‌باره می‌نوشید یا به‌آرامی مصرف می‌کنید تا برای مسیر طولانی‌تر ذخیره آب کافی داشته باشید؟

جالب‌تر آن که هر نورون شخصیت خاص خود را داشت. نورون‌های خوش‌بین به پاداش‌های بزرگ و غیرمنتظره واکنش انفجاری نشان می‌دادند، درحالی‌که نورون‌های بدبین غالباً منفعل باقی می‌ماندند. ترکیب این سیگنال‌ها از سوی نورون‌هایی با دیدگاه‌های مختلف، نوعی کدگذاری جمعی را به وجود آورد که رفتار نهایی موش‌ها را تعیین می‌کرد. به گفته «دنیل مک‌نامی» (Daniel McNamee)، یکی از نویسندگان مطالعه، این موضوع شبیه به این است که تیمی از مشاوران با سطوح مختلف ریسک‌پذیری کنار هم قرار گرفته باشند و دیدگاه خود را نسبت به یک رخداد یکسان بیان کنند. برخی می‌گویند: «همین حالا پاداش را بگیر، شاید بعداً وجود نداشته نباشد» و برخی دیگر هشدار می‌دهند که «صبر کن، شاید پاداش بهتری در راه باشد.»

موضع هر نورون نیز انعطاف‌پذیر بود. زمانی که پاداش به طور مداوم با تأخیر همراه بود، جمع نورون‌ها به‌تدریج موضع خود را تغییر دادند و به نفع پاداش‌های بلندمدت رأی دادند. این مسئله نشان می‌دهد که مغز ما تا چه اندازه می‌تواند سریع با شرایط جدید سازگار شود. به گفته جو پاتون (Joe Paton)، یکی دیگر از نویسندگان مطالعه، وقتی کل جمعیت نورون‌های دوپامین را در نظر گرفتیم، مشخص شد که آن‌ها نه‌تنها احتمال دریافت پاداش را رمزگذاری می‌کردند، بلکه یک نقشه مختصاتی از زمان و اندازه احتمالی پاداش را نیز ارائه می‌دادند.

از هوش ذهنی تا هوش مصنوعی

داده‌های به‌دست‌آمده از ثبت فعالیت مغز شباهت زیادی به سامانه‌های هوش مصنوعی موسوم به مدل‌های جمعی (ensemble AI) داشتند؛ جایی که هر مدل دیدگاه خاص خود را دارد، اما در کنار هم کار می‌کنند تا با عدم قطعیت‌ها بهتر مقابله کنند.

این تیم پژوهشی همچنین الگوریتمی جدید با نام «یادگیری تقویتی زمان-مقدار» (Time-Magnitude Reinforcement Learning) یا به‌اختصار TMRL را نیز طراحی کرده است؛ الگوریتمی که می‌تواند انتخاب‌های آینده را پیش‌بینی و برنامه‌ریزی کند. مدل‌های کلاسیک یادگیری تقویتی، تنها در پایان روند اجرا، پاداش دریافت می‌کنند، بنابراین الگوریتم برای رسیدن به بهترین تصمیم، نیاز به تکرارهای زیادی از فرایند یادگیری دارد. اما الگوریتم TMRL با ترسیم سریع مجموعه‌ای از گزینه‌های ممکن، این امکان را برای انسان یا هوش مصنوعی فراهم می‌کند که با تعداد تکرار بسیار کمتر، بهترین تصمیم را انتخاب کنند. این مدل حتی حالات درونی (مانند میزان گرسنگی در مطالعه بر روی موش‌ها) را نیز در نظر می‌گیرد تا تصمیم‌گیری دقیق‌تری داشته باشد.

در یکی از آزمایش‌ها، وقتی الگوریتم‌ها از یک «نقشه چندبُعدی شبیه دوپامین» استفاده می‌کردند، عملکرد بهتری در یک وظیفه شبیه‌سازی‌شده برای جست‌وجوی غذا در مقایسه با مدل‌های معمولی یادگیری تقویتی از خود نشان دادند.

سوسا و همکارانش در مقاله خود عنوان کردند: «اینکه بتوان از همان ابتدا، دامنه و احتمال پاداش‌های قابل‌دستیابی و زمان تقریبی وقوع آن‌ها را دانست، می‌تواند برای برنامه‌ریزی و رفتار انعطاف‌پذیر، به‌ویژه در محیط‌های پیچیده و با حالات درونی متغیر، بسیار مفید باشد.»

این دو پژوهش، تازه‌ترین نمونه‌هایی هستند که قدرت هم‌افزایی میان علوم اعصاب (نوروساینس – neuroscience) و هوش مصنوعی را به نمایش می‌گذارند. مدل‌سازی عملکرد درونی مغز می‌تواند الهام‌بخش ساخت سامانه‌های هوش مصنوعی شبیه‌تر به انسان باشد. در مقابل، هوش مصنوعی نیز اکنون در حال روشن‌کردن گوشه‌های تاریک سازوکار مغز ماست و شاید راهی برای درک بهتر اختلالات عصبی بگشاید. جو پاتون در پایان می‌گوید: «الهام‌گیری از مغز، می‌تواند کلید توسعه ماشین‌هایی باشد که منطقشان بیشتر به انسان شباهت دارد.»

کپشن پست تلگرام:

آیا تا به حال فکر کرده‌اید مغز چگونه تصمیم می‌گیرد؟ نورون‌های دوپامین، معروف به «مولکول لذت»، نه تنها پاداش‌ها را ردیابی می‌کنند، بلکه زمان و میزان آن‌ها را هم پیش‌بینی می‌کنند. پژوهشگران دانشگاه هاروارد و بنیاد چمپلیمود کشف کردند که این نورون‌ها نقشه‌ای ذهنی از پاداش‌های آینده می‌سازند. این سازوکار، مشابه الگوریتم‌های یادگیری تقویتی در هوش مصنوعی است که از موفقیت‌ها و بازخودها می‌آموزند. این یافته‌ها نه تنها درک ما از تصمیم‌گیری را عمیق‌تر می‌کند، بلکه افق‌های جدیدی برای طراحی سیستم‌های هوشمند و درمان بیماری‌هایی مثل پارکینسون باز می‌کند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *