یکسان یا متفاوت؟
سؤالی که شبکههای عصبی را ناتوان میکند
به نظر میرسد سیستمهای هوش مصنوعی، با وجود تمام دستاوردهای خود، نمیتوانند در تشخیص مفاهیم “همانندی” و “متفاوت بودن” موفق باشند؛ محققان نگران هستند که تلاش برای خلق ماشینهای واقعا هوشمند، ممکن است ناامیدکننده باشد.

ماشینها زمان بسیار سختتری دارند. یکی از قدرتمندترین ردههای سیستمهای هوش مصنوعی، معروف به شبکههای عصبی پیچشی یا CNN، میتواند برای انجام طیف وسیعی از کارهای پیچیده، بسیار بهتر از انسان، آموزش ببیند؛ از تشخیص سرطان در تصاویر پزشکی گرفته تا انتخاب حرکت در شطرنج Go. اما تحقیقات اخیر نشان داده است که شبکههای CNN تنها در شرایط بسیار محدود میتوانند تشخیص دهند که آیا دو الگوی بصری ساده، یکسان هستند یا خیر. اگر در این شرایط حتی کمی تفاوت ایجاد شود، عملکرد شبکه پایین میآید.
این نتایج باعث بحث بین محققان یادگیری عمیق و دانشمندان علوم شناختی شده است. آیا مهندسی بهتر CNN منتج به تشخیص یکسان بودن یا نبودن خواهد شد؟ همانطور که کودکان این توانایی را دارند؟ و یا آیا قدرت استدلال انتزاعی CNN اساساً محدود است، هر چقدر هم که هوشمندانه ساخته و آموزش دیده باشد؟ به هر حال، به نظر میرسد که اکثر محققان بر این عقیدهاند که درک یکسان یا متفاوت بودن، از ویژگیهای مهم هوش مصنوعی است.
چاز فایرستون، پژوهشگر در زمینه شناخت بصری، در دانشگاه جانز هاپکینز، بیان میکند:
این تنها من و شما نیستیم که در تشخیص یکسان یا متفاوت بودن موفق عمل میکنیم، دستهی بزرگی از حیوانات مانند اردکها و زنبورها نیز در این کار موفقند.
توانایی موفقیت در انجام کار را میتوان بنیاد و اساسی برای انواع استنباطهایی دانست که بشر انجام میدهد. آدام سانتورو، محقق موسسه DeepMind، میگوید:
آزمایشگاه هوش مصنوعی متعلق به Google، در حال مطالعه روابط یکسانی، نایکسانی است، نه فقط در تصاویر بصری بلکه در زبان طبیعی و تعاملات فیزیکی. هنگامی که از یکی از این ماشینها میخواهم تا ماشین اسباببازی را بردارد، برداشت او این خواهد بود که من در مورد همان ماشینی که با آن بازی کردهایم صحبت میکنم و نه در مورد ماشین اسباببازی متفاوت، در اتاق مجاور.
بررسیهای اخیر در مورد استدلالهای متفاوت نیز بر این نکته تأکید داشتند. نویسندگان نوشتند: ” بدون توانایی تشخیص یکسان بودن، به نظر میرسد که امید چندانی به تحقق رویای ایجاد ماشینهای استدلال بصری واقعا هوشمند وجود ندارد.”
بررسی روابط یکسان یا متفاوت بودن، حداقل از سال 2013 شبکههای عصبی را تحت تأثیر قرارداده است، زمانی که محقق پیشگام هوش مصنوعی، یوشوا بنگیو و همکار وی، کاگلار گلچهر، نشان دادند یک شبکه CNN نمیتواند تشخیص دهد که گروههایی از اشکال سبک تتریس یکسان هستند یا نه. اما این نقطه ضعف CNN ها، آنها را از سلطه بر هوش مصنوعی منع نکرد. در پایان دهه، تقریباً ۹۰٪ برنامههای Android، با قابلیت یادگیری عمیق، به آنها اعتماد کردند.
این انفجار در توانایی، دوباره علاقه برخی از محققان را برای کشف آنچه این شبکههای عصبی نمیتوانند انجام دهند، جلب کرد. یادگیری CNNها، تقریباً با تقلید از روش پردازش ورودی بینایی مغز پستانداران است؛ یک لایه از نورونهای مصنوعی، ویژگیهای ساده را در دادههای خام تشخیص میدهد، مانند خطوط روشن یا تفاوت در کنتراست. شبکه، این ویژگیها را به لایههای پیدرپی منتقل میکند و آنها را در دستههای پیچیدهتر و انتزاعی ترکیب میکند. به گفته متیو ریچی، محقق یادگیری ماشین در دانشگاه براون، روابط یکسانی یا متفاوت بودن، آزمایش خوبی برای آشکارسازی محدودیتهای CNN به نظر میرسید چرا که سادهترین چیزی است که میتوانید در مورد تصویری بپرسید که هیچ ارتباطی با ویژگیهای آن ندارد. یعنی یکسان بودن دو جسم، وابسته به این نیست که دو مثلثِ آبیاند یا دو دایرهی قرمز. رابطه بین ویژگیها مهم است، نه خود ویژگیها.
در سال 2018، ریچی و همکارانش، جونکیونگ کیم و توماس سر، CNNها را بر روی تصاویر حاصل از آزمایش استدلال تصویری مصنوعی “SVRT”، آزمایش کردند، مجموعهای از الگوهای ساده طراحی شده برای بررسی مهارتهای استدلال انتزاعی شبکههای عصبی. این الگوها، از جفت اشکال نامنظم سیاه که بر روی یک مربع سفید کشیده شدهاند، تشکیل شده بود. اگر این جفت از نظر شکل، اندازه و جهت یکسان باشند، تصویر “یکسان” و در غیر این صورت، “متفاوت” طبقه بندی میشود.
محققان دریافتند که CNNهای آموزش دیده، در بسیاری از نمونههای این الگوها میتوانند “یکسان” را از “متفاوت” با حداکثر دقت 75٪، تشخیص دهد. ریچی بیان کرد:” با بزرگتر کردن اشکال یا قرار دادن آنها در فاصله دورتر از یکدیگر، باعث کاهش دقت CNN شد.” محققان نتیجه گرفتند که شبکههای عصبی به جای یادگیری مفهومِ رابطهایِ “همانندی”، همچنان بر روی ویژگیها ثابت میشوند.
سال گذشته، کریستینا فانکه و جودی بوروفسکی از دانشگاه توبینگن، نشان دادند که افزایش تعداد لایهها در یک شبکه عصبی از شش به پنجاه، دقت آن را در آزمایش SVRT، به بالاتر از 90٪ میرساند. با این حال، آنها آزمایش نکردند که این دقت بهتر، عملکرد خوبی را در نمونههای خارج از مجموعه داده SVRT، نشان میدهد یا خیر. بنابراین این مطالعه هیچ مدرکی مبنی بر اینکه CNN با لایههای بیشتر، میتواند مفاهیم یکسان و متفاوت را تشخیص دهد، ارائه نکرد.
گیلرمو پوئبلا و جفری بوورز، دانشمندان علوم شناختی در دانشگاه بریستول، در اواخر امسال طی یک مطالعه تحقیق کردند. پوئبلا بیان کرد: “هرگاه رابطهای را درک کنید، میتوانید آن را در مورد هرآنچه پیش روی شما قرار میگیرد، استدلال کنید و تشخیص دهید. پس CNNها نیز باید با همین استاندارد رفتار کنند.”
پوئبلا و بوئرز، چهار شبکه CNN را با تنظیمات اولیه مختلف، از جمله برخی از همان مواردی که فانکه و بوروسکی استفاده کردهاند، برای مواجهه با چند تغییر در تصاویر SVRT، آموزش دادند. آنها دریافتند که تغییرات ظریف در ویژگیهای سطح پایین الگوها، مانند تغییر ضخامت رئوس یک شکل، از یک به دو پیکسل، برای کاهش نیمی از عملکرد شبکه، یعنی از درجه “تقریبا خوب” به درجه ” به سختی” کافیست.
فایرستون و پوئبلا فکر میکنند که نتایج اخیر، شواهدی تجربی ارائه می دهد که CNNهای کنونی، از توانایی استدلال اساسی برخوردار نیستند و نمیتوان با استفاده از دادههای بیشتر یا آموزش دقیقتر آنها را متحول کرد. پوئبلا میگوید:
علیرغم توانمندیهای در حال گسترش آنها، بسیار بعید است که CNNها این مشکل را حل کنند، شاید با اضافه کردن بخشی دیگر، ممکن است بخشی از راه حل پیدا شود اما به خودی خود، به نظر نمیرسد در این راه موفق شوند.
فانکه موافقت است که نتایج پوئبلا نشان میدهند، CNNها هنوز مفهوم یکسان و متفاوت را تشخیص نمیدهند. با این حال، او میگوید: “توصیه میکنم هنگامی که ادعا میکنید که شبکههای عصبی پیچشی، به طور کلی نمیتوانند این مفهوم را یاد بگیرند، بسیار مراقب باشید.” سانتورو ، محقق موسسه DeepMind، موافق است:
فقدان شواهد، لزوما دال بر عدم وجود توانایی نیست و این از لحاظ تاریخی نیز، در مورد شبکههای عصبی صادق بوده است. وی خاطرنشان کرد که ثابت شده است که شبکههای عصبی، از نظر ریاضی، قادر به تقریب زدن هر تابعی هستند. این وظیفه یک محقق است که شرایطی را تعیین کند که در آن، عملکرد مطلوب نتیجه میشود. ریچی نیز فکر میکند که یادگیری مفهوم یکسان و متفاوت، برای هر ماشینی، به موفقیت ماشین، در درک خود نیاز دارد.