یک نفر از یک سمت اتاق یک توپ برای شما پرتاب میکند و شما آن را میگیرید. ساده است نه؟ در حقیقت این پروسه یکی از پیچیدهترین پروسههایی است که تا بهحال سعی کردهایم از منظر رباتیک آن را درک کنیم، چه برسد که بخواهیم مراحل آن را دوبارهسازی کنیم!
اختراع و ساخت دستگاهی که مانند انسانها قدرت بینایی داشته باشد کار بسیار سختی است، نه فقط به این علت که به کامپیوتر دستور بدهیم آن را انجام دهد، بلکه هنوز چگونگی انجام این کار در قدم اول را هم بلد نیستیم. پروسهای که رخ میدهد تقریبا به این شکل است: تصویر توپ از چشم شما عبور میکند و با شبکیه چشم شما برخورد میکند و شبکیه پس از انجام چند آنالیز اولیه آن را به مغز ارسال میکند و قشر بینایی آنالیزهای عمیقتری روی آن انجام میدهد.
پس تصاویر را به بخشهای دیگر قشر بینایی انتقال میدهد تا در آنجا تصویر را با هرآنچه که تا حالا مغز شناخته است، مقایسه کند و سپس با توجه به ابعاد و ظاهر شیء، آن را دستهبندی میکند و تشخیص میدهد که آن جسم چیست، حدودا چقدر وزن دارد و در ادامه مغز تصمیم به انجام کاری (واکنشی) میگیرد: دستتان را بلند میکنید و توپ را میگیرید. این عکسالعمل بهصورت ناخودآگاه و در پروسه دوم اتفاق میافتد و هیچوقت خطایی در آن رخ نمیدهد. بنابراین شبیهسازی مراحل دیدن تصاویر از سوی انسان مشکل اصلی نیست، بلکه مشکل مجموعه این مراحل است که عملکرد هرکدام به بخش دیگری وابسته است. تا بهحال کسی این مراحل را ساده تلقی نکرده است. البته بهجز «ماروین مینسکی» نابغه تکنولوژی Al (هوش مصنوعی) که در سال ۱۹۶۶ به یک دانشآموز دیپلمه چگونگی اتصال دوربین به کامپیوتر را آموزش داد و از او خواست که مراحل را شرح دهد. آن نوجوان امروز ۵۰ سال سن دارد و میگوید هنوز درحال کارکردن روی آن موضوع است! مطالعات جدی در این زمینه از دهه ۵۰ و در سه بخش کلید خورد: ساخت چشم (سخت)، ساخت غشای بصری (خیلی سخت) و ساخت دیگر مراحل مغز (سختترین مرحلهای که تا بهحال دیده شده).
دیدن
خلق یک چشم جدید، مرحلهای است که بیشترین پیشرفت را در آن داشتهایم. در طول چند دهه گذشته، سنسورها و پردازشگرهای تصویری را خلق کردهایم که به شکلی با تواناییهای انسان قابل رقابت است. با وجود لنزهای اپتیکال بینقص و پیکسلهای ساخته شده با دقت نانومتری، دقت و حساسیت دوربینهای جدید را باید شگفتانگیز بنامیم. دوربینهای جدید قادرند هزاران تصویر را در کسری از ثانیه ثبت کنند و فاصله را با دقت بالایی تشخیص دهند. بهرغم وضوح بالای خروجیهای این دوربینها، هنوز تفاوت چشمگیری نسبت به دوربینهای سوراخ سوزنی قرن ۱۹ مشاهده نمیکنیم. بهترین سنسور دوربین شناخته شده قادر به تشخیص یک توپ نبود، چه برسد به ارسال دستور برای گرفتن آن. به معنای دیگر سختافزار بدون نرمافزار کاملا محدود است. این مساله خود مشکل بزرگتری به حساب میآید. اما به لطف تکنولوژی دوربینهای مدرن، سیستم غنی و انعطافپذیری برای انجام کارهایمان فراهم شده است.
توضیح دادن
اینجا جای مناسبی برای توضیح و کالبدشکافی اعصاب نیست، اما کافی است که بگوییم بیشتر قسمتهای مغز برای مراحل دیدن استفاده میشود و مغز انسان با دیدن و صحبت کردن تکامل پیدا میکند البته این ویژگی شامل سلولها نیز میشود. میلیاردها سلول وظیفه دارند که الگوها را از سیگنالهای شلوغ و بهم ریخته شبکیه خارج کنند. در صورت وجود کنتراست در طول یک خط یا زاویه خاص یا حرکت سریع اشیا در جهت خاص، حسگرهای چشم تحریک میشوند. شبکههای نرونی سطح بالاتر، این الگوها را مانند حلقه درحال حرکت به سمت بالا به الگوهای بزرگتری تبدیل میکنند. سپس شبکه دیگری از نرونها نیز با آنها هماهنگ میشود. این حلقه به رنگ سفید و دارای خطهایی به رنگ قرمز است و تصاویر با جزئیات کاملتری از این مواد اولیه بهوجود میآیند.
این فرمول برای چند شیء در فضای تحت کنترل قابل اجرا بود. اما تصور کنید که میخواهید تمام اشیای اطرافتان را به این شکل تعریف کنید، با زوایای مختلف با درجه نوردهی و حرکت متغیر و صدها ویژگی متفاوت دیگر. واضح است برای رسیدن به نوپا ترین درجه از این نوع شناخت، نیازمند حجم عظیمی از دادهها هستیم. نگرش «ساخت از ابتدا تا انتها» با تقلید از آنچه در مغز یافته شده، امیدوارکنندهتر است. یک کامپیوتر قادر به اجرای یکسری تغییرات روی تصویر است و میتواند لبههای جسم را تشخیص دهد و همچنین روی اشیایی تغییر ایجاد کند که در یک تصویر آن را مشخص کردهایم. این مراحل شامل مقدار عظیمی از معادلات ریاضی و آمار است که در کامپیوتر به اطلاعات تبدیل میشوند. کامپیوتر اشیایی را که مشاهده میکند با اشکالی که برای شناسایی در اختیار دارد تطبیق میدهد. به روشی که مغز ما همین پروسه را انجام میدهد.
دانشمندان درحال کار روی اسمارتفونها هستند که آنها را قادر سازند اشیایی که از دریچه دوربین دیده میشوند را تشخیص دهند و این کار را با نمایش دادن اسامی اشیای درون محیط، روی تصویر انجام میدهند. در اینجا نمونه تصویری از یک خیابان با لیبلهای به شکل نمونه اولیه داریم. در سالهای اخیر به دلیل نیاز به حجم عظیمی از محاسبات، ساخت و بهکارگیری شبکههای عصبی مصنوعی غیرعملی شدهاست و همچنین شاهد پیشرفتهای جدی در زمینه محاسبات موازی بودهایم و در این سالها هجوم دانشمندان به سمت استفاده از سیستمهای تقلیدی مشابه سیستم مغز انسان افزایش یافته است. مراحل شناسایی الگوها نیز هر روز در حال سرعت گرفتن است و همواره شاهد پیشرفتهایمان در این زمینه هستیم.
درک کردن
شما میتوانید سیستمی طراحی کنید که هر نوع سیبی را در هر زاویهای، درحال حرکت یا ثابت تشخیص دهد حتی به شکل گاز گرفته شده، اما این سیستم قادر به تشخیص پرتغال نخواهد بود! به همین دلیل سیستم نمیتواند به شما بگوید سیب چیست؟ آیا قابل خوردن است؟ سایز آن چقدر است؟ یا اینکه چه کاربردی خواهد داشت؟ مشکل اینجا است که نرمافزارها و سختافزارها بدون داشتن سیستمعامل، کاربرد زیادی برای شما نخواهند داشت. این سیستمعامل برای ما، همان بخش باقیمانده مغزمان است که شامل حافظه کوتاهمدت و بلندمدت، ورودیهای بهدست آمده از حواس مختلف، توجه و شناخت و میلیاردها درس مختلف بهدست آمده از تریلیونها تعامل شکل گرفته با دنیا است که با الگویی غیرقابل فهم نوشته شدهاند. این بخشها جهت استفاده شبکه متصل و پیچیده نورونهای عصبی تشکیل شدهاند که خود این شبکه نورونها پیچیدهتر از هرچیزی است که تا به حال با آن برخورد کردهایم. ما در مرز علم کامپیوتر و بهطور عمومیتر، در مرز علم هوش مصنوعی قرار داریم که متاسفانه تنها در حال چرخیدن به دور خودمان هستیم.
با وجود دانشمندان کامپیوتر، مهندسان، روانشناسان و دانشمندان علوم اعصاب، به سختی میتوانیم تعریف سادهای از کاربرد مغزمان داشته باشیم و بدتر اینکه حتی قادر به شبیهسازی آن هم نیستیم اما این به آن معنا نیست که علم در بنبست قرار گرفته باشد. آینده بینایی کامپیوتر در ساخت سیستمهای قوی و تخصصی است که از طریق سیستمهای گستردهتری که تمرکز خود را روی مفاهیم پیچیدهای همچون «درک مفهوم»، «تمرکز» و «عمل کردن» قرار دادهاند، به وجود میآیند. با این وجود، بینایی کامپیوتر حتی در ابتداییترین مرحله خود، باز هم خارقالعاده عمل میکند. در دوربینها، قادر به تشخیص چهره و لبخند است. در ماشینهای بدون سرنشین، قادر به خواندن علائم ترافیکی و دیدن رهگذران است. در رباتهای موجود در کارخانهها، قادر به نظارت بر دستگاهها و حرکت در میان کارکنان کارخانه است. برای رساندن سطح بینایی کامپیوترها به سطح و کیفیت انسانی، راه بسیار طولانی در پیش داریم، اما با توجه به حجم عظیم و پیچیدگی این تکنولوژی، همین که کامپیوترها تا به امروز قابلیت دیدن دارند جای شگفتی دارد.