سونی هندی‌کم 4K خود را با بزرگنمایی 20 برابر معرفی کرد
کمپانی Ricoh دوربین 360 درجه جدید Theta S را در ایفا معرفی کرد
بررسی اسپیکر Z623 لاجیتک
اینتل تا سال ۲۰۱۹ حافظه‌ SSD با ظرفیت ۱۰۰ ترابایت روانه ...

مقدمه ای بر آتوماتای یادگیر

فرآيند يادگيري موجودات زنده يكي از موضوعات تحقيقاتي جديد بشمار مي‌آيد. اين تحقيقات به دو دسته كلي تقسيم مي‌شوند. دسته نخست به شناخت اصول يادگيري موجودات زنده و مراحل آن مي‌پردازند و دسته دوم بدنبال ارائه يك متدولوژي براي قرار دادن اين اصول در يك ماشين مي‌باشند. يادگيري بصورت تغييرات ايجادشده در كارايي يك سيستم بر اساس تجربه‌هاي گذشته تعريف مي‌شود. يك ويژگي مهم سيستمهاي يادگير، توانايي بهبود كارايي خود با گذشت زمان است. به بيان رياضي مي‌توان اينطور عنوان كرد كه هدف يك سيستم يادگير بهينه‌سازي وظيفه‌اي است كه كاملا شناخته شده نيست. بنابراين يك رويكرد به اين مساله، كاهش اهداف سيستم يادگير به يك مساله بهينه‌سازي است كه بر روي مجموعه‌اي از پارامترها تعريف مي‌شود و هدف آن پيدا كردن مجموعه پارامترهاي بهينه مي‌باشد.

 


    در بسياري از مسائل مطرح شده، اطلاعي از پاسخهاي صحيح مساله ( كه يادگيري با نظارت[1]به آنها نياز دارد) در دست نيست. بهمين علت استفاده از يك روش يادگيري بنام يادگيري تقويتي مورد توجه قرار گرفته است. يادگيري تقويتي نه زير مجموعه شبكه‌هاي عصبي است و نه انتخابي بجاي آنها محسوب مي‌شود. بلكه رويكردي متعامد[2]براي حل مسائل متفاوت و مشكلتر بشمار مي‌رود. يادگيري تقويتي، از تركيب برنامه‌نويسي پويا و يادگيري نظارتي براي دستيابي به يك سيستم قدرتمند يادگيري ماشين استفاده مي‌كند. در يادگيري تقويتي هدفي براي عامل يادگير مشخص مي‌شود تا به آن دست يابد. آنگاه عامل مذكور ياد مي‌گيرد كه چگونه با آزمايشهاي صحيح و خطا با محيط خود، به هدف تعيين شده برسد.
    در يادگيري تقويتي يك عامل يادگيرنده در طي يادگيري با فعل و انفعالات[3] مكرر با محيط، به يك سياست كنترل بهينه مي‌رسد. كارايي اين فعل و انفعالات با محيط بوسيله بيشينه‌(كمينه) بودن پاداش (جريمه) عددي كه از محيط گرفته مي‌شود، ارزيابي مي‌گردد. علاوه بر اين در روش‌هاي يادگيري تقويتي، اولا استفاده از يادگيري روش ساده، سيستماتيك و واقعي براي رسيدن به يك جواب تقريبا بهينه را بيان مي‌كند.(پيدا كردن اين جواب بهينه با استفاده از روشهاي سنتي بسيار مشكل است.) ثانيا، دانشي كه در طي فرايند يادگيري بدست مي‌آيد، در يك مكانيزم نمايش دانش مانند شبكه عصبي يا جدول مراجعه ذخيره مي‌شود كه از طريق آن مي‌توان با محاسبات اندك و با كارايي بالايي عمل تخصيص كانال را انجام داد. ثالثا، از آنجاييكه اين روش يادگيري در محيطي بلادرنگ در حال انجام است، مي‌توان آنرا همزمان با فعاليت محيط (مانند شبكه سلولي) انجام داد. كه در اين حالت با تمام رخدادهاي پيش‌بيني نشده بصورت يك تجربه جديد برخورد مي‌شود كه مي‌توان از آنها براي بهبود كيفيت يادگيري استفاده كرد.
    مزيت اصلي يادگيري تقويتي نسبت به ساير روشهاي يادگيري عدم نياز به هيچگونه اطلاعاتي از محيط (بجز سيگنال تقويتي) است. يكي از روشهاي يادگيري تقويتي، اتوماتاي يادگير تصادفي است. اتوماتاي تصادفي بدون هيچگونه اطلاعاتي درباره اقدام بهينه (يعني با در نظر گرفتن احتمال يكسان براي تمامي اقدامهاي خود در آغاز كار) سعي در يافتن پاسخ مساله دارد. يك اقدام اتوماتا بصورت تصادفي انتخاب مي‌شود، در محيط اِعمال مي‌گردد. سپس پاسخ محيط دريافت شده و احتمال اقدامها بر طبق الگوريتم يادگيري بِروز مي‌شوند و روال فوق تكرار مي‌گردد. اتوماتاي تصادفي كه بصورت فوق در جهت افزايش كارايي خود عمل كند، يك اتوماتاي يادگير تصادفي گفته مي‌شود. در ادامه به معرفي اتوماتاي يادگير تصادفي مي‌پردازيم.

    1.1.تاريخچه اتوماتاي يادگير

    در دهه 1960 ميلادي Y.Z. Tsypkin روشي براي ساده كردن مسائل فوق به مساله‌اي براي تشخيص پارامترهاي بهينه و بكاربردن روشهاي تپه نوردي براي حل آن معرفي كرد. Tsetlin و همكارانش در همان زمان كار بر روي اتوماتاي يادگير را آغاز كردند. مفهوم اتوماتاي يادگير نخستين بار توسط وي مطرح شد. Tsetlin به مدلسازي رفتارهاي سيستمهاي بيولوژيكي علاقمند بود و يك اتوماتاي قطعي كه در محيطي تصادفي فعاليت مي‌كرد را بعنوان مدلي براي يادگيري معرفي نمود. در تحقيقات انجام شده بعدي، استفاده از يادگيري در سيستمهاي مهندسي نيز در نظر گرفته شد. رويكرد ديگري كه توسط Narendra و Viswanatan ارائه شد، در نظر گرفتن مساله بصورت پيدا كردن اقدام بهينه از ميان مجموعه‌اي از اقدامهاي مجاز يك اتوماتاي تصادفي بود. تفاوت دو روش اخير در اينست كه در روش اول در هر تكرار فضاي پارامترها بِروز مي‌شود اما در روش دوم فضاي احتمال بِروز مي‌گردد. پس از آن اكثر كارهاي انجام شده در تئوري اتوماتاي يادگير، در ادامه مسير معرفي شده توسط Tsetlin انجام شدند. Varshavski و Vorontsova اتوماتاي يادگير با ساختار متغير را مطرح كردند كه احتمالات اقدامهاي خود را بِروز مي‌كرد و درنتيجه باعث كاهش تعداد حالات نسبت به اتوماتاي قطعي مي‌شد .
    نخستين تلاشها براي استفاده از اتوماتاي يادگير در كاربردهاي كنترلي توسط Fu و همكارانش انجام شد. از جمله اين كارها مي‌توان به كاربردهايي از اتوماتاي يادگير در تخمين پارامترها[4]، تشخيص الگو[5] و تئوري بازي[6]اشاره كرد. McLaren روشهاي بِروز رساني خطي و ويژگيهاي آنها را بررسي نمود. و پس از آن Chandrasekar و Shen روشهاي بِروزرساني غير خطي را بررسي كردند . كتاب Narendra و Thathachar تحت عنوانLearning Automata مقدمه‌اي به تئوري اتوماتا است كه كليه تحقيقات انجام شده تا اواخر دهه 1980 را در بر مي‌گيرد. مثالها و كاربردهاي متعدد ديگري از اتوماتاي يادگير نيز توسط Najim و Pznyak در كتابي با عنوانLearning Automata: Theory and Application ارائه شده است.
    يك اتوماتاي يادگير را مي‌توان بصورت يك شئ مجرد كه داراي تعداد متناهي اقدام است، در نظر گرفت. اتوماتاي يادگير با انتخاب يك اقدام از مجموعه اقدامهاي خود و اِعمال آن بر محيط، عمل مي‌كند. اقدام مذكور توسط يك محيط تصادفي ارزيابي مي‌شود و اتوماتا از پاسخ محيط براي انتخاب اقدام بعدي خود استفاده مي‌كند. در طي اين فرآيند اتوماتا ياد مي‌گيرد كه اقدام بهينه را انتخاب نمايد. نحوه استفاده از پاسخ محيط به اقدام انتخابي اتوماتا كه در جهت انتخاب اقدام بعدي اتوماتا استفاده مي‌شود، توسط الگوريتم يادگيري اتوماتا مشخص مي‌گردد. در بخش بعد جزئيات قسمتهاي يك اتوماتاي با ساختار متغير[7] معرفي مي‌شود.


    [1] Supervised learning
    [2] Orthogonal
    [3] Interaction
    [4] Parameter estimation
    [5] Pattern recognition
    [6] Game theory
    [7] Variable Structure Learning Automata