「非合理行動とシナプス学習則」


   酒井 裕

   玉川大学


Abstract

動物はしばしば、報酬を最大化するような合理的な意思決定の仕方を学習できずに、非合理な行動を示すことがある.しかも、非合理な意思決定の仕方は無数に存在する中で、特定の法則性を示すことがある.このような法則性を生み出す学習アルゴリズムを絞り込むことで、報酬最大化という本来の目的以外の脳の学習原理を探っていくことができる.さらにその学習原理を実現するシナプス学習則に必要な性質を導くことができる.

 ここでは、確率的に報酬が与えられる単純な選択課題において観測される非合理行動として知られているマッチング行動に注目する.その法則性が出る学習アルゴリズムに共通の性質を明らかにし、シナプス学習則として必要な性質を導く.また、この種の学習戦略は、一見、非合理のようであるが、意思決定に用いる情報源を適切に探索するメカニズムと共に用いれば、最終的に報酬最大化できることが示せる.つまり、マッチング行動を生む学習戦略自体は合理的であるが、適切な情報源を探索できていない段階で非合理な行動が顕れるのではないか、と考えられる.