Sedikit Fakta Yang Diketahui Tentang Game - Dan Mengapa Itu Penting

From CNFT.wiki
Jump to navigation Jump to search


Sebagian besar literatur tentang permainan Cournot mengasumsikan fungsi permintaan stasioner. Literatur menetapkan bahwa hasil jangka panjang dari model oligopoli Cournot tergantung pada mekanisme pembelajaran yang mendasari, rasionalitas perusahaan, dan ukuran memori perusahaan. Dalam permainan Cournot standar (Cournot, 1838), perusahaan bersaing dalam produksi barang identik. Masalah mengelola produksi sambil menghadapi perubahan permintaan menjadi lebih sulit jika ditambah dengan kurangnya informasi. Serangkaian senjata/aksi yang dapat dipilih oleh agen mewakili kuantitas produksi yang terpisah; di sini, ruang tindakan dipesan. Masalahnya kemudian dapat dilihat sebagai pencarian jalur asal-tujuan yang optimal. Masalah permainan rata-rata yang terkait dapat terdiri dalam mempertimbangkan populasi agen yang sangat besar (bahkan sangat banyak) dengan tujuan yang sama dan dengan biaya yang juga tergantung pada kepadatan populasi. Pada Bagian 4, kita memulai studi untuk populasi agen slot pragmatic play dengan secara formal memperkenalkan persamaan kontinuitas untuk aliran dan interpretasi yang sesuai dari solusi yang mungkin. Juga diketahui bahwa teorema perbandingan sangat penting untuk mendekati secara numerik sistem solusi QVIs.

Kami menyelidiki skalabilitas dalam hal jumlah perusahaan dalam sistem dan ukuran ruang tindakan. Dalam model dengan perusahaan simetris, agen individu menghasilkan jumlah yang sama; namun, asimetri dalam perusahaan dapat menyebabkan hasil yang tidak adil dengan perbedaan substansial dalam kinerja agen yang berbeda. -strategi rakus. Kami memeriksa hasil kami dalam kaitannya dengan tiga jenis utama keseimbangan yang terkait dengan permainan Cournot: keseimbangan Walrasian, keseimbangan Cournot/Nash, dan keseimbangan kolusi. Kami mempertimbangkan tiga jenis non-stasioneritas dalam permintaan. Mereka fokus pada tiga jenis perusahaan; perusahaan dalam eksperimen kami mirip dengan perusahaan tanpa memori seperti yang dipertimbangkan dalam makalah mereka. Seiring dengan faktor lingkungan, aktivitas perusahaan pesaing lainnya juga dapat mempengaruhi permintaan pasar dari perspektif satu perusahaan. pendekatan -serakah. Algoritme ini mendeteksi dan mengukur perubahan imbalan karena permintaan pasar yang bervariasi dan tingkat pembelajaran dan tingkat eksplorasi yang bervariasi secara proporsional dengan tingkat perubahan permintaan, sehingga memungkinkan agen untuk mengidentifikasi tindakan optimal baru dengan lebih baik.

Kami menyelidiki kinerja pendekatan kami dalam hal responsif terhadap perubahan permintaan. Kami mengevaluasi pendekatan yang kami usulkan secara empiris dengan menjalankan berbagai jenis simulasi. Kami mulai dengan simulasi skala kecil sederhana yang sama seperti yang digunakan di (Waltman dan Kaymak, 2008; Xu, 2020); satu-satunya perbedaan adalah bahwa kami mempertimbangkan fungsi permintaan non-stasioner. Para peneliti juga telah menggunakan metode RL lain untuk memfasilitasi pembelajaran dalam permainan Cournot berulang (Kimbrough dan Lu, 2003; Waltman dan Kaymak, 2008; Xu, 2020), tetapi menurut pengetahuan kami, semuanya mempertimbangkan permintaan stasioner. Pembeli harus membeli penutup baru untuk itu. Tetapi hasil ini seharusnya tidak langsung jelas jika kita adalah bagian dari proyek multi-tahap dan keberhasilan pilihan kita, yaitu hasil yang terkumpul hanya akan jelas pada akhirnya. Namun, ini tidak sejalan dengan banyak pengaturan pasar dunia nyata karena sebagian besar tidak stasioner karena faktor-faktor seperti perubahan musim, tren, dan seperti yang terlihat baru-baru ini, krisis kesehatan global.

Setiap agen menangani masalah bandit multi-senjata non-stasionernya sendiri secara terpisah. Bandit multi-senjata non-stasioner terutama dibagi menjadi dua kategori: bandit istirahat (Gittins dan Jones, 1979; Bouneffouf et al., 2014; Bouneffouf dan Féraud, 2016; Levine et al., 2017; Seznec et al. , 2020) dan bandit yang gelisah (Gafni dan Cohen, 2018; Liu et al., 2012; Meshram et al., 2018; Besson dan Kaufmann, 2018; Cheung et al., 2019; Russac et al., 2019; Wei et al.., 2016; Seznec et al., 2020). Dalam kasus bandit yang beristirahat, distribusi yang mendasarinya hanya berubah ketika lengan dimainkan. Untuk mengatasi keterbatasan pendekatan masa lalu ini, kami mempertimbangkan permainan Cournot berulang dengan fungsi permintaan non-stasioner. Untuk membantu agen individu dalam mempelajari dan membuat keputusan, kami memodelkan masalah sebagai bandit non-stasioner. Selain itu, kami berasumsi bahwa agen menggunakan mekanisme pembelajaran yang sama. Kami kemudian menggunakan informasi ini untuk menentukan peringkat setiap pemain. Konsepnya sederhana: satu pemain menjalankan jalur berkelok-kelok sementara pemain lain mencoba menembak mereka sebelum mencapai akhir. Salah satu solusi mendominasi yang lain.