題:
關於評級通貨膨脹有很多研究嗎?
ETD
2012-12-09 16:52:10 UTC
view on stackexchange narkive permalink

馬格努斯·卡爾森(Marknus Carlsen)在昨天舉行的2012年倫敦國際象棋經典賽中的抽籤確保了他在下一次發布的FIDE評分榜中的排名將超過卡斯帕羅夫(Kasparov)以前的2851。成就與卡斯帕羅夫(Kasparov)與菲舍爾(Fischer)的對抗。 要清楚,這不是我想要的。

此類討論的關鍵要素之一是,人們對Elo評級總體上是否隨著時間推移經歷了通貨膨脹:今天的2700多個大師級遊戲要比20年前多得多,這是因為遊戲實力的普遍提高,還是僅僅由於總體通貨膨脹率的上升? 我也不打算徵求關於是否如此的裸露意見。我有興趣了解的內容:

已進行了哪些認真的研究嘗試來回答關於FIDE Elo等級是否隨時間而自然膨脹的實證性問題,除了玩家池中整體實力的提高以外?

Elo等級系統上的Wikipedia條目對此事有話要說,並且還指向化學計量學的傑夫·索納斯(Jeff Sonas)發表的一篇文章。除了為他人工作提供任何指示外,我還歡迎一個答案,該答案給出了索納斯主要觀點的清晰簡潔的總結。

要考慮的另一件事是USCF評級的通貨膨脹。 USCF已經並且定期對玩家的恐怖做出調整。由於USCF和FIDE使用相同的系統,從根本上說,如果通貨膨脹會影響USCF而不是FIDE,我會感到驚訝。
這些系統是不同的,例如,USCF的評級下限顯然是通貨膨脹因素。
七 答案:
RemcoGerlich
2013-02-12 20:22:25 UTC
view on stackexchange narkive permalink

令我驚訝的是,肯·雷根(Ken Regan)和蓋伊·海沃斯(Guy Haworth)撰寫的“內在像棋評級”尚未發表。這正是對通貨膨脹率進行認真研究的要求。 PDF

基本上,他們獲得了三個時期(1976-1979年,1991-1994年,2006-2009年)的遊戲,這些遊戲在幾個評分範圍內(例如,兩個玩家的得分均在2200分之內, 2300分之10分之內,以此類推),並排除了可能異常的遊戲類型,例如團隊比賽。閱讀該文件,它看起來非常透徹。

然後他們將游戲與Rybka 3系統地進行了比較。

結論中的一些句子:

我們得出的結論是,實際棋手的Elo等級與象棋程序和座席擬合所衡量的舉動選擇的內在質量之間存在一種平滑的關係。此外,對於所有三個時間段的相應條目,獲得的最終擬合值幾乎相同。

在我看來,這是有力證據表明存在評級通脹。

>
感謝您發布此信息,我也來分享了此信息。這是將玩家與客觀標准進行比較的唯一研究領域。我所看到的有關對通貨膨脹進行評級的所有論點都是主觀的,而且通常是軼事。就個人而言,我認為Morphy大概是2300年這一事實並沒有消除我對他的比賽或他當時相對於競爭對手的技能的欣賞。
Tony Ennis
2012-12-09 19:29:07 UTC
view on stackexchange narkive permalink

我戳了一些。您可能已經看過這些頁面,但是無論如何我都會將它們發布:

a。 此頁面會讓您感興趣。它包括埃洛本人寫給他的一封信的影印本,其中寫明了這種可能性:

因此,除非採取一些措施使其穩定,否則評分錶可能會隨時間推移而漂移。

時間就是這樣的固定點。

b。此外,最近從偏遠地區傳來的高評級的啟示是否已經回答了“通貨膨脹”問題? 請參閱本頁的“玩家池”部分以提及該問題。 其他支持,儘管它既不學術,也不是特別有用。搜索“ isol”。 這是另一個軼事,顯示孤立的人群會發生什麼(還有“為什麼下棋的人瘋狂”主題的另一個候選人!)我沒有進行事實核查,但應該很容易做到。 p>

c。 Elo Wiki文章談到通貨膨脹,就好像這是一個公認的事實。

d。這是一篇有關通貨膨脹的德語文章後續措施。看看1986年的那支吸煙槍!

我沒有從a。看到頁面,謝謝。關於b。,我不知道您指的是什麼。你能詳細說明嗎?
我認為,沒有實際的錨點,就不可能準確地進行調整。最後,我們只是在隨意調整一些任意值。
可能吧但是調整收視率以產生相似的分佈曲線可能是一個好的開始。例如,幾年前,USCF調整了收視率,因此俱樂部的平均水平是1500。我不知道他們是否仍然這樣做。
@TonyEnnis當然,我認為目前為止可能會達到最好。具體來說,我的意思是:如果今天的“普通俱樂部球員”實際上比50年前更好,那會發生什麼?並不是說我們可以讓他們與過去的球員對抗……所以我們剩下的就是以某種方式估算球員的實力並進行調整。也許使用計算機程序(在標準的指定平台上運行),我們可以擁有某種公正,持久的錨點。但這甚至會帶來一些問題,例如發現與基準計劃相適應的策略等。
Pep
2012-12-13 07:01:20 UTC
view on stackexchange narkive permalink

絕對而言,卡爾森2012肯定比1985年的卡斯帕羅夫更強大。

如果卡爾森2012的時光之旅與卡斯帕羅夫1986比賽,卡爾森將擊敗卡斯帕羅夫。這僅僅是因為技術輔助的準備工作效率更高,而且卡爾森在開放理論方面也有優勢,因為他擁有1987-2012年積累的知識,而這是卡斯帕羅夫所沒有的。

但是,卡斯帕羅夫可能比卡爾森更強大。如果我們將2000年6月的FIDE前100名名單(可以獲取的最古老的名單)拿出來,我們會發現Kasparov的2849 Elo與99位關注者的平均得分為2641(Elo距離為208分),而Calsen則是Fide的前100名2012年12月,Elo的2個追踪者與他的99個關注者進行了平均2702的競爭(Elo距離為146點)。對於Elo來說,玩家A比玩家B好2倍,200分意味著好4倍,依此類推。因此,在該列表中,Kasparov平均比其所有99位關注者高4倍以上。可能僅比其99位關注者的平均值少3倍。

如果我們將卡斯帕羅夫的距離與他的99位關注者的最大距離進行比較,並將其與卡爾森的最佳距離進行比較,我們將能夠確定哪個玩家實際上是最強的,因為有99個數據點,離群值(

我想知道卡爾森或卡斯帕羅夫是否真的在乎誰會更好。

您關於卡斯帕羅夫是比卡爾森更強的球員的論點在於將每個人與接下來的99名最佳球員進行比較。您正確地註意到Elo等級是相對的,但是您的論點做出了第二個未闡明的假設,即今天的下一個99名球員的平均踢球強度與卡斯帕羅夫鼎盛時期的下一個99名相同。如果第二個假設不成立,則需要將卡斯帕羅夫和卡爾森與不同標准進行比較,您需要找到一群與卡斯帕羅夫時代相同的人。該池可能是您的一般初學者,而不是超級宗師。
Arlen
2013-07-01 00:50:07 UTC
view on stackexchange narkive permalink

Elo的系統有兩個組件。一個獨立於歷史,另一個獨立於歷史。他的用於在事件過程或一段時間內創建“績效評估”的系統沒有任何歷史意義;它只是衡量指定時間內的效果的指標。 (在這一點上,記憶使我無法接受,但我認為,當他計算FIDE的評級時,這就是他使用的方法。)

然而,聯邦政府使用的Elo系統地球確實具有歷史成分,即通過計算增量(即與先前評級相比的變化)來計算評級。

基於歷史的系統具有自然的通縮趨勢。該系統是封閉系統,沒有創建新點。因此,新玩家進入,從既有玩家中獲得積分,然後退出(通過死亡或退休),然後將所有這些積分返還給下一批上升的玩家。

許多想法已經嘗試過以補償這個,有些比其他更好。加上70年代初期USCF的商業壓力,要求其提高評分速度(相當憤世嫉俗的觀點是,玩家會從USCF購買一本書並參加比賽,他們的評分會上升,從而鼓勵他們購買另一本書

由於Elo的系統是基於正常的(鐘形)曲線,因此嘗試通過測量兩個極端來衡量通貨膨脹是毫無意義的。與實際實力的變化或任何形式的通貨膨脹相比,極端情況更容易受到被評估球員總數的影響。

alex1220
2016-12-03 00:07:29 UTC
view on stackexchange narkive permalink

我有一個簡單的主意。我們來看看一台象棋計算機(硬件和軟件),它的等級是20年前測得的,可以通過與其他20年前具有已知等級的象棋計算機一起玩來進行。現在,讓我們通過與現代棋牌計算機一起玩,以目前的已知等級來衡量其等級(完全相同的硬件加上完全相同的軟件)。兩次測量的差異將構成過去20年的評級通脹。很簡單?

它將或多或少地計算*計算機*而不是人類玩家的額定通脹率。人類與計算機之間的對抗方式不同。
Kostya_I
2019-05-15 14:57:17 UTC
view on stackexchange narkive permalink

Regan-Haworth論文的結論應該帶有一絲鹽味,因為這似乎與其他遊戲的計算機分析在更好的軟硬件和更先進的數學方法上相矛盾。他們在那裡得出結論(見表9),e。例如,1977年的卡波夫(Karpov)的水平略低於2001年的卡斯帕羅夫(Kasparov)和2008年的阿南德(Anand)(預計得分約47%),實際上好於2005年的托帕洛夫(Topalov)和2011年的波諾馬洛夫(Ponomariov)。因為卡斯帕羅夫(Kasparov-2001)為150得分比Karpov-1977高出100分,該得分將使他獲得70%的得分。我看不到如何與沒有評級通脹的說法相協調。

請注意,與問題中的隱含聲明相反,沒有任何機制可以使評級達到反映玩家池中整體實力的變化。憑經驗可能是2600玩家的典型實力在特定時間段內沒有變化的情況,但這只是一個巧合,而不是ELO系統基本屬性的反映,並且肯定不能推廣。

如果我們只是天真地定義通貨膨脹並僅衡量前100名參與者的平均評分,那麼從此鏈接可以看出,直到2012年,通貨膨脹率一直穩定,而從那以後通貨膨脹-過去7年間,前100名的平均評分在2700和2705之間波動。

ToddM
2017-02-02 04:14:42 UTC
view on stackexchange narkive permalink

首先,您必須定義自己的意思。例如,這是否最能說明您是那個時代最主導的玩家?還是說您的播放器的質量優於其他所有播放器。如果質量就是您的意思,那麼您如何定義質量?

Paul Morphy可能是最主要的參與者。例如,當他12歲的時候,他在一場3-0比賽中擊敗了前十名球員(洛文塔爾)。根據Edo和Chesmetrics的說法,他在12歲時可能已經是世界上最好的球員之一!在21歲的時候,他與5名前十名選手(伯德,巴恩斯,博登,德·里維埃雷和洛文塔爾)同時對戰,並取得3-2的得分。

但是,大多數人認為,支配地位不能很好地表明誰是最好的。畢竟,Morphy被描述為第一位現代國際象棋棋手。與隨後的冠軍相比,他的比賽較弱。

已使用的另一個定義是遊戲質量。但是,這個定義也有很多問題。在1900年的數百人中,有很多人認為Steinitz或Lasker是有史以來最出色的球員,他們辯稱他們對開放和現代理論的了解將使他們超越過去。但是,路易斯·保爾森(Louis Paulsen)對此假設提出了非常巧妙的論據。他認為,如果墨菲(擁有照片的記憶並在19歲之前記住了路易斯安娜條形碼)能夠重獲新生,那麼它將在一年內學習開場知識和現代理論,並能夠與現代國際象棋選手成功競爭。

Regan認為,能夠使用國際象棋計算機和現代培訓方法的現代國際象棋棋手比過去的棋手更像計算機。這並不奇怪,因為他們是經過計算機培訓的,但這是否意味著現代玩家真的更好?這就引出了一個問題,如果Fischer或Capablanca可以使用現代計算機,他們會怎麼做?

此外,雷根教授的分析計算機使我感到不完整,因為它僅涉及五年的時間,並且未提及分析中包含的參與者。 Matej Guid教授和Ivan Bratko教授對計算機進行了更徹底的分析,發現實際上卡帕布蘭卡比現代玩家更像是一台計算機! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-。但是,吉德和布拉特科指出,由此得出結論,卡帕布蘭卡是一個更好的球員,這是一個問題。也許他頗為安寧的風格導致了他可能失誤的職位減少。因此,他的失誤率較低,但與更具侵略性的球員相比,他對對手的壓力也較小。實際上,卡帕布蘭卡與他的同時代人相比,抽獎比例很高。

相反,像卡斯帕羅夫這樣的高戰術水平的球員可能會因為他的打法而受到懲罰,因為他的打法更有可能導致高戰術位置,尤其是計算機在尋找錯誤時尤其如此。實際上,計算機在對抗戰術玩家方面比在戰術扮演次要角色的位置或特別是封閉位置玩家表​​現更好。因此,依賴於計算機檢測到的錯誤數量的計算機分析很可能會有利於穩固的持倉者。相比之下,像卡斯帕羅夫這樣的富於攻擊性的球員可能會比其他一些球員犯下更多的戰術錯誤,因為他尋求的位置非常複雜,但他的對手會犯更多的錯誤!

因此,您需要一個錯誤加權系統,該系統不僅要計算每100步的錯誤百分比(這基本上就是Regan和Guid和Bratko所做的事情)。相反,您需要計算錯誤率和對手錯誤率之間的差。畢竟,國際象棋所犯的錯誤要少於對手。向對手施加壓力以促使他們犯更多錯誤,這被認為是很好的品質。

但是,我修改後的計算方法導致了另一個問題,那就是這些計算機分析沒有考慮對手的實力。例如,拉爾森(Larson)可能獲得很高的象棋指標評分,因為他的進取(樂觀)風格導致他在較低評分的球員中佔據優勢。但是,他在與同等級別的球員對局時遇到了麻煩。其他球員經常爭辯說,他在與其他高評價球員的比賽中過於樂觀。為避免出現此問題,計算機錯誤檢查分析應僅著眼於強大的競爭對手(例如前10名,20名或100名玩家)的比賽。但是,這仍然不能解決隨著時間的推移而增加激烈競爭的問題。

能否通過查看諸如Chessmetrics之類的反向評級來糾正提高比賽質量的問題?實際上,我更喜歡Edo評級系統 http://www.edochess.ca/,因為統計假設更好。例如,化學計量學假設玩家的最高評分發生在40歲時。我懷疑這是否對每個人都正確,並且許多球員在那個年齡之前就放棄了國際象棋,或者他們的比賽只是幾年來的最高水平(例如,哈里·尼爾森·皮爾斯伯里(Harry Nelson Pillsbury),Charousek,菲舍爾,莫菲,魯賓斯坦,罰款)。不幸的是,江戶只比較了1811年至1920年的球員等級。據江戶稱,卡帕布蘭卡和莫菲被評為該時代的兩名最高球員。根據Chessmetrics,Capablanca和Lasker是兩個最佳玩家(Morphy甚至沒有進入前十名。)根據Chessmetrics,Zukertort,Steinitz,Tarrasch,Lasker,Pillsbury,Maroczy,Marshall,Janowsky,Chigorin,Schelecter,Blackburne,杜拉斯(Duras),蒂希曼(Teichmann),諾伊曼(Neumann),維德馬爾(Vidmar),古斯伯格(Gunsberg),魯賓斯坦(Rubinstein)和伯恩(Burn)比墨菲(Morphy)好。這兩個評分系統之間還有許多其他差異。

如果創新會隨著時間的推移在特定的國際象棋時代內佔據主導地位,並且隨著比賽強度的提高,隨著時間的推移創新變得越來越困難,那麼僅通過查看前30名球員的比賽記錄就無法衡量出真正的統治地位。也就是說,馬格努斯·卡爾森(Magnus Carlsen)統治對手要比過去的冠軍要難得多。如果您查看落後評級,很容易看到頂級球員評級之間的差異幅度隨著時間的推移而逐漸減小。因此,我認為,考慮到隨時間推移而難以控制的Edo類型統計模型將是一種比以前嘗試過的方法更好的方法。例如,菲舍爾(Fischer)是他那個時代的統治者,因為他連續贏得了20場比賽。與這種連勝紀錄相比,Kasparov或Karpov最長的連勝紀錄是什麼?根據塞拉萬的說法,他們最長的連勝紀錄是七場比賽。

當然,我並不是說連勝是一個很好的指標。我只是爭辯說,在評分或與其他頂級玩家的個人比賽中的優勢是一項有用的指標,在當前的反向評分系統中並未明確考慮。

因此,我的夢想分析是您使用Edo評級基於一個數據庫,該數據庫僅包含每五年周期前20名或30名玩家。完成此分析後,您將根據優勢因子對結果進行加權。也就是說,最近的玩家會獲得獎勵因子,該獎勵因子是通過估算隨著時間的推移統治難度的軌跡(隨著時間的推移,排名前30位的玩家之間的評分差異減小)而計算得出的。接下來,您將通過比較棋手在計算機上計算出的錯誤百分率(其對手的負值減去自己的錯誤率)來驗證此分析。如果以上所述使上述方法無效,那麼即使考慮了我的主導因素,如果仍顯示有更多最新的頂級玩家玩得更準確的趨勢,則需要根據計算機錯誤檢查分析來重新加權。

基於我的觀察,我的猜測是卡斯帕羅夫會做得很好。但這只是一個猜測。

這似乎無法回答問題。
我的觀點是,在定義國際象棋能力之前,您無法回答有關評級通貨膨脹的問題。我回顧了試圖調整等級通貨膨脹或試圖確定國際象棋冠軍的能力隨時間變化的研究(這就是等級通貨膨脹的全部含義)。我認為問題在於研究人員尚未真正確定他們對國際象棋能力的假設。我認為,如果沒有定義國際象棋能力,就無法回答國際象棋能力是否隨時間變化或說出有關通脹率的問題。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...