當AI學會了打麻將，人類高手們還能“吃胡”嗎？

2023-07-11 19:19:38 來源：南方Plus

7 月 11 日，騰訊宣布自研棋牌類 AI “絕藝LuckyJ” 在國際知名麻將平臺“天鳳”上已經達到十段水平，刷新了 AI 在麻將領域的最好成績。

資料顯示，日本在線麻將競技平臺“天鳳”創建于 2006 年，擁有體系化的競技規則和專業段位規則，受到職業麻將界的廣泛認可。截至目前，天鳳平臺活躍人數 23.8萬，而能達到十段的僅 27 人（含AI），不到萬分之一。相比其他麻將AI和人類玩家，“絕藝 LuckyJ”不僅穩定段位更高，從零開始達到十段所需的對戰局數也明顯更少，僅需要 1321 局。

(資料圖片僅供參考)

騰訊 AI Lab 研究員表示，現實世界中充滿了需要在非完美信息狀態下做決策的場景，比如金融交易、自動駕駛、交通物流、拍賣系統等。在游戲環境中推進決策AI的能力，最終是希望AI能從虛擬走向現實，解決真實世界的復雜問題。此前，游戲在人工智能技術的演進中發揮了重要的作用。游戲多樣化的情境為AI的訓練和學習提供了便利的研究場景，從國際象棋到圍棋，再到德州撲克、王者榮耀等游戲，AI 不斷在游戲場景中拓展能力邊界。

圍棋、象棋都屬于完美信息博弈，參與競技雙方的每次決策，都可以看到全局的信息。AI能夠通過強大的計算力來枚舉各種可能性，從而找到制勝策略。而麻將無法看到對手的手牌，加上還有大量未揭開的牌，存在大量的隱藏信息，是典型的非完美信息博弈。

據介紹，麻將一共有136張牌，每一位玩家只能看到很少的牌，包括自己的13張手牌和所有人打出來的牌。牌局開始時，另外三位玩家的手牌以及墻牌都是看不到的，面對如此多的隱藏未知信息，麻將玩家的每一個決策都需要兼顧進攻和防守。

此外，在麻將的對戰中，除了正常的摸牌、打牌之外，還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以都會改變摸牌的順序，這一過程也涉及了大量的決策。

為了更好地解決麻將游戲中存在的大量隱藏信息的難題，提升AI的決策能力，騰訊 AI Lab基于強化學習和遺憾值最小化的自我博弈技術，使得AI能從零開始自我學習和提高，并最終收斂到一個最強的混合策略，讓AI在實際對戰的過程中擁有更加平衡的策略能力。

同時，考慮到傳統的非完美信息搜索算法在麻將面前很難發揮太大的作用，騰訊 AI Lab基于樂觀價值估計的思想，提出了一種高效的非完美搜索方法，使得AI在有海量隱藏信息的游戲狀態中，仍可以實時調整當前策略，從而更好地應對多變的戰局。

相比人類，“絕藝 LuckyJ“在麻將游戲中，擁有更加平衡的策略，對局勢的計算更精確，其中包括打每張牌的期望收益、未來可能胡哪些番型等等，通過這樣的“策略”訓練，也為AI走入更多行業打下了基礎。

天鳳平臺開發公司C-EGG的CEO角田真吾表示：“這是麻將AI的又一次突破，LuckyJ進一步拓寬了麻將AI的能力邊界。令人感到興奮的是，在特上房包括人類玩家在內的對戰1000局以上的所有玩家中，LuckJ的穩定段位排名第一”。

值得一提的是，“絕藝LuckyJ“在國標麻將中也有亮眼表現，在線下職業選手邀請賽中擊敗六位職業選手，成為首個戰勝國標麻將頂尖職業選手的麻將AI。

決策與生成是當前人工智能發展的兩大主線，也是研究通用人工智能的必由之路。在模擬真實世界的虛擬游戲中，AI學會快速分析、決策與行動，就能執行更困難復雜的任務并發揮更大作用。從 2017 年開始，騰訊AI Lab自研的絕藝、絕悟兩款決策AI，借助棋牌、MOBA等多類游戲場景，探索用AI解決現實中的復雜問題。

南方+記者葉丹

【作者】葉丹

【來源】南方報業傳媒集團南方+客戶端

關鍵詞：