Аналитик из команды Полка рассказал, как удалось обыграть Негреану с помощью искусственного интеллекта

Интересное о покере
23 окт 2024
1
челлендж Полк Негреану GTO

На заре покерного бума Брайана Пеллегрино называли одним из лучших игроков мира в хедс-ап сит-н-гоу, где он наводил ужас на соперников под ником «PrimordialAA». Как и многие покер-про его поколения, Пеллегрино бросил колледж, чтобы полностью посвятить себя покеру, и неплохо зарабатывал себе на жизнь, выигрывая на самых высоких лимитах, которые только были доступны онлайн.

Брайан оставил след и в мире живых турниров. На его счету три глубоких доезда в Главном событии WSOP с бай-ином $10,000, второе место в браслетном турнире по пот-лимитной омахе за $1,500 в 2012 году и два глубоких прохода в чемпионате WSOP по хедс-апу с тем же бай-ином $10,000.

Брайан Пеллегрино

Однако в 2015 году Пеллегрино решил уйти из покера. Он целый год путешествовал по миру со своей женой и сыном, а затем погрузился в компьютерные разработки. Брайан создал модель машинного обучения для анализа последовательности подач в бейсболе и продал её Главной лиге бейсбола США. После этого он основал криптовалютный бизнес в Кремниевой долине.

По иронии судьбы, в 2020 году компьютерный мир привёл его обратно в покер. В июле была опубликована его исследовательская работа, выполненная совместно с Ноамом Брауном из отдела исследований искусственного интеллекта компании Facebook. Работа была посвящена тому, как искусственный интеллект может использовать теорию игр для выработки идеальной покерной стратегии и как с помощью тех же самых концепций решать задачи в повседневной жизни.

Когда Даниэль Негреану принял вызов Дага Полка, Даг незамедлительно начал собирать команду для оттачивания своей хедс-ап игры. Он нанял двух тренеров по хедс-апу, которые помогли ему наилучшим образом внедрить GTO-стратегию в свою игру; группу людей, которые фиксировали все раздачи челленджа, чтобы создать базу данных тенденций Негреану; а также ещё одну команду, которая помогла ему укрепить префлоп-стратегию. Всё это помогло Полку одержать победу над Негреану с профитом $1,200,000.

Пеллегрино был одним из тех, кто помогал Полку в работе над префлоп-игрой. Недавно он дал интервью журналу Card Player, в котором подробно рассказал о своей роли в команде Дага, о преимуществах разработанного им ИИ над другими солверами, доступными на рынке, а также о том, как эта технология может решать повседневные задачи.

Даг связался с тобой и предложил войти в его команду. Вы вообще общались друг с другом в тот период, когда ты профессионально играл в покер? Как он тебя нашёл?

Мы оба играли хедс-ап с той разницей, что он специализировался на кэш-играх, а я — на сит-н-гоу. В какой-то момент я взял несколько уроков у Дэна «Jungleman» Кейтса и начал работать над своей хедс-ап игрой в кэш, но я никогда глубоко не погружался в эту дисциплину. Однако уже после ухода из профессионального покера я исследовал хедс-ап с помощью искусственного интеллекта, а по результатам совместного исследования с Facebook мы опубликовали академическую статью. Эта научная работа была посвящена алгоритму минимизации альтернативных сожалений (counter-factual regret minimization), который можно использовать в самых разных областях жизни, но чтобы доказать его применимость на практике, нам нужны были академические критерии оценки. Тут-то и пригодился покер как плацдарм для демонстрации нашего ИИ.

Даг связался со мной и спросил, насколько активно я сейчас играю в покер и участвую ли в жизни покерного сообщества. Думаю, он хотел получить широкий спектр мнений о самых эффективных обучающих ресурсах и найти лучший способ подготовиться к матчу. Он невероятно усердный покерист — более трудолюбивый, чем все, кого я знаю. Я играл в покер 15 лет и не видел никого, кто бы работал над игрой так плотно, как Даг, в плане обучения, повторения пройденного и сбора всей нужной информации.

Кроме того, оказалось, что Даг хорошо знаком с Ноамом Брауном — одним из тех людей, с которыми я работал над академической статьёй об искусственном интеллекте. Даг и команда его учеников играли против продвинутых покерных ботов Claudico и Libratus, поэтому он знал Ноама и был знаком с его работой. Я сказал ему, что только что опубликовал совместную научную работу с Ноамом, и её результаты были феноменальными. Он поинтересовался, как мы можем использовать результаты этого исследования в процессе подготовки к челленджу.

Что такое «минимизация альтернативных сожалений»? Как это относится к покеру?

Вот самый простой способ это объяснить. В прошлом многие исследователи теории игр моделировали решения на основе максимизации прибыли. Все мы стремимся выиграть как можно больше, так ведь? Но затем учёные пришли к выводу, что в реальных ситуациях люди стремятся минимизировать своё сожаление от принятых решений.

Это подводит нас к равновесию Нэша и GTO-стратегии. Допустим, мы играем в «камень, ножницы, бумагу», и я использую метод минимизации альтернативных сожалений (то есть сожалений, которые я испытываю, сравнивая получившийся исход с теми, которые могли бы произойти). Если я покажу камень, а вы — ножницы, моё сожаление будет равно −1, что означает отсутствие всяких сожалений. Я буду чувствовать себя отлично. Если вы тоже покажете камень, это будет нейтральная ситуация. А если вы покажете бумагу, моё сожаление будет равно +1, иными словами, я действительно испытаю какое-то сожаление.

Поэтому для корректировки своей стратегии я буду исходить из того, какое сожаление я испытываю от совокупности этих трёх исходов. Теперь вместо того, чтобы показывать камень в 100% случаев, я буду делать это реже, согласно моему общему уровню сожаления от этого решения. И если сделать триллион итераций, мы получим GTO-стратегию для игры «камень, ножницы, бумага».

Таким же образом это работает и в покере, только вместо трёх простых вариантов здесь у нас гигантское дерево решений, которое учитывает все возможные сайзинги и действия участников раздачи. Наша цель — рассмотреть это дерево решений и выбрать такую линию, которая будет минимизировать наше сожаление. Сделав это, мы придём к GTO-стратегии, при использовании которой мы не будем о чём-либо сожалеть. Противник не сможет нас эксплуатировать, то есть не сможет заставить слишком сильно сожалеть о принятых решениях.

Можешь пересказать содержание своей научной статьи на обывательском языке?

Она называлась «Раскрытие потенциала глубоких сетей с альтернативными значениями». Мы взяли наработки Университета Альберты и Университета Карнеги-Меллона в области создания покерного искусственного интеллекта и дополнили их множеством других вариантов. Наш ИИ оказался в 5,000 раз быстрее лучших ботов предыдущего поколения вроде DeepStack, и мы выставили нашего бота против Slumbot — победителя последнего Ежегодного соревнования покерных ботов. Наш ИИ победил с винрейтом 20 ББ/100.

Учитывая моё неоконченное высшее образование, тот факт, что я опубликовал научную статью в сотрудничестве с разработчиками ИИ Facebook, означает, что мы сделали нечто впечатляющее. Думаю, научное сообщество было под большим впечатлением от нашей работы. Статья была опубликована как раз в то время, когда Даг обдумывал свой челлендж против Негреану.

Что именно он тебе сказал, что тебе захотелось стать частью его команды?

Не хочу чересчур придираться к научному сообществу, но нам было очень трудно протестировать своего бота против других известных ИИ. Никто из крупных разработчиков этим не заинтересовался, в особенности ещё и потому, что работа некоторых таких ботов обходится в миллионы долларов ежедневно. Разработчики Slumbot оказались публичными и очень уважаемыми ребятами.

Но после того как мы опубликовали свою работу, нам больше нечего было делать. Мы не собирались продолжать своё исследование и озадачились его практическим применением в разных областях. Но когда ко мне обратился Даг, я увидел в этом интересную возможность оценить своими глазами, насколько покерист, обучившийся с помощью нашего ИИ, преуспеет в реальной игре. Мы искали возможность задействовать нашу разработку в каком-нибудь резонансном челлендже и предлагали помощь Филу Гальфонду, но, в конечном счёте, наш ИИ пригодился Дагу Полку, что помогло привлечь внимание к самому исследованию.

Ты упомянул, что разработанный вами ИИ можно использовать в других сферах деятельности помимо покера. Можешь уточнить, где и как именно?

Разработка ИИ была потрясающе интересной задачей, и публикация научной статьи совместно с Ноамом Брауном из Facebook AI была для меня большой честью. Мы исследовали применение нашей разработки, например, в области автономных транспортных средств, работая над решением проблем маршрутизации беспилотных автомобилей. Также мы изучали применение робототехники в теплицах. В теплицах выращивают продукты стоимостью в десятки миллиардов долларов, и искусственный интеллект может повысить эффективность производства. Сейчас мы смотрим в сторону разработки лекарств — это тоже очень перспективное направление.

Как алгоритм минимизации альтернативных сожалений может применяться в беспилотных автомобилях?

Прокладывая маршрут через огромную улично-дорожную сеть с плотным трафиком и другими препятствиями, вы по сути моделируете задачу добраться до точки назначения с наименьшим сожалением. Предположим, уровень вашего сожаления зависит от времени поездки, и вы хотите его минимизировать. Помимо времени, это также могут быть дорожные условия или плата за проезд по платным дорогам. В общем, в реальном мире этому алгоритму можно найти множество полезных применений.

Даг сказал, что ваша команда помогала ему конструировать диапазоны на префлопе. Как именно вы это делали?

Наша разработка в области искусственного интеллекта — это, по сути, солвер. Мы создали солвер, который оказался чрезвычайно хорошим и быстрым.

Недостаток современных солверов заключается в том, что при просчёте префлоп-диапазонов им приходится действовать в ваккуме.

Дерево префлоп-решений само по себе не очень разветвлённое, но после этого у вас будет огромное множество флопов и тёрнов. Если солвер будет просчитывать все эти варианты, ваше дерево разрастётся до сотен терабайт, и ни один компьютер не сможет обработать такой объём информации. Чтобы обойти эту проблему, солвер абстрагируется от всего множества возможных флопов и смотрит только 10 или 56 из них. Здесь многое зависит от правильного выбора: солверу нужно выбрать такие флопы, которые будут репрезентативны и будут отражать полную картину.

Наш ИИ работает совершенно иначе. Поскольку для получения этих данных мы используем нейронную сеть, мы можем построить настолько большое и сложное дерево решений, какое только может осилить человек. Расчёты, которые у других солверов заняли бы 500 терабайт и не поместились бы ни на один современный компьютер, мы можем выполнить за 30 секунд. Например, Даг мог сказать нам: «Нужно выяснить оптимальный сайзинг для каждого размера стека. Давайте просчитаем префлоп-рейзы размером 2 ББ, 2,1 ББ, 2,2 ББ, 2,3 ББ и так далее», и такие расчёты можно будет сделать для любого размера стека с любым шагом.

В каких ситуациях есть смысл изменить свой сайзинг? Что если Даниэль будет открываться таким-то сайзингом? Что если он будет лимпить? Будет ли он 3-бетить таким-то сайзингом? Какой сайзинг 3-бета оптимален для нас? Мы делали множество таких расчётов.

Даг собирал эти результаты и анализировал их со своими тренерами. Теоретические выкладки нужно адаптировать к реальной игре, потому что вы не сможете запомнить 57 разных сайзингов. Вместо этого вы можете выбрать один-два сайзинга и посмотреть, насколько усложнится ваша стратегия и даёт ли это какую-то выгоду по EV.

Поначалу мы делали очень много симуляций, чтобы выяснить оптимальные сайзинги и то, как их применять в игре против Негреану исходя из его возможной реакции. Но если бы вы попытались проделать всю эту работу с помощью других солверов, доступных на рынке, каждая симуляция заняла бы у вас неделю, и это только для небольшого набора флопов.

Мы же делали 150 прогонов за ночь и к утру представляли Дагу огромный отчёт. После этого он обычно вносил небольшое изменение в условия задачи и просил пересчитать. Даг — настоящий экспериментатор.

Брайан Пеллегрино Даг Полк
Брайан Пеллегрино и Даг Полк

Как выглядело ваше расписание? Даг просто задавал тебе вопросы после каждой сессии и общался с тобой в дни отдыха?

Я больше общался с его тренерами. Думаю, с ними Даг и обсуждал стратегию, а также то, насколько успешно её получается применять. А нам он давал задания вроде: «Эй, нужно выяснить то-то и то-то». Мы уточняли, как должно выглядеть дерево решений и что именно он хочет выяснить. После этого мы запускали наш ИИ, прогоняли через него все эти вещи и выдавали Дагу огромный отчёт, а он уже решал, что с ним делать дальше. Как правило, на этом наша работа заканчивалась.

Получив эти результаты, Даг не обсуждал с нами подстройки в своей игре, он это делал в основном со своей командой тренеров. Наша роль заключалась в том, чтобы выяснить, почему что-то пошло не так. Например, были случаи, когда он неправильно составил дерево решений или что-то показалось ему странным. Мы должны были предоставлять ему столько данных, сколько он смог бы переварить.

По ходу челленджа Негреану не стеснялся активно менять свою игру. Проводили ли вы какие-либо расчёты, связанные с его подстройками? В какую сторону, на твой взгляд, эволюционировала игра Даниэля?

Конечно, мы отследили какие-то тенденции в его игре. Он делал некоторые вещи, которых всегда нужно избегать — например, плоско 3-бетил с koko и qoqo вне позиции. Все эти действия не укладывались даже в понятие смешанной стратегии. Это просто вещи, от которых нужно полностью отказаться.

Нам нужно было выяснить, откуда он вообще взял эту стратегию и все эти странные вещи. В какой-то момент я даже немного засомневался в реальности происходящего. Я знал, что такого не должно быть, но на деле всё было именно так — наверное, на игру Негреану повлияло то, что на старте челленджа он вырвался вперёд. Некоторые его выкрутасы озадачили нас, но мы просто должны были пройти через это.

Даниэль начал добавлять другие сайзинги, и мы увидели, в каких ситуациях он изменил свой сайзинг, а в каких вообще его не менял. Или мы думали, что он будет использовать какой-то определённый размер 3-бета, а он в действительности использовал другой. Это был непрерывный процесс, и на протяжении всего челленджа мы каждый день анализировали множество диапазонов. Даг — просто зверь, он хотел знать как можно больше и глубоко погружался в работу над игрой.

Твой рассказ было очень интересно слушать, но тебе не кажется, что среднестатистический игрок побоится играть хедс-ап, услышав о том, насколько глубоко профессионалы погружены в игру?

Да, в каком-то смысле это обескураживает, но никому не стоит расстраиваться по поводу того, насколько трудно стать лучшим игроком в мире. Когда смотришь на любого баскетболиста из NBA, кажется, он настолько одарён от природы, что ему достаточно просто выйти на площадку и начать бросать по кольцу. Но на самом деле в каждой команде есть специалисты, которые помогают игрокам по питанию, отработке штрафных бросков и всем остальным аспектам.

Каждый, кто пробился в элиту в таком соревновательном деле, как покер, знает: чтобы остаться на вершине, нужно работать всё больше и больше.

Когда я начинал свою карьеру в 2002 году, это были просто сообразительные парни, которые пытались переиграть остальных. Солверов тогда и в помине не было, люди просто обсуждали теорию со своими друзьями. Уверен, что и баскетбол в 1970-х годах выглядел именно так, но всё меняется по мере того, как игра становится всё более конкурентоспособной.

В конечном счёте, это именно то, что нужно для того, чтобы стать одним из самых лучших в мире. Сегодня планка для топовых покеристов намного выше, чем десять лет назад. Аналогично, Стеф Карри и Леброн Джеймс намного лучше играют в баскетбол, чем любой представитель предыдущих поколений.

Если достаточно долго понаблюдать за покером, станет очевидно сходство между покеристами и спортсменами, которых показывают по телевизору. Мы просто не видим сумасшедшего объёма работы, который они проделывают, чтобы приобрести свои навыки и соревноваться на самом высоком уровне.

Сразу после выхода этого интервью на него отреагировали разработчики Simple Postflop — покерного GTO-калькулятора для анализа игры на префлопе и постфлопе. Ниже мы приводим цитаты из интервью и комментарии разработчиков:

Поскольку в статье задета честь всех публичных солверов, а значит, и наших в том числе, позволим себе небольшую рецензию на это интервью, чтобы прояснить некоторые детали.

В прошлом многие исследователи теории игр моделировали решения на основе максимизации прибыли. Все мы стремимся выиграть как можно больше, так ведь? Но затем учёные пришли к выводу, что в реальных ситуациях люди стремятся минимизировать своё сожаление от принятых решений.

Метод минимизации сожалений — это не что-то новое. На основе этого метода работают все известные современные солверы, в том числе и наши: Simple Postflop, Simple Preflop Holdem, Simple 3-Way, Simple Omaha.

Наш ИИ оказался в 5,000 раз быстрее лучших ботов предыдущего поколения вроде DeepStack, и мы выставили нашего бота против Slumbot — победителя последнего Ежегодного соревнования покерных ботов. Наш ИИ победил с винрейтом 20 ББ/100.

Быстрее — это хорошо, а насколько лучше этот ИИ играет, не сказано. Вывод напрашивается. Что касается Ежегодного соревнования покерных ботов (Annual Computer Poker Competition), это не самое популярное мероприятие, которое последний раз проводилось, кажется, в 2018 году, поэтому эти результаты также ни о чём не говорят.

Мы обращались практически ко всем, но никто не захотел играть с нашим ботом. Одна из причин в том, что затраты на работу некоторых ботов могут составлять несколько миллионов в день.

В этом ответе, как нам кажется, прослеживается склонность к преувеличению некоторых вещей: сложно представить, какие боты могут потребовать таких сумм. Скорее всего, они предложили кому-то с ними сыграть, но поскольку просто так заморачиваться никто не захотел, другие разработчики выдвинули неприемлемые условия по деньгам (либо чтобы получить эти деньги, либо чтобы от них отстали), а в интервью информация попала в таком виде.

Далее самая интересная часть:

Все современные солверы строят префлоп диапазоны на больших допущениях. На префлопе можно построить небольшое дерево. Но на флопах и тернах оно разрастется до огромных величин и будет занимать сотни терабайт памяти. С таким не справится никакой современный компьютер. Поэтому деревья упрощают. Например, получают результат для 10 флопов или 56. Но это влияет на точность, поэтому необходимо подбирать такие флопы, которые дадут хорошую общую картину.

Судя по этому абзацу, существуют только солверы, которые выполняют расчёты на сабсетах флопов, но это не так. Есть уже упомянутый Simple Preflop Holdem, который применяет упрощения не в разрезе использования подмножества бордов, а группирует руки в кластеры либо формирует кластеры из комбинаций рук и бордов. Такой подход экспериментально показывает свою оправданность и хорошую точность при сравнении с векторными расчётами на всевозможных флопах, которые далее упоминаются в интервью как расчёты, требующие 500 терабайт оперативной памяти.

Но это влияет на точность, поэтому необходимо подбирать такие флопы, которые дадут хорошую общую картину. А у нас вообще нет такой проблемы. Все это делает нейронная сеть. Поэтому мы можем создать дерево любой сложности. Расчет, который у другого солвера потребует 500 терабайт памяти, мы проводим за 30 секунд. То есть по просьбе Дага мы можем определить оптимальный сайзинг для любых размеров стека.

«Всё это делает нейронная сеть» звучит так, будто это не привносит погрешность, как при использовании сабсета, но по факту погрешность в этом случае ещё больше, хотя такой ИИ действительно может работать быстрее. Да, они избавили себя от проблемы подбора сабсета, но, как показывает практика, для использования в расчётах достаточно одного хорошо подобранного набора сабсетов, нет большой необходимости подбирать их заново каждый раз. Отсылка к 500 терабайтам, опять же, не совсем корректная: в реальности никому не нужна точность расчётов, которые можно получить без абстракции, потому что солверы с упрощениями дают идентичные результаты. Можно считать очень сложные HU деревья для префлопа в SPH, и они будут требовать в худшем случае десятки-сотни гигабайт.

Солверы, которые сейчас доступны на рынке, потратили бы неделю на один подобный расчет, причем на ограниченном количестве флопов. А мы за ночь можем провести 150 симуляций и к утру предоставить Дагу полный отчет. 

ХА ситуации можно рассчитывать достаточно быстро. Считать можно хоть год, но даже сложное ХА дерево на хорошем сервере сойдётся буквально за считанные часы. За ночь можно посчитать хоть 500 таких деревьев при наличии должной квоты в облаке.

Если вы готовы работать с чёрным ящиком, который не может дать гарантию качества решения, не содержит чёткой причинно-следственной связи между входными данными и результатами, но при этом работает быстро — то да, тут нейронки могут достичь определённого успеха. Если же вы хотите получать точные результаты расчётов, и при этом у вас нет необходимости получать эти результаты за 30 секунд, то тут нейронки вряд ли смогут превзойти текущие солверы. Более того, если им действительно удалось достичь неплохих успехов для ХА расчётов, не факт, что это будет так же хорошо работать и для ситуаций с большим числом игроков, а солверы уже давно позволяют считать равновесие и для нескольких игроков, и для ICM ситуаций, и для рейковой среды.

Нужно понимать, что большинство оптимизаций и упрощений привносят погрешность в качество решений, и нельзя решить задачу за 30 секунд с тем же качеством, как если бы её решал точный метод за неделю с потребностью в 500 терабайт оперативной памяти. Кроме того, в статье совершенно не упоминаются альтернативные способы расчётов, доступные в современных солверах, которые работают быстро, точно и не требуют 500 терабайт.

Весь этот отзыв — сугубо наше личное мнение, которое мы никого не просим воспринимать близко, особенно если вы очень сильно вдохновились статьёй. От ряда наших пользователей поступили комментарии в духе «солверы теперь не канают», но в этом интервью информация представлена однобоко, поэтому не советуем принимать её за истину.

Топовый Рейкбек
Нашим игрокам предлагаем лучшие условия по рейкбеку + начисляем PekarStas Points за активную игру в покер-румах
Узнать подробней
Закрытый VIP Клуб
Получите доступ к закрытым разделам сайта и уникальным обучающим видео курсам от топовых игроков и тренеров.
Узнать подробней
PekarStas Points
Регистрируйся в покер-румах через наш сайт, за активность в комнате, вам будут начисляться PSP-очки у нас на сайте.
Узнать подробней

Подпишись на официальный YouTube канал PekarStas и не пропусти ни одно новое видео!
Подписаться
Подпишись на официальный Telegram канал PekarStas и не пропусти ни одной новости!
Подписаться
Рекомендуем

Депозит бонус ₽50,000

Бонусы от PekarStas
Бонусы для наших игроков
Зарегистрируйтесь на Покердом через наш сайт и получите ряд дополнительных бонусов:
промокодPEKARSTAS
Cкопировано
Регистрация

Депозит бонус $2,000

Бонусы от PekarStas
Бонусы для наших игроков
Зарегистрируйтесь на RedStar через наш сайт и получите ряд дополнительных бонусов:
промокодPEKARSTAS
Cкопировано
Регистрация

Депозит бонус $600

Бонусы от PekarStas
Бонусы для наших игроков
Зарегистрируйтесь на ПокерОК через наш сайт и получите ряд дополнительных бонусов:
промокодPSTAS
Cкопировано
Регистрация

Депозит бонус $500

Бонусы от PekarStas
Бонусы для наших игроков
Зарегистрируйтесь на MobilePokerClub через наш сайт и получите ряд дополнительных бонусов:
промокодPEKAR
Cкопировано
Регистрация

Депозит бонус ₽100,000

Бонусы от PekarStas
Бонусы для наших игроков
Зарегистрируйтесь на RPTBet Poker через наш сайт и получите ряд дополнительных бонусов:
промокодPEKAR
Cкопировано
Регистрация