Аббревиатура GTO (Game Theory Optimal) означает решения, оптимальные с точки зрения теории игр. В покере этот термин используется для обозначения нескольких разных концепций.
GTO — это моделирование действий соперников и мышление в контексте диапазонов и вероятностей вместо точного угадывания рук. Иногда эти идеи сводятся к спорам между молодыми профессионалами о том, была ли какая-то конкретная раздача сыграна по GTO или нет.
Но что на самом деле означает GTO-покер? И применим ли он к вашей игре?
В поисках неуязвимой стратегии
Решение, оптимальное с точки зрения теории игр, имеет точное математическое определение. Думаю, вам будет интересно понять, что это означает для покериста и как эта концепция стала доминирующей основой для поиска идеальной покерной стратегии.
Давайте зададимся следующим вопросом: какой подход используют компьютеры для выработки GTO-стратегий, позволяющих играть в неуязвимый покер?
GTO, особенно в контексте современного покера, стремится к стратегии, которая не позволяет сопернику вас эксплуатировать. Вспомните Уму Турман в фильме «Убить Билла» или Брюса Уиллиса в любой из его кинокартин.
Вне покера GTO обычно иллюстрируют с помощью «Дилеммы заключённого».
В этой гипотетической ситуации двух человек арестовывают за совместное преступление. Если на допросе оба откажутся говорить, то получат небольшие сроки. Но если один из них сдаст другого, то сам стукач не получит вообще никакого наказания, а его молчаливый сообщник сядет надолго.
Если каждый из преступников окажется стукачом, то оба получат суровый приговор, потому что показания каждого из них могут быть использованы против другого.
Несмотря на то, что в целом преступникам наиболее выгоден первый сценарий, в котором оба молчат, каждому из них в отдельности выгоднее сотрудничать с полицией независимо от действий сообщника. Например, если первый заключённый решил молчать, то второму лучше настучать на него, чтобы сразу выйти на свободу, а если первый сдал второго, то второму обязательно стоит поступить так же.
Отсюда важный вывод:
«Дилемма баббла»
В покере аналогом «Дилеммы заключённого» можно назвать ситуацию, в которой два игрока бьются друг с другом на баббле турнира. Если только у них не сверхглубокие стеки, позволяющие добирать на баббле и не рисковать вылетом из турнира, то остальные участники извлекут выгоду от вылета кого-либо из этих двоих.
У мыслящего покериста реакция на чужие попытки его «задавить» будет настолько естественной, что рассматривать эту ситуацию в контексте GTO может показаться излишним. Конечно, у соперника есть какая-то стратегия. Вы, в свою очередь, в общих чертах понимаете, как он будет играть с разными руками, и ваша задача — учесть это при реализации собственной стратегии.
Иными словами, здесь нужно «играть по игроку». В этом и состоит суть GTO-покера.
Как можно «просчитать» холдем и другие игры?
Как только вы адаптируете свою стратегию под стратегию оппонента, он тоже к этому адаптируется, и так далее. Для хедс-ап игры в лимитированный холдем учёные Университета Альберты довели этот процесс до логического завершения и в 2015 году создали покерного бота Cepheus («Цефей»).
Компьютеры, объединённые в сеть, играли между собой в покер и постоянно приспосабливались к стратегиям друг друга. В конце концов, они достигли состояния, когда в любой ситуации ни у кого не было даже 1% преимущества. Я немного упрощаю подробности эксперимента, но суть состоит в том, что компьютеры разработали такую стратегию, которую противник не может эксплуатировать с помощью любой другой возможной стратегии.
Команда Университета Альберты заявила, что они «просчитали» лимитированный холдем хедс-ап и нашли для этой дисциплины только одно равновесие, но, скорее всего, существуют и другие равновесия, которые ещё предстоит открыть.
Их «почти идеальный» бот для лимитированного холдема открывал свыше 90% рук на баттоне, но почти никогда не переставлял большого блайнда 4-бетом, даже с . Напрашивался вывод, что в лимитированном холдеме 4-бет с тузами на баттоне или в принципе ошибочен, или не так прибылен, как обманный колл, позволяющий скрыть силу этой руки. Однако разработчики сразу уточнили, что колл 3-бета с тузами на баттоне в 100% случаев оптимален только в том равновесном состоянии, которое они открыли.
Учитывая остальную часть их стратегии, 4-бетить с тузами на баттоне было бы менее выгодно. Так тоже можно играть, но для этого пришлось бы изменить остальную стратегию. По крайней мере, вы должны будете 4-бетить и с другими руками, чтобы не выдать своих тузов. Интересно, если бы они запрограммировали бота на обязательный 4-бет с тузами и запустили весь процесс заново, пришли бы они к другому равновесию?
На практике, если вы знаете, что противник будет до конца уравнивать с одной парой и никак не подстроится под ваш очень тайтовый диапазон 4-бета, то, ограничиваясь коллом с карманными тузами, вы просто недополучите от него одну ставку.
В одном из эпизодов The Thinking Poker Podcast его авторы Эндрю Брокос и Нейт Мейвис разъяснили этот момент. В теории игр используется строгое определение оптимальной игры, в котором каждое ваше предыдущее действие рассматривается как часть равновесия.
На том подкасте обсуждалась раздача из лимитированного холдема, в которой у нас вне позиции на флопе с тузом. В игре один на один это по-прежнему +EV рука, но с ней нет особого смысла ставить. Вы не заставите противника выкинуть туза, а с помощью чека можно спровоцировать его на блеф или доборную ставку со средней парой.
Давайте обдумаем эту ситуацию с точки зрения искусственного интеллекта. Предположим, вы играете в лимитированный холдем с блайндами $100/$200. На префлопе вы сделали рейз с , и противник уравнял. В банке $400. В данный момент ваша ожидаемая прибыль с этой рукой составляет около +$700, учитывая шансы выиграть текущий банк и добрать на следующих улицах. После этого на флоп приходит туз, и ваша ожидаемая прибыль падает примерно до +$300. Что важнее, ожидаемая прибыль чек-колла, возможно, снизилась меньше, чем у ставки.
Учитывая, что оба игрока играют хорошо и не уступают друг другу на дистанции, оценка ожидаемой прибыли от вашей руки — это ещё один способ приблизиться к GTO.
Использование GTO, когда каждый игрок знает действия других
В играх с тремя или более участниками, строго говоря, нет оптимальных решений с точки зрения теории игр. Одни считают, что это объясняется отсутствием устойчивого равновесия, другие — тем, что равновесий становится слишком много, чтобы их все можно было принять в расчёт.
Игроки всегда могут приспосабливаться друг к другу или эксплуатировать того игрока, который пытается применять GTO-стратегию, но не адаптирует её к своим соперникам. Билл Чен и Джеррод Анкенман в своей книге «Математика покера», опубликованной в 2006 году, назвали этот процесс «неявным сговором».
Таким образом, не существует стратегии, которую невозможно эксплуатировать. Давайте углубимся в это на секунду.
Когда игрок (или бот) играет хедс-ап и следует GTO-стратегии, оппонент не сможет обыграть его на дистанции, что бы он ни делал. Это не значит, что таким способом игрок/бот выжмет максимум из оппонента, но на длинной дистанции он ему как минимум не проиграет и при этом по-прежнему сможет извлекать выгоду из некоторых ошибок оппонента.
Например, в лимитированном холдеме бот, играющий по GTO, на ривере будет платить с младшей парой достаточно часто для того, чтобы вы не могли эффективно против него блефовать. Если в такой ситуации вы никогда не блефуете, бот всё равно будет платить вам с той же частотой. В то же время, игрок, играющий по эксплойту, через время перестанет вам платить и будет выигрывать у вас ещё больше.
Покер-про Дуг Полк прояснил эту ситуацию, возникшую во время его хедс-ап матча в безлимитный холдем против бота Claudico, созданного учёными Университета Карнеги-Меллона в 2015 году. К большому облегчению всех покеристов, он рассказал, что, несмотря на хорошую игру (Полк оценил её на 4 из 10 в сравнении со своими регулярными соперниками), компьютер не пытался эксплуатировать его линии ставок. Если, например, с натсом на флопе Полк делает овербет размером 1,5 банка, то бот этого не знает и даже не беспокоится об этом. Он просто играет в GTO-покер.
Мой друг учился в аспирантуре университета с одним из лучших онлайн-покеристов мира и имел возможность наблюдать за его игрой. Он был удивлён тем, что за виртуальными столами его однокурсник не делал никаких необычных действий или «мувов». Покер-про объяснял это так:
- Каждый знает, кто я такой.
- Каждый знает, как я играю.
- Мне нет причины отклоняться от своей стратегии.
Серьёзно обдумав идеи Чена и Анкенмана о «неявном сговоре», можно добавить следующее: если бы соперники сговорились против этого про-игрока вместо того, чтобы играть каждый сам за себя, этот профессионал просто бы покинул игру.
Это не проблема в играх на заоблачных лимитах, поскольку там каждый знает каждого, и играть анонимно или в сговоре почти невозможно. Суть в том, что лучшие онлайн-игроки играют по GTO. Они очень хорошо знают, в каких ситуациях нужно ставить в 80% случаев и уравнивать в 20% случаев, а в каких — уравнивать в 20% случаев и выкидывать в 80% случаев. И они действительно так играют.
На заоблачных лимитах большую роль играет точность GTO-решений. Например, мне кажется, что лимпить на баттоне в 20% случаев — это многовато.
Легко понять и то, почему Полк пессимистично оценил шансы людей в том случае, если боты научатся рассчитывать оптимальную частоту ставок/коллов/фолдов/чеков для каждой ситуации. У наших кремниевых друзей всегда будет преимущество в математических вычислениях.
GTO-покер — это лишь точка отсчёта
Парадоксально, но в краткосрочной перспективе живые покеристы за столом быстрее приходят к GTO-игре, чем боты. Когда я следил за финальным столом хайроллерского турнира WSOP Million Big One for One Drop с бай-ином $1,000,000, я был поражён, как быстро игра в 3-макс стала крайне лузово-пассивной.
В Твиттере меня раскритиковали за то, что я сравнил игру между Даниэлем Негреану, Дэном Колманом и Кристофом Фогельзангом, которые постоянно делали небольшие ставки и чекали до самого вскрытия, с вечерним сателлитом в провинциальном казино. Мне писали, что эти ребята — лучшие покеристы мира, а я идиот. Но, похоже, никто из этих игроков не пытался давить на других. А зачем им было это делать? Когда за первое место платят $15 млн, за второе — $8 млн, а за третье — только $4 млн, потенциальная выгода от добора не идёт ни в какое сравнение с потенциальным ущербом от проигранных фишек или потерей всего стека.
С другой стороны, каждый из них знал, что если он запушит, другие смогут дать ему отпор. Поэтому никто и не пушил. На протяжении двух часов три покериста — одни из сильнейших игроков в безлимитный холдем за коротким столом — в каждой раздаче чекали или делали небольшие ставки, пока Фогельзанг, у которого был самый короткий стек, не вылетел.
Так нужно ли вам играть в GTO-покер, чтобы выигрывать? Или, если сформулировать точнее: как близко к GTO вы должны играть, чтобы выстоять против сильных соперников?
Многие из них не мыслят диапазонами, не адаптируются к известной информации или просто играют по-своему. Суть GTO (как и покера в целом) в том и заключается, чтобы приспосабливаться к таким соперникам.
Краткий ликбез по GTO-покеру
Подведём итог. Ниже — краткие ответы на самые животрепещущие вопросы о GTO:
Что такое GTO в покере?
GTO (англ. Game Theory Optimal — оптимальная игра с точки зрения теории игр) — это особый подход к покеру, основанный на моделировании действий игроков и последующей оценке ситуаций в терминах диапазонов и вероятностей.
Как работает GTO?
GTO рассматривает покер как математическую задачу и с помощью анализа и вычислений «просчитывает» оптимальную стратегию, которую невозможно победить.
«Просчитан» ли безлимитный холдем?
Несмотря на то, что исследователи из Университета Альберты «просчитали» лимитированный холдем ещё в 2015 году, разработанные ими модели по-прежнему имеют множество ограничений. Тем не менее, как утверждает бывший топовый покер-про Даг Полк, достижения в области искусственного интеллекта и компьютерных вычислений в не самом далёком будущем могут привести к тому, что боты «просчитают» весь покер в принципе.
Как обучиться GTO-покеру?
У нас на сайте вы найдёте проверенных тренеров по покеру, которые научат вас работать с покерным GTO-софтом. Тренировки возможны как на платной основе, так и бесплатно за PSP-очки.
- Мартин «Zmej»: обучение работе с любым ГТО софтом: PioSolver, Simple Postflop, GTO Wizard, GTO+
- Дмитрий «dima23000» Гаврилов: обучение работе с GTO+
- Евгений «SeEevg» Сенютич: обучение работе с Simple Postflop и GTO+
Также у нас есть общедоступный курс «Искусственный интеллект в покере — стратегия игры бота Pluribus», ориентированный на опытных игроков, способных самостоятельно разбирать раздачи и делать из них выводы. В этом курсе были собраны и отсортированы по группам самые значимые раздачи из противостояния Pluribus и топовых про-игроков. Прелесть этой информации в том, что она даётся без каких-либо комментариев или выводов.