HG-544: shumaich base #512

aenglisc · 2020-11-30T08:19:25Z

This is the base commit for the shumaich migration, it adds a new accounting module and updates the docker-compose file

Steps for moving to shumaich:

Base
- Payments
- Account creation via bender (TODO)
- Removal of shumway/shumpune logic and protocols

apps/hellgate/src/hg_accounting_new.erl

keynslug · 2021-09-10T07:58:44Z

apps/hellgate/src/hg_accounting_new.erl

+call_with_retry(Function, Args) ->
+    hg_retry:call_with_retry(
+        fun() ->
+            case hg_woody_wrapper:call(accounter_new, Function, Args) of
+                {ok, _} = Ok ->
+                    {return, Ok};
+                {exception, #shumaich_NotReady{}} ->
+                    retry;
+                {exception, _} = Exception ->
+                    {return, Exception}
+            end
+        end,
+        get_retry_strategy(Function)
+    ).


Не уверен конечно, что это рабочий вариант. Если конечно ш̙͍̯͒̅͊а̜̥͙̜͔̣͙͗ͥ͑̍̐̆̓м͖аи̩̜̓ͪӵ̻̠̯͚̩̣̺́̅̓̏̎̍̚ не даёт гарантий на upper bound по времени обработки изменений своего состояния, в чём я немного сомневаюсь. Быть может это не единственная конечно стратегия работы с NotReady?

В моём представлении везде, где идёт взаимодействие с ш̙͍̯͒̅͊а̜̥͙̜͔̣͙͗ͥ͑̍̐̆̓м͖аи̩̜̓ͪӵ̻̠̯͚̩̣̺́̅̓̏̎̍̚ем, и надо получить баланс, нам придётся сначала сохранять clock в mg, а потом уже долбить ш̙͍̯͒̅͊а̜̥͙̜͔̣͙͗ͥ͑̍̐̆̓м͖аи̩̜̓ͪӵ̻̠̯͚̩̣̺́̅̓̏̎̍̚ запросами. Опять же, быть может ты это тоже понимаешь.

Я честно говоря и не вижу теперь других стратегий, подумав ещё. Либо ретраить запросы тут, используя потенциально бесконечную стратегию, либо городить какой-то сложный механизм (особенно если учесть твои замечания по функции plan), который будет перед каждым походом в аккаунтер сохранять ивент вроде waiting_accounter, и только после успешного сохранять *_clock_updated (и так n-раз, в случае с plan), но мне не кажется что преимущества этого подхода перевешивают трудоемкость его реализации (учитывая что проблема, которую решит этот подход, никак не обрабатывается и в текущем коде).

используя потенциально бесконечную стратегию

Бесконечно нас mg не будет ждать всё равно. Смысл в ретраях тут есть на самом деле некоторый, потому что минимальный ненулевой таймаут на mg − это аж целая 1 секунда, а шамаич по идее должен гораздо быстрее синкаться в штатном режиме.

(особенно если учесть твои замечания по функции plan)

Ну там на самом деле нам критично как я понимаю только финальный clock (после всех холдов) сохранить, а не промежуточные.

Опять же, я вот только что почему-то подумал, что в теории контроль идемпотентности на стороне шамаича + его гарантии на максимальное штатное время синка (например, хз, 5 секунд) могут нас избавить от необходимости clock хранить. Потому что даже в обычных условиях crash-recovery хеллгейта может привести к тому, что мы (как минимум) один батч два раза пошлём или (как максимум) один и тот же план.

Тут правда возможно не помешает вспомнить, что в рамках работ по лимитеру ивенты про clock update уже начинают заезжать в протокол.

К тому же кстати результат операции Hold не может быть NotReady:
https://github.com/rbkmoney/shumaich-proto/blob/700a5b4d635b6d7c26fe3cf3a58896f8d2330645/proto/shumaich.thrift#L176-L178

никак не обрабатывается и в текущем коде

Но текущий код же не работает с асинхронным аккаунтером. Или ты про что-то другое?

Или ты про что-то другое?

Ну вот скорее про это:

Потому что даже в обычных условиях crash-recovery хеллгейта может привести к тому, что мы (как минимум) один батч два раза пошлём или (как максимум) один и тот же план.

А то что mg не будет ждать бесконечно я наоборот часто забываю, лол. В целом кажется этот вопрос надо решать именно в ключе того поведения, когда ш̙͍̯͒̅͊а̜̥͙̜͔̣͙͗ͥ͑̍̐̆̓м͖аи̩̜̓ͪӵ̻̠̯͚̩̣̺́̅̓̏̎̍̚ сильно не укладывается в ожидаемые таймауты по какой-то причине. Во варианте с ретраями на этом уровне мы, наверное, будем работать быстрее в 99% случаев, но вот в том 1% проценте, когда попытки будут заканчиваться, как правильнее поступить не очень понятно. Кажется, что все так же ничто не будет мешать просто поднять машину и, как и раньше, сделать те же холды еще раз.

Можно совместить ретраи здесь с ретраями посредством mg, но это видится большим объемом кода, который наверное надо как-то оправдать.

Ну там на самом деле нам критично как я понимаю только финальный clock (после всех холдов) сохранить, а не промежуточные.

Ну тут мысль была что мы должны будем не просто начать ходлить план сначала, а продолжить с того места, с которого зафейлились, но да, это излишне.

Тут правда возможно не помешает вспомнить, что в рамках работ по лимитеру ивенты про clock update уже начинают заезжать в протокол.

Но лимитер это же вроде отдельный сервис еще между хг и ш̙͍̯͒̅͊а̜̥͙̜͔̣͙͗ͥ͑̍̐̆̓м͖аи̩̜̓ͪӵ̻̠̯͚̩̣̺́̅̓̏̎̍̚ем, который, подозреваю, хендлит и NotReady кейсы. *_clock_update- ивенты сами по себе есть и в этом эпике в других пиарах.

К тому же кстати результат операции Hold не может быть NotReady

Это кстати да, лол, plan/hold в принципе можно исключить из механики ретраев. Но commit/rollback все еще могут.

apps/hellgate/src/hg_retry.erl

keynslug · 2021-09-29T16:34:17Z

apps/hellgate/src/hg_accounting_new.erl

+    case hold(PlanID, Batch, Timestamp, Clock) of
+        {ok, NewClock} ->
+            execute_plan(PlanID, Rest, Timestamp, NewClock);
+        {error, _} = Error ->


Я кстати только сейчас осознал, что с ш̤̖͙͍̄͂а̦̣̫̪̱̬̃͛̊ͯͧм̟͍͈̞̝̩̓̄ͬ̉̂ͯӓ̱͔͕̻͔̯̦́̒̓̑̑̑и̩̖ͥч͕̊̈́ͫͮ͌̉̎ем мы можем оказаться в ситуации, когда половина плана захолдирована, и машина упала. Надо бы наверное понять, что с этим делать, если что. По идее эта ошибка может только на этапе интеграции проявиться, поэтому повода какую-то обвязку по обработке в виде кода вроде как нет, но тем не менее.

Мне казалось, что шамаич умеет в идемпотентность, и поэтому ничего страшного что мы после поднятия машины попробуем захолдировать захолженные холды еще раз. 🤔

Тут я скорее про ошибку InvalidPostingParams, с которой в общем случае не пойми что делать. Да и это вообще не докоп, а так, наблюдение.

не совсем понятен кейс когда ты такую ошибку можешь получить

apps/hellgate/src/hg_accounting_new.erl

docker-compose.sh

rebar.config

WWWcool

так как сплиты едут уже сейчас, то видимо в этом ПР придется подтягивать работу с новыми аккаунтами и сплитованными кешфлоу

aenglisc added 17 commits November 26, 2020 02:23

add shumaich proto

0fca897

add shumaich proto to app.src

b65b2f1

update compose file

49da102

add bender client

b18d264

add bender client to app.src

bd7f022

add gen_sequence to utils

bca20aa

add new accounting module

e46bb17

fix thrift compiler version

7b6fd9c

add shumaich service handling

d88626a

update new accounter

c92dc7f

update hg_proto

21539f0

update account balances test

784168d

fix format

aaba872

fix xref

8562e08

some fixes

fef9a7b

type fix

b46924d

type fix

27b264f

aenglisc mentioned this pull request Dec 4, 2020

HG-544: shumaich proto #486

Closed

yuri-bukhalenkov closed this Mar 25, 2021

yuri-bukhalenkov reopened this Mar 25, 2021

kehitt added 2 commits June 23, 2021 16:27

Merge remote-tracking branch 'origin/master' into HG-544/ft/shumaich

1e9f9e6

fix format

186fb65

kehitt changed the base branch from master to epic/shumaich June 23, 2021 14:19

kehitt self-assigned this Jun 23, 2021

kehitt added 6 commits July 12, 2021 14:22

accounter retries via hg_retry

a6b0dc3

fix test

6f9b7ae

fix clock decoding, relax retry strategy

cb86a3c

fix balance consistency

0c9806a

relax default retry strategy

0c66e4c

tighter default retry strategy

42831ae

fail machine (somewhat) properly when out of retries to accounter

4e65175

keynslug reviewed Sep 10, 2021

View reviewed changes

kehitt added 11 commits September 10, 2021 16:11

fix plan function, remove duplicate code

e1daeb5

fix types

cb7c878

only retry sometimes

8b2b9fa

change hg_accounting_new api

a821836

work around a shumway bug

230cae8

add some logging

2ffa288

fix types

8a1e73c

another one

42efffa

update shumaich to fix the Hold bug

8d70d14

bump proto

55eca2f

bump shumway in tests

91f62ac

keynslug reviewed Oct 1, 2021

View reviewed changes

kehitt added 3 commits October 5, 2021 18:21

some review fixes

b9298a4

fixes for review fixes

bc9deda

fix docker-compose

a8afcf9

keynslug approved these changes Oct 6, 2021

View reviewed changes

remove constant container names

d74d2d1

WWWcool reviewed Oct 19, 2021

View reviewed changes

HG-544: shumaich base #512

Are you sure you want to change the base?

HG-544: shumaich base #512

Uh oh!

Conversation

aenglisc commented Nov 30, 2020 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

WWWcool left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

6 participants

aenglisc commented Nov 30, 2020 •

edited

Loading