Trustworthy experimentation для B2C: как перестать угадывать в A/B‑тестах
В продуктовой аналитике легко дойти до того момента, когда экспериментов много, а доверия к результатам все меньше и меньше: тесты закрывают “когда стало понятно”, p-value проверяют чуть ли не каждый день (принимая преждевременные решения), MDE забывают фиксировать, а денежные метрики зашумлены так, что выводы получаются, мягко говоря, спорные.
В этой статье я показываю практический каркас для более надежных A/B-тестов в B2C: как делать анализ мощности и размера выборки для конверсии и ARPU, как интерпретировать кривую мощности анализа теста и trade-off между MDE, длительностью и доступным трафиком, и почему ratio-метрики вроде выручки на сессию часто лучше голого ARPU.
Отдельно разбираю линеаризацию ratio-метрик: как привести их к user-level значениям, чтобы применять стандартные тесты корректнее и стабильнее.
Читать далее