Почему точность в AvtoPilot падает по мере того, как ученики становятся лучше
В первые десять активных дней в AvtoPilot общая точность, точность на впервые увиденных вопросах и почти все показатели внутри приложения смещаются вниз. Это не значит, что ученики становятся хуже. Это система снова показывает то, что они вот-вот забудут, а единственный измеритель, который она не может прогнуть, растёт.
Заманчиво думать, что обучающее приложение должно повышать свои показатели. Откройте AvtoPilot, занимайтесь десять дней, и самый очевидный из них, доля вопросов, на которые вы отвечаете правильно, наоборот падает. В первый активный день средний целеустремлённый ученик отвечает правильно на 84 процента. К десятому дню, на 78 процентов. Точность на впервые увиденных вопросах, измеренная только на вопросах, которые ученик никогда раньше не видел, падает ещё сильнее, с 81 процента до 73. Почти всё в приложении, что выглядит как прогресс, смещается не в ту сторону.
AvtoPilot готовит людей к государственному экзамену по теории вождения в Узбекистане: двадцать вопросов, допускается две ошибки, то есть восемнадцать правильных, это сдача. За примерно пять месяцев, с начала февраля до конца июня 2026 года, более 63 000 учеников зарегистрировались, и те, кто занимался, ответили на более чем 3,3 миллиона учебных вопросов, прошли более 33 000 полных пробных экзаменов и потратили более 16 000 часов на занятия. Примерно девятнадцать из двадцати занимаются на узбекском. Это достаточно большой массив, чтобы увидеть нечто реальное, и первое, что он показывает, это снижение.
Это снижение не сбой, и это не ухудшение учеников. Это самое важное, что нужно понять при чтении этих чисел. Вопросы, с которыми целеустремлённый ученик сталкивается на десятый день, сложнее тех, что были на первый день, потому что система намеренно делает их сложнее. Нельзя измерять обучение по сложности того, что вы переживаете.
Эта статья о том самом парадоксе и о единственном измерении, которому мы доверяем, чтобы его прорезать: о фиксированном пробном экзамене, который никогда не усложняется. Мы разберём, что именно падает, почему падение, это работа системы, что вместо этого показывает чистый измеритель и, столь же тщательно, чего эти числа не доказывают.
Число, которое должно расти, падает
Начнём с общей точности, простой доли учебных вопросов, на которые ученик отвечает правильно. Возьмём тех, кто остался, 420 учеников, которые занимались не менее чем в десять отдельных дней, и выстроим их точность по активным дням. Получается 84, 85, 84, 81, 82, 81, 80, 79, 79, 78. Небольшой подъём на второй день, затем устойчивое снижение на шесть пунктов.
Теперь уберём память. Посмотрим только на вопросы, которые ученик видит впервые, где ни один ответ не может быть запомненным. Среди 309 учеников из этой группы, у которых достаточно данных по первому показу, проявляется та же форма, ниже и круче: 81 в первый день, затем 76, 76, 73, 74, 73, 71, 72, 71 и 73 на десятый день. По любой из мер, чем дольше целеустремлённый ученик занимается, тем ниже процент на экране.
Мы могли бы убрать этот график. Большинство продуктов так и сделали бы. Мы начинаем именно с него, потому что соблазн в нашем положении, это потянуться за лестной историей, а честная версия полезнее. По метрике, которую ученик видит чаще всего, самая преданная когорта становится хуже десять дней подряд. Затем мы посмотрели, чем именно система их кормила, и тревога перевернулась.
Доля правильных ответов
Почему падение, это работа системы
AvtoPilot планирует практику с помощью FSRS, современного алгоритма интервального повторения. Вся его задача, это оценить для каждого вопроса момент, когда вы вот-вот забудете ответ, и снова показать вам этот вопрос как раз перед этим. Вопрос, на который вы правильно ответили несколько дней назад и с тех пор не видели, это ровно то, что планировщик подаёт вам сегодня, в той точке, где он считает, что ваша память истончилась до предела. Вопросы, которыми вы уверенно овладели, выпадают из ротации. Те, что вот-вот ускользнут, возвращаются.
Вторая сила толкает в ту же сторону. В банке 1 220 вопросов, и они не одинаково сложны. Лёгкие и частые отвечаются, заучиваются и рано выводятся из оборота. То, что остаётся ученику через десять дней, это длинный хвост: редкие знаки, краевые правила приоритета проезда, почти одинаковые пары, на которых спотыкаются все. Набор не стоит на месте, пока ученик становится лучше относительно него. Сам набор становится сложнее.
Сложите это вместе, и падающая линия означает почти противоположное тому, как она выглядит. Ученик, удерживающий 78 процентов на десятый день, делает это на намеренно более сложном материале, чем ученик с 84 процентами в первый день. Это то, что исследователи обучения называют желательной трудностью: продуктивное усилие по извлечению того, что вы почти забыли, и есть именно то, что переводит это в долговременную память. Очередь, которая удерживала бы вашу точность почти безупречной, была бы очередью, переставшей вас чему-либо учить.
В этом и ловушка точности как измерителя. Она меняется по двум причинам, указывающим в противоположные стороны, сколько вы выучили и насколько сложен текущий материал, и при интервальном повторении второй эффект перекрывает первый. Нельзя измерять обучение по сложности того, что вы переживаете. Именно поэтому, чтобы вообще измерить обучение, мы перестаём смотреть на точность и смотрим в другое место.
Единственный измеритель, который не может усложниться
Если сложность практики смещается, нужно измерение, которое не смещается. В AvtoPilot такое встроено. Пробный экзамен каждый раз имеет ту же форму, что и настоящий: двадцать вопросов, свежая случайная выборка из всего банка в 1 220 вопросов, допускается две ошибки, оценка из двадцати. Он не адаптивный. Он не показывает заново ваши слабые вопросы и не выводит из оборота сильные. Каждый пробник, это несмещённая выборка из всего объёма материала, что делает первую попытку ученика напрямую сопоставимой с десятой. Когда сложность держится ровной, любое движение в балле, это движение в ученике, а не в тесте.
Возьмём 1 416 учеников, прошедших не менее пяти пробников, и усредним их балл по номеру попытки. Он растёт: 14,0, 14,3, 14,5, 14,6, 14,7, 14,9, 15,2, 15,3, 15,4, 15,7 из 20. Доля сдавших, доля набравших восемнадцать или больше, растёт вместе с ним: 20, 22, 21, 25, 26, 27, 29, 31, 32, 31 процент. Те же люди, показывающие более низкий процент в адаптивной практике, показывают более высокий балл на фиксированном тесте.
Это та же совокупность людей, то же приложение, те же пять месяцев. Единственное, что изменилось, это линейка. Перестаньте измерять людей по сложности того, что они переживают, измерьте их по фиксированному, репрезентативному тесту, и снижение превращается в рост.
Средний балл из 20
Результат, который выдерживает самый строгий отбор
У кривой из десяти попыток есть подвох, который мы не станем прятать. Не все проходят десять пробников. Первая попытка усреднена по всем 1 416 ученикам, но к десятой остаются только 546, и люди, проходящие десять пробников, это не случайная выборка из тех, кто проходит один. Часть этой растущей линии, это самые целеустремлённые ученики, отбирающие сами себя в более поздние попытки.
Поэтому мы посчитали строгим способом. Каждый из 1 416 учеников прошёл не менее пяти пробников, поэтому мы можем поставить первый пробник каждого человека рядом с его пятым, и никто не выпадает из сравнения. На этой парной основе, по одним и тем же людям, средний балл растёт с 14,01 до 14,72 из 20, прирост в 0,71. Доля сдавших растёт с 19,8 процента до 26,1 процента, прирост в 6,3 пункта.
Это самый консервативный отбор, который мы можем сделать, те же ученики, измеренные от их первого фиксированного теста до пятого, и результат сохраняется. Полная кривая из десяти попыток указывает дальше в ту же сторону, к 15,7 из 20 и доле сдавших 31 процент, и мы приводим её как ориентировочную именно потому, что её более поздние точки опираются на эту сжимающуюся, самоотобранную группу.
Скорость и память указывают в ту же сторону
Ещё два измерения встают за ростом пробного экзамена, и ни одно из них не процент точности. Первое, это скорость. По десятидневной когорте время на вопрос падает с примерно 19,3 секунды в первый день до примерно 15,8 на десятый день, примерно на 18 процентов быстрее. Это происходит, пока вопросы становятся сложнее, а не легче, что исключает простое объяснение, будто люди просто проносятся по более лёгким вопросам. Быстрее на более сложном материале, это узнавание, становящееся автоматическим.
Второе, это память, измеренная на её собственных условиях. FSRS не только планирует повторения, он предсказывает вероятность того, что ученик вспомнит каждый вопрос, когда подойдёт его срок. Для 1 187 учеников с не менее чем 50 повторениями и параметрами, подогнанными под их собственную историю, модель предсказала 88,6 процента удержания и наблюдала 87,7 процента. Прогноз попадает в пределах примерно одного пункта от реальности, что говорит нам о двух вещах. Планирование хорошо откалибровано, и ученики действительно удерживают примерно 88 процентов материала, подходящего по сроку, а не зубрят его и сбрасывают.
Ни одно из этого не главный заголовок. Это подтверждение. Ученик, который становится быстрее на более сложных вопросах, удерживая при этом почти девять из десяти подошедших по сроку вопросов, согласуется с ростом баллов на пробниках и не согласуется с тем, что падение точности в практике означает то, чем оно кажется.
Чего эти числа не доказывают
Мы будем точны в отношении ограничений, потому что честная версия этой истории полезнее лестной.
Во-первых, это наблюдение, а не эксперимент. У нас нет контрольной группы, нет учеников, случайно назначенных заниматься каким-то другим способом. Поэтому мы можем сказать, что ученики, практиковавшиеся в AvtoPilot, улучшили наши показатели. Мы не можем сказать, что причиной улучшения стал AvtoPilot, а не мотивация, которая возвращала этих учеников, или простой эффект того, что со временем они видят больше вопросов. Причинность, это не то, что могут нести эти данные.
Во-вторых, эффект выживших проходит через всё это. Из примерно 34 000 человек, которые вообще практиковались, 672 достигли пяти активных дней, 420 достигли десяти, а 281 достиг четырнадцати. Десятидневная когорта, это целеустремлённое меньшинство, примерно 420 из 34 000, а целеустремлённые люди, как правило, и есть те, кто улучшается. Парное сравнение от первого к пятому построено так, чтобы убрать худшую часть этого, но оно не может изменить того факта, что мы в основном описываем людей, выбравших продолжать.
В-третьих, и это самое важное, доля сдавших здесь, это не государственная доля сдачи. Это доля наших собственных малозначимых учебных пробников, набравших восемнадцать или больше, порог, который мы установили, чтобы отразить настоящий. Мы не делаем никаких утверждений о том, как эти ученики справляются в центре тестирования. Мы этого не измеряем и не будем подразумевать число, которого у нас нет.
В-четвёртых, пробники берут вопросы из того же банка, на котором ученики практикуются, поэтому часть любого прироста, это простое знакомство с вопросами, а не более глубокое понимание правил. Мы делаем выборку случайной и перемешиваем порядок ответов, чтобы притупить это, но не можем утверждать, что устранили это полностью.
В-пятых, речь идёт о примерно пяти месяцах жизни молодого продукта. Пяти месяцев достаточно, чтобы увидеть закономерность. Их недостаточно, чтобы назвать её постоянной.
Что, по нашему мнению, показывают данные
Сведём это к тому, за что мы готовы поручиться. В адаптивной практике AvtoPilot точность падает за первые десять активных дней, потому что система намеренно подаёт более сложный материал, и это снижение, это работа метода так, как задумано, а не ухудшение учеников. На фиксированном пробном экзамене, который так не усложняется, те же ученики улучшаются: с 14,0 до 15,7 из 20 за десять попыток, и рост доли сдавших на 6,3 пункта от первого пробника каждого ученика до пятого, без эффекта выживших в этом сравнении. Скорость и откалиброванное удержание движутся в ту же сторону.
То, во что мы верим, сформулированное аккуратно, таково. Ученики, продолжающие практиковаться в AvtoPilot, измеримо лучше справляются с нашим фиксированным пробным тестом в формате экзамена, единственной линейкой, которую мы не позволили системе прогнуть, и два независимых измерения с этим согласуются. Мы не утверждаем, что причиной стали мы. Мы ничего не утверждаем о центре тестирования. Мы не обещаем ни одному ученику результата.
Общий урок, тот же, с которого мы начали. Когда показатели обучающего приложения падают, первый вопрос не в том, проваливаются ли ученики. Он в том, сделало ли приложение вопросы сложнее. Здесь оно сделало, намеренно, и те, кто остался, всё равно стали лучше. Постройте измерение, которое не может вам льстить, держите его неподвижным и следите за ним. Когда мы так сделали, число выросло.
Примечания
- Все цифры охватывают период с 6 февраля по 29 июня 2026 года, примерно пять месяцев, и измерены по реальному использованию AvtoPilot, а не по лабораторному эталону. За этот период: более 63 000 зарегистрированных учеников, более 3,3 миллиона учебных ответов, более 33 000 завершённых пробных экзаменов из двадцати вопросов и более 16 000 часов занятий. Самый загруженный день, 9 апреля 2026 года, дал 174 789 учебных ответов, причём использование сосредоточено в вечерние часы с 8 до 10 вечера по Ташкенту.
- Дневные показатели точности усреднены по 420 ученикам, которые занимались не менее чем в десять отдельных активных дней. Точность на впервые увиденных вопросах учитывает только вопросы, которые ученик никогда раньше не видел, по 309 ученикам в этой когорте, у которых достаточно данных по первому показу. Воронка удержания: 34 250 учеников занимались хотя бы один день, 672 достигли пяти активных дней, 420 достигли десяти, а 281 достиг четырнадцати.
- Средние по пробникам в разрезе попыток охватывают 1 416 учеников, прошедших не менее пяти пробных экзаменов. Выборка полна вплоть до пятой попытки и сокращается далее, с 1 416 учеников на первой попытке до 546 на десятой, поскольку столько экзаменов проходит меньше учеников. Поэтому мы считаем парное сравнение от первого к пятому главным, а полную кривую из десяти попыток ориентировочной. Каждый пробник, это свежая случайная выборка из двадцати вопросов из полного банка в 1 220 вопросов, оцениваемая по экзаменационному порогу восемнадцать из двадцати.
- Парный результат сравнивает первый пробник каждого из 1 416 учеников с его пятым, без отсева внутри периода: средний балл с 14,01 до 14,72 из 20, доля сдавших с 19,8 до 26,1 процента. Сдача означает набор восемнадцати или более из двадцати на нашем учебном пробнике. Это не государственная доля сдачи экзамена по теории вождения и не должна так читаться, поскольку по нему у нас нет данных об итогах.
- Откалиброванное удержание приведено для 1 187 учеников с не менее чем 50 повторениями и параметрами FSRS, оптимизированными под их собственную историю: предсказанное удержание 88,6 процента против наблюдаемого 87,7 процента, ошибка в пределах примерно одного пункта на материале, подошедшем по сроку. Скорость, это среднее время на вопрос для десятидневной когорты, примерно 19,3 секунды в первый день и 15,8 на десятый.
- В банке 1 220 вопросов, каждый доступен на узбекской латинице, узбекской кириллице и русском. Из 59 807 учеников, задавших языковую настройку, 93,8 процента выбрали узбекскую латиницу, 5,4 процента русский и 0,8 процента узбекскую кириллицу, то есть примерно девятнадцать из двадцати занимаются на узбекском. Ни одна из этих цифр не получена из контролируемого испытания. Они описывают учеников, которые выбрали использовать AvtoPilot, и не могут отделить эффект приложения от эффекта самих занятий.
