Nega QuizPilot shunchaki sunʼiy intellekt qobigʻi emas
Tartibsiz imtihon hujjatini xatosiz testga aylantirish asosan sunʼiy intellekt modelining ishi emas. Quyida buni qanday tizim bajarishi va nima uchun taxminan har uch hujjatdan biri modelga umuman murojaat qilmasligi tushuntirilgan.
Test generatorini yaratishning tez va qoʻpol, shuningdek sekin va puxta yoʻli bor deb oʻylash oson. Ammo unday emas. Eng oson koʻringan usul, yaʼni butun hujjatni sunʼiy intellekt modeliga yuklab, undan savollar tuzishni soʻrash sekin va qimmat jarayon boʻlib, u savollarning aksariyatini jimgina yoʻqotib yuboradi. Buni toʻgʻri yoʻl bilan qilish esa, aslida, eng tez va arzon usul boʻlib chiqadi.
Avval yoʻqotish qismidan boshlaylik, chunki koʻpchilik aynan shuni eʼtibordan chetda qoldiradi. Model chaqiruvi bir safarda qancha maʼlumot bera olishi boʻyicha qatʼiy chegaraga ega. Undan 500 savolli bankdagi barcha savollarni bir urinishda ajratib olishni soʻrasangiz, u rad etmaydi. Shunchaki uning xotirasi toʻlib qoladi va toʻxtaydi. Natijada savollarning faqat bir qismini, baʼzan esa atigi bir necha oʻntasini qaytarib, qolganlarini jimgina tashlab yuboradi. Bu ulkan generatsiya jarayoni, shuningdek, yagona uzoq chaqiruv hamdir va siz har safar butun hujjatni model orqali oʻtkazish uchun pul toʻlaysiz. Bir vaqtning oʻzida ham sekin, ham qimmat, ham samarasiz.
Keyin esa tartibsizliklar kelib chiqadi. Skaner qilingan imtihon bankida savollar bir-biriga boʻsh joysiz yopishib ketgan boʻladi. Jadvalda esa toʻgʻri javoblar ustuni oʻrtaga kelganda jimgina boshqa qatorga surilib ketadi. Bitta belgi uch xil qatorda uch xil maʼnoni anglatishi mumkin. Bularning barchasini bir urinishda modelga bersangiz, u sizga sirt qaraganda toʻgʻri koʻrinadigan, ammo notoʻgʻri javoblari toʻgʻri deb belgilangan savollarni qaytaradi. Koʻpgina mahsulotlar uchun bu shunchaki kichik xato boʻlishi mumkin. Ammo taʼlim vositasi uchun bu talabaga notoʻgʻri narsani oʻrgatish demakdir.
Shuning uchun QuizPilot maʼlumot ajratib olishga avvalo muhandislik muammosi, eng oxirida esa model muammosi sifatida qaraydi. Deterministik kod matnni oʻqiydi, birorta ham savol oʻrtasidan kesilib qolmasligi uchun uni savol chegaralaridan boʻladi va modelga bitta ulkan hujjat oʻrniga kichik toʻplamlarni parallel ravishda uzatadi. Model faqatgina parserdan koʻra yaxshiroq eplay oladigan yagona vazifa uchun, kichik qismlar bilan ishlashga jalb qilinadi, undan ortigʻiga emas.
Hujjatga nima boʻladi
Har bir hujjat toʻgʻri natija beradigan eng qisqa yoʻldan oʻtadi. U fayl turiga qarab oʻqiladi, ichida savollar bor-yoʻqligi tekshiriladi va kontent turiga koʻra tasniflanadi. Chunki fizika varagʻi tarix testidan farqli formatlash qoidalarini talab qiladi.
Shundan soʻng deterministik parserlar kaskadi ishga tushadi. Oʻn bitta format parseri navbat bilan urinib koʻradi va qaysi biri birinchi boʻlib aniq mos kelsa, oʻsha gʻalaba qozonadi, bunda model umuman qatnashmaydi. Agar hech biri mos kelmasa, hujjat bosqichma-bosqich kuchliroq va qimmatroq bosqichlarga oʻtadi: modeldan faqat toʻgʻri variantni tanlashni soʻraydigan struktura tahlili, soʻngra savol chegaralaridan boʻlingan qismlar boʻyicha toʻliq ajratib olish va nihoyat, skaner qilingan yoki sifatsiz sahifalar uchun koʻrish modeli. Aksariyat hujjatlar bu bosqichlargacha umuman yetib bormaydi.
- 1
Faylni oʻqish
PDF, rasmlar, DOCX, XLSX va PPTX uchun alohida ajratib oluvchilar.
- 2
Savollar borligini tekshirish
Hujjatda savollar bor-yoʻqligini aniqlash va ularning sonini taxmin qilish.
- 3
Kontent turini aniqlash
Matematika va fizika oddiy matndan farqli formatlanadi, shuning uchun qoidalar shunga moslashadi.
- 4
Deterministik parserlar kaskadi
sunʼiy intellektsizOʻn bitta format parseri navbat bilan urinib koʻradi. Birinchi aniq mos kelgani modelga murojaat qilmasdan gʻalaba qozonadi.
- 5
Struktura tahlili, yagona qaror
sunʼiy intellekt, cheklanganKod savollar va variantlarni ajratib oladi. Model faqat qaysi variant toʻgʻri ekanini tanlaydi.
- 6
Toʻplamli ajratib olish
sunʼiy intellekt, cheklanganFaqatgina hech qaysi parser mos kelmaganda ishlaydi. Hujjat savol chegaralaridan boʻlinadi va parallel ravishda oʻqiladi.
- 7
Koʻrish modeliga oʻtish
sunʼiy intellekt, cheklanganSkaner qilingan yoki sifatsiz sahifalar qayta ishlanadi va koʻrish modeli orqali oʻqiladi.
- 8
Tekshirish, dublikatlarni tozalash, aralashtirish, saqlash
Har bir savol tekshiriladi, oʻxshash dublikatlar olib tashlanadi va javob oʻrinlari tasodifiy tartibda joylashtiriladi.
Model uchun bitta cheklangan vazifa
Qobiq degan soʻz aynan shu joyda xato tushuncha beradi. QuizPilot tizimidagi model kichik va qatʼiy cheklangan vazifaga ega. U matn boʻlagidan variantlarni oʻqiydi yoki struktura tahlili bosqichida faqat bitta ishni bajaradi: qaysi variant toʻgʻri ekanini tanlaydi. U bitta savol qayerda tugab, keyingisi qayerda boshlanishini, qaysi javoblar dublikat ekanini yoki natija foydalanuvchiga taqdim etish uchun yetarli darajada yaxshi ekanini hal qilmaydi. Bularning barchasini fayldan maʼlumot ajratish, aniqlash, segmentlash, tekshirish, dublikatlarni tozalash, javoblarni aralashtirish, keshlash va metrikalar bilan birgalikda deterministik kod bajaradi.
Natijani oʻlchash mumkin. Foydalanuvchilar yuklagan har uch hujjatdan taxminan biri ajratish modeliga umuman murojaat qilinmasdan, boshidan oxirigacha deterministik kaskad orqali tahlil qilinib, testga aylanadi. Qolganlari uchun esa model butun boshli konveyer emas, balki uning ishini tekshirib boruvchi konveyer ichidagi bitta cheklangan qadamdir.
Model kerak boʻlganda, asosiy ajratib oluvchi sifatida Gemini 2.5 Flash-Lite ishlatiladi. Agar u cheklovga tushsa yoki rad etsa, avtomatik ravishda ikkinchi provayderga oʻtiladi. Skaner qilingan sahifalar uchun esa alohida koʻrish modeli mavjud. Bu yerdagi eng qiziq muhandislik yechimi qaysi modelni chaqirishimizda emas, balki undan qanchalik kam narsa soʻrashimizdadir. Kichikroq vazifa arzonroq, tezroq bajariladi va xato qilish ehtimolini kamaytiradi.
Nega bu haqiqatan ham qiyin
Bir nechta haqiqiy misollar buni yaqqol koʻrsatadi. Bitta hujjatning oʻzida savollarni raqamlash kamdan-kam hollarda bir xil boʻladi. Bir savol nuqtadan keyin probel bilan 1. deb yozilgan boʻlsa, keyingisi matniga bevosita yopishgan holda 2.Savol deb yoziladi. Oddiy parser yopishib qolgan savolni jimgina oʻzidan oldingi savolga qoʻshib yuboradi va siz u yerda savol borligini bilmay turib uni yoʻqotasiz.
Belgilar haddan tashqari koʻp maʼno tashiydi. Panjara belgisi kontekstga qarab savol raqami, toʻgʻri javob belgisi yoki ajratuvchi boʻlishi mumkin. Toʻgʻri javob belgisi esa mintaqa va formatga qarab oʻzgarib turadi. U yulduzcha, plyus, tenglik belgisi, panjara, tasdiq belgisi yoki toʻliq yozilgan toʻgʻri javob soʻzlari boʻlishi mumkin. Bitta belgini uch xil qatorda uch xil tarzda oʻqishga toʻgʻri keladi. Buni bitta qatʼiy qoida qila olmaydi, ammo puxta ishlangan kaskad eplay oladi.
Jadvallar surilib ketadi. Imtihon banki blokning birinchi qatorida fan ustunini toʻldiradi va pastki qatorlarni boʻsh qoldiradi. Natijada keyingi qator notoʻgʻri ustunga toʻgʻri kelib qoladi va toʻgʻri javob xato deb belgilanadi. Bu holat katakma-katak oʻqiydigan model uchun koʻrinmas boʻlib, jadval shaklini tushunadigan kod orqaligina ushlab qolinadi. Bularning har biri haqiqiy hujjatda topilgan haqiqiy xato edi va endilikda ularning har biri qayta takrorlanmasligi uchun doimiy regression testga aylantirilgan.
Notoʻgʻri javob umuman javob yoʻqligidan yomonroq
Shu yagona qoida butun tekshirish qatlamini tushuntirib beradi. Test foydalanuvchiga taqdim etilishidan oldin har bir savol tekshiriladi. Unda shunchaki toʻldirgich yoki boʻsh joylar emas, balki haqiqiy variantlar boʻlishi kerak. Variantlar takrorlanmas boʻlishi shart. Toʻgʻri javob indeksi mavjud variantga ishora qilishi kerak. Bunda modelning noldan emas, birdan sanash kabi keng tarqalgan xatosi avtomatik tuzatiladi. Variantlari juda kam boʻlgan savollar yoki model ishonch hosil qilmagan struktura tahlili taxmin qilib oʻtirilmasdan, shunchaki tashlab yuboriladi.
Yigʻilgan test normallashtirilgan imzo orqali dublikatlardan tozalanadi, toʻgʻri tanlov doim bir joyda boʻlib qolmasligi uchun javob oʻrinlari aralashtiriladi. Muvaffaqiyatsiz yoki qisman ajratib olingan maʼlumotlar hech qachon keshlanmaydi, shunda yomon urinish keyingilarini buzib qoʻymaydi. Qamrov nazorati uzun hujjatdagi bir nechta adashgan belgilarning butun tahlil jarayonini buzib yuborishiga yoʻl qoʻymaydi. Agar pullik obunaga ega foydalanuvchi kutgan savollarining kichik bir qismidan koʻprogʻini yoʻqotsa, avtomatik ravishda ogohlantirish tizimi ishga tushadi. Shunday qilib, biz yomon hujjat haqida foydalanuvchi bizga aytishidan oldinroq xabar topamiz.
Bu darajaga yetish uchun taqdimotlarda hech qachon koʻrsatilmaydigan mashaqqatli mehnat talab qilindi. Savollar aslida qayerdan boshlanishini inobatga oladigan, chegaraga asoslangan ajratuvchi savol oʻrtasidagi uzilishlarni 18 foizga va modelga murojaatlarni 13 foizga kamaytirdi. Tizimni yopishib qolgan va panjara belgisi bilan raqamlangan savollarni qayta ishlashga oʻrgatish esa bu uzilishlarni yana 33 foizga qisqartirdi.
Toʻplanib boradigan qamrov
Deterministik ulush bir joyda qotib qolmagan. U takrorlanuvchi tsikl orqali oʻsib boradi: haqiqiy foydalanuvchilar yuklaydigan yangi hujjat formatlarini yigʻish, parserlar oʻtkazib yuborganlarini topish, haqiqiy fayllar asosida yangi parser yaratib, uni qatʼiy sinovdan oʻtkazish va ishga tushirish. Har bir tsikl sunʼiy intellekt ishtirokisiz qayta ishlanadigan hujjatlar toʻplamini kengaytiradi. Qobiq dastur faqatgina uning modeli shu haftada qanchalik yaxshi ishlasa, shunchalik yaxshi boʻla oladi. Bizning tizimimiz esa oʻz jadvali boʻyicha mustaqil yaxshilanib boradi.
Shuningdek, u oʻziga xos reallik uchun qurilgan. Markaziy Osiyo imtihon banklarining oʻz qoidalari bor: biletlar, aralash kirill, lotin va turkiy yozuvlar, mintaqaga xos javob belgilari. Hujjatni testga aylantiruvchi oddiy vositalar ularda qoqiladi. QuizPilot ana shunday minglab haqiqiy hujjatlar asosida shakllantirilgan. Bu shunday ustunlikki, uning modelga deyarli aloqasi yoʻq, aksincha, u yillar davomida oʻqishni oʻrgangan formatlar bazasiga toʻliq bogʻliqdir.
Ustunlik tizimning oʻzida
Bularning hech biri QuizPilot sunʼiy intellektdan qochadi degani emas. U modeldan faqatgina oʻzi kuchli boʻlgan qarorlar uchun ataylab va tor doirada foydalanadi. Atrofdagi barcha ishlarni esa deterministik kod bajaradi va natijani tekshiradi. Biz natija mukammal deb daʼvo qilmaymiz. Bizning haqqoniy daʼvomiz shuki, deterministik yoʻldagi javoblar shunchaki taxmin qilinmaydi, balki manbadagi belgiga asoslanadi. Model yoʻli esa koʻr-koʻrona ishonchga emas, balki qatʼiy cheklov va tekshiruvga tayanadi.
Xulosa qilib aytganda, sunʼiy intellektdan jarrohlik aniqligida foydalanish, mintaqaviy formatlarni tushunish va toʻplanib boradigan jarayonni koʻchirib olish har qanday yakka model chaqiruvidan koʻra ancha qiyin. Qobiq dastur va tizim oʻrtasidagi farq ham aynan shunda. Biri model nima desa shuni taqdim etadi. Ikkinchisi esa toʻgʻri ishlash uchun maxsus muhandislik yechimlari bilan qurilgan.
Izohlar
- Uchdan bir koʻrsatkichi trafik boʻyicha tortilgan boʻlib, soʻnggi davrdagi ishlab chiqarish metrikalari asosida oʻlchangan. U ajratish modeliga murojaat qilinmasdan tahlil qilingan haqiqiy yuklamalarni sanaydi va laboratoriya sinovi natijasi emas.
- Asosiy ajratib olish jarayoni Gemini 2.5 Flash-Lite modelida ishlaydi. Agar u ishlamay qolsa, avtomatik ravishda ikkinchi provayderga oʻtiladi va skaner qilingan sahifalar uchun alohida koʻrish modelidan foydalaniladi. Aniq parser qoidalari, chegaralar va model koʻrsatmalari ushbu maqolada ataylab tushirib qoldirilgan.
- Qamrov koʻrsatkichlari deterministik yoʻlga oʻtkazilgan hujjat formatlarini sanaydi va har bir oʻzgarish ishga tushirilgan vaqtda qayd etilgan.
