近日,香港科技大學(xué)的一場特殊考試實(shí)驗(yàn)引起了廣泛關(guān)注。張軍教授和孟子立教授團(tuán)隊(duì)利用一副搭載了ChatGPT-5.2大語言模型的樂奇Rokid AI眼鏡,成功完成了該校《計(jì)算機(jī)網(wǎng)絡(luò)原理》課程的期末考試。在僅耗時(shí)30分鐘的答題過程中,這臺(tái)AI設(shè)備交出了一份得分92.5分的答卷,這一成績超越了95%的同期人類考生。
為確保實(shí)驗(yàn)的有效性,研究團(tuán)隊(duì)完全復(fù)刻了真實(shí)考試的場景與環(huán)境。他們選擇了硬件開發(fā)自由度較高的樂奇Rokid AI眼鏡作為載體,并為其配備在響應(yīng)速度與知識(shí)儲(chǔ)備方面均屬頂尖的ChatGPT-5.2模型。在考試中,AI眼鏡通過內(nèi)置攝像頭拍攝試題,將圖像信息傳輸給后端的大模型進(jìn)行處理。大模型在平均0.8秒內(nèi)即可完成題目推理并生成答案,隨后答案被反向回顯到眼鏡的鏡片上,供操作者抄錄。

最終的答題表現(xiàn)相當(dāng)亮眼:在面對(duì)選擇題和單頁短答題時(shí),AI取得了滿分;雖然在涉及跨頁信息的邏輯推理題上出現(xiàn)了細(xì)微的計(jì)算偏差,但其答案在整體推理的連貫性與解題步驟的完整性方面,均遠(yuǎn)超大多數(shù)學(xué)生。
這一實(shí)驗(yàn)結(jié)果并非偶然。此前,英國雷丁大學(xué)的一項(xiàng)研究也曾表明,在提交的AI生成答卷中,有高達(dá)94%能夠通過人工審核,并且其平均成績普遍高于真實(shí)學(xué)生的答卷。
此次實(shí)驗(yàn)更深層的意義,在于尖銳地揭示了當(dāng)前傳統(tǒng)教學(xué)評(píng)估體系中的一個(gè)核心矛盾:以考查知識(shí)點(diǎn)記憶和標(biāo)準(zhǔn)解題步驟推導(dǎo)為主的筆試形式,恰恰是人工智能最為擅長的領(lǐng)域。當(dāng)機(jī)器在“提交標(biāo)準(zhǔn)答案”方面表現(xiàn)得比人類更出色時(shí),傳統(tǒng)考試所承載的衡量與區(qū)分意義便被極大地削弱了。
面對(duì)來自人工智能的沖擊,全球范圍內(nèi)的高等教育機(jī)構(gòu)已開始積極尋求改革路徑。例如,紐約大學(xué)推出了AI口試系統(tǒng),通過持續(xù)追問學(xué)生的推演思路來評(píng)估其真實(shí)理解深度;部分院校則引入了需要展示過程的項(xiàng)目式作業(yè)與現(xiàn)場答辯,要求學(xué)生詳細(xì)解釋自己的決策依據(jù)與思考邏輯。此外,也有教育機(jī)構(gòu)嘗試采用“過程性檔案袋”的評(píng)價(jià)方式,完整記錄學(xué)生從提出問題到最終解題的整個(gè)思維軌跡,從而將評(píng)估的重點(diǎn)從單純的“結(jié)果正確性”轉(zhuǎn)向?qū)?ldquo;思考過程質(zhì)量”的考察。





























浙公網(wǎng)安備 33010502007447號(hào)