近日,香港科技大學(xué)的一場特殊考試實驗引起了廣泛關(guān)注。張軍教授和孟子立教授團隊利用一副搭載了ChatGPT-5.2大語言模型的樂奇Rokid AI眼鏡,成功完成了該?!队嬎銠C網(wǎng)絡(luò)原理》課程的期末考試。在僅耗時30分鐘的答題過程中,這臺AI設(shè)備交出了一份得分92.5分的答卷,這一成績超越了95%的同期人類考生。
為確保實驗的有效性,研究團隊完全復(fù)刻了真實考試的場景與環(huán)境。他們選擇了硬件開發(fā)自由度較高的樂奇Rokid AI眼鏡作為載體,并為其配備在響應(yīng)速度與知識儲備方面均屬頂尖的ChatGPT-5.2模型。在考試中,AI眼鏡通過內(nèi)置攝像頭拍攝試題,將圖像信息傳輸給后端的大模型進行處理。大模型在平均0.8秒內(nèi)即可完成題目推理并生成答案,隨后答案被反向回顯到眼鏡的鏡片上,供操作者抄錄。

最終的答題表現(xiàn)相當(dāng)亮眼:在面對選擇題和單頁短答題時,AI取得了滿分;雖然在涉及跨頁信息的邏輯推理題上出現(xiàn)了細微的計算偏差,但其答案在整體推理的連貫性與解題步驟的完整性方面,均遠超大多數(shù)學(xué)生。
這一實驗結(jié)果并非偶然。此前,英國雷丁大學(xué)的一項研究也曾表明,在提交的AI生成答卷中,有高達94%能夠通過人工審核,并且其平均成績普遍高于真實學(xué)生的答卷。
此次實驗更深層的意義,在于尖銳地揭示了當(dāng)前傳統(tǒng)教學(xué)評估體系中的一個核心矛盾:以考查知識點記憶和標(biāo)準(zhǔn)解題步驟推導(dǎo)為主的筆試形式,恰恰是人工智能最為擅長的領(lǐng)域。當(dāng)機器在“提交標(biāo)準(zhǔn)答案”方面表現(xiàn)得比人類更出色時,傳統(tǒng)考試所承載的衡量與區(qū)分意義便被極大地削弱了。
面對來自人工智能的沖擊,全球范圍內(nèi)的高等教育機構(gòu)已開始積極尋求改革路徑。例如,紐約大學(xué)推出了AI口試系統(tǒng),通過持續(xù)追問學(xué)生的推演思路來評估其真實理解深度;部分院校則引入了需要展示過程的項目式作業(yè)與現(xiàn)場答辯,要求學(xué)生詳細解釋自己的決策依據(jù)與思考邏輯。此外,也有教育機構(gòu)嘗試采用“過程性檔案袋”的評價方式,完整記錄學(xué)生從提出問題到最終解題的整個思維軌跡,從而將評估的重點從單純的“結(jié)果正確性”轉(zhuǎn)向?qū)?ldquo;思考過程質(zhì)量”的考察。





























浙公網(wǎng)安備 33010502007447號