Did You Lose Them? Predicting the Exact Moment of Disengagement via Multimodal VLM Classroom Orchestration in Education
傳統課堂中,教師難以即時察覺學生注意力的動態變化。當分心跡象明顯時, 關鍵的學習時刻往往已經流失。現有的 AI 監控系統多聚焦於單一視覺模態, 缺乏教學脈絡的理解,且容易引發學生的監控焦慮,反而降低了學習參與度。
本研究提出一套多模態視覺語言模型(VLM)框架,作為數位教學協調者。 系統整合三種資料流:透過 YOLOv12 與 DINOv2 進行隱私保護的視覺行為特徵擷取、 使用 TrOCR 分析投影片語意複雜度、以及透過 Fairseq S2T 處理教師語音模式, 最終由 Llama 2 架構的 VLM 進行跨模態推理與融合。 實驗於國立中央大學 Python 程式設計課程中進行,參與學生超過 30 位。
本研究倡導「同步教學法」(Synchronous Pedagogy)的典範轉移—— AI 不是監控工具,而是倫理的認知協駕(cognitive co-pilot), 在保護學生隱私與尊嚴的前提下,協調教學意圖與學生參與度, 讓教師能在課堂進行中即時調整教學策略。
此研究的技術架構與 Uedu 的螢幕錄製及課堂分析功能密切相關。 未來計畫將即時參與度分析整合至 ClassroomGPT 教師端儀表板, 讓教師在授課過程中即時掌握學生的參與狀態並獲得教學調整建議。
前往使用