![]() |
|
|||
□ccyou
如今的考試都流行“電子閱卷”。最近公佈的一份研究報告總結說,計算機甚至能夠給美國標準化考試的作文評分,效果和人工閱卷一樣好。
有人卻覺得,一旦我們瞭解了電子閱卷機的“偏好”,就不難在考試中取得高分。美國麻省理工學院寫作項目部主任萊斯·佩雷爾曼就嘗試了這樣一件事:他通過研究並完成了一份試卷,輕鬆地從電子閱卷機那裏,拿到了一個作文滿分。
機器閱卷節約人力
美國阿克倫大學教育學院院長馬克·謝爾米斯曾做過這樣一件事:他收集了六個州的1.6萬多篇人工打分的初高中考試作文,然後用自動化閱卷系統重新給這些作文評分。最後他得出結論:“電腦閱卷準確度幾乎與人工閱卷結果完全相同。事實證明,在某些情況下機器比人更加可靠。”美國某“高等教育內幕網”爲此還公開了一篇博客文章,將這整件事情總結爲“閱卷機器的勝利”。
根據美國培生教育集團估計,人工閱卷最快的速度,大概可用1小時給30篇考試作文打分。而美國教育考試服務中心研究部主任大衛·威廉姆森則表示,該中心開發的自動化閱卷機“電子評分器”,可以在20秒內評閱1.6萬篇作文。開發這種閱卷機的原因,原本就是因爲該中心每年開展和管理包括美國大學的各種入學考試約有5000萬次,實在安排不了那麼多人力閱卷。
評卷方法誤人子弟
麻省理工學院寫作項目部主任萊斯·佩雷爾曼在研究了這種“電子評分器”的思維方式後,卻認爲這種機器閱卷明顯會誤人子弟。雖然他的研究結果帶有侷限性,因爲目前只有美國教育考試服務中心開發的這種“電子評分器”允許他進行測試,但他的觀點卻有普遍意義。
他指出,自動閱卷機其實很容易騙。只需要經過一些考前準備,考生面對電子閱卷機時就很容易過關,因爲那些機器對什麼是好作文設定了一個非常狹隘、僵化的標準。這種機器最終可能會迫使教師簡化寫作教學。
佩雷爾曼說,電子評分器的最大問題是不能鑑別內容的真實性。他說,批改作文的電子評分器只被設定要求句子結構正確、語法正確等問題,卻不會去認真核對寫作內容的準確性。“如果考生把1812年的戰爭寫成始於1945年,電子評分器也不會在意。”
佩雷爾曼還發現,“電子評分器”喜歡長文章。他寫了篇716個單詞的文章,把十幾句不知所云的話堆在一起,得到了最高分6分;而另外一篇邏輯通順、行文優美的567個單詞的作文卻只得到5分。他還指出,電子評分器不喜歡短句子或短的段落。它們也不喜歡以“or”和“and”開頭的句子,或結構不完整的句子。不過,它們喜歡連詞,比如“however”。根據程序設定,這類詞彙顯示了作者的思維複雜性。此外,複雜的詞彙在任何情況下都有效,因爲電子評分器視其爲詞彙量豐富的表現。
他說,自動閱卷機能夠計數,因此它能設定一個好句子有多少個單詞、一個好段落有多少個句子。“一旦你瞭解了電子評分器的偏好,就不難提高你的考試成績了。”
機器無法替代人工
對佩雷爾曼的研究,開發出電子評分器的美國教育考試服務中心的官員則表示,佩雷爾曼給出的針對“電子評分器”的考前準備建議太過複雜,大多數學生都吸收不了;要是他們真能掌握,那他們用到這種較高層次的複雜思維,正是考試本身所希望並值得獎勵的。換句話說,如果學生們聰明到能夠掌握如此複雜的考前準備方法,那麼他們拿6分也是理所應當的。
他們承認辨別事實真假不是“電子評分器”的強項。但認爲佩雷爾曼的研究錯誤地設定了一個前提,即把“電子評分器”當成人工閱卷員的代替品。他們指出,在一些重大考試中,他們仍然會使用人力評卷參與“電子評分器”的工作一起得出評卷結果。
另一傢俬人公司開發的“智能作文評估軟件”負責人也表示,他們這款軟件也只是教師的課堂教學輔助工具,軟件能即時把文章中需改進的地方反饋給學生。學生們可以修改並重新提交作文。“這個軟件直接交給學生們自己使用,他們就可能會寫上5遍,最終完成更出色的作文後再交給老師看。”
也有開發相關軟件的專業人士迴應了“被機器評爲好文章的通常是長文章”一說。他們表示這兩者之間是存在關聯的。寫作好的人已經掌握了一些技能,可以寫得更流暢,自然可以在有限的時間裏寫出更長的文章。
儘管如此,還是有學生利用自己的計算機專業,設計出一款安卓系統的應用程序,可以自動生成作文,並能通過“電子評分器”拿到6分的滿分。而且整個過程,只需用一部智能手機就可以直接把作文提交給電腦打分器,從頭到尾根本不用人蔘與。
這無疑是對現代機器的一種諷刺。
(譯自New York Times/果殼網)
ccyou