WK綜合論壇, WK综合论坛

查看:122 回復:1 發表於 2024-8-22 05:47:19
累計簽到:170 天
連續簽到:10 天
跳轉到指定樓層
楼主
發表於 2024-6-20 20:05:38 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
VIP精品區,資源無限好賺金任務區,輕松賺金幣
加入VIP,享受高級特權宣傳賺金又升級,超級棒

[国内时事] AI考高考成績如何? 這個大陸模型「考生」贏過GPT-4o [複製鏈接]

中國大陸高考(大學入學考試)6月初已結束,各地近日將陸續公布考試成績。搶在這之前,上海人工智慧實驗室旗下機構近日公布首個由人工智慧(AI)大模型答卷的評測結果。在7個來自中國海內外大模型進行語文、數學、英語三科全卷能力測試下,阿里巴巴的通義千問2-72B總得分排名第一,略高於第二名OpenAI的GPT-4o。此外,閱卷老師也剖析了AI與人類考生答題上的差異。
" p9 N7 k- |! E' F5 b% s! e9 ^
6 n( K* J$ M" r) V. f4 t( x" S7 I% w上海第一財經報導,在前不久高考結束後,上海人工智慧實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考語文、數學、英語全卷能力測試,這項首個大模型高考全卷評測結果於19日公布。0 m8 {: e6 {$ l

+ k- V7 Y; b6 F( V7 t# ~在三科加起來滿分為420分(語文、數學滿分150分;英文滿分120分)的前提下,此次高考測試結果顯示,大模型的語文、英文考試程度普遍不錯,但數學都不及格,最高分也只有75分。2 C% D: h1 i! k5 \. }9 z

( G0 T5 O: ?+ O; Z0 h5 k3 ]從排名看,阿里通義千問2-72B排名第一,為303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智慧實驗室的書生·浦語2.0排名第三,三個大模型的得分率都超過70%。
4 @5 j$ m, q/ D  z) B2 i0 R
" E0 V  x  U1 k. L4 _3 o第四至六名則為阿里通義千問2-57B、零一萬物Yi-1.5-34B、智譜GLM4-9B。來自法國大模型新創公司的Mistral Mixtral 8x22B排名第七墊底。
, k1 o. X+ D8 e% J1 H; z3 V9 Z7 o4 D: Q% R
上海人工智慧實驗室表示,此次三科全卷測試,成績由具備高考評卷經驗的老師匿名人工判分,閱卷開始前,閱卷教師「未被」告知答卷均由模型生成,使閱卷教師完全以面對真實考生的標準評判回答效果。' n" O+ Y7 n! n6 V6 v
; D$ u5 k. w( S# n1 ?' m) Q
值得一提的是,大模型「犯錯」的方式和人類考生有差異,有的模型會存在完全不理解題意導致亂答、重複生成、回答更像解析而非解答的問題,因此實際執行上,閱卷老師未能完全適應給分的過程,團隊則要求老師將離譜的錯誤直接視為答題錯誤,解析類型的回答以是否包含正確解題過程作為唯一準則。此外,每個題目都邀請了至少三位老師評閱取平均分數。. g2 ?4 a! J5 A% [7 y' K4 t+ Q5 a. ?
4 U; q& L8 j) {
針對大模型在各科的表現,語文方面,評卷老師認為,模型的現代文閱讀理解能力普遍較強,但是不同模型的文言文閱讀理解能力差距較大。大模型作文則更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物材料等手法。對於「比喻」等語文概念,多數模型無法理解。' l; E& u9 i# Z* p8 F4 A" w: D

% s: T6 B# a- X% }2 N7 p$ _在數學考卷上,老師們發現,大模型的主觀題回答「相對凌亂」,且過程具有迷惑性,甚至出現過程錯誤但得到正確答案的情況。大模型的公式記憶能力較強,但是無法在解題過程中靈活引用。
+ h3 N+ f" [# Q* I3 _: u' P5 C, N3 \7 ~: c1 X0 d
英語則整體表現良好,但部分模型因不適應題型,在七選五、克漏字填空等題型得分率較低。大模型英文作文普遍存在因超出字數限制而扣分的情況,而人類考生多因為字數不夠扣分。8 |+ T1 t6 C9 h7 s$ }2 a3 n( G
1 m% _5 o+ J$ l, |) j4 b1 e& ^* R
收藏收藏 贊贊(0)
把本文推薦給朋友或其他網站上,每次被點擊增加您在本站積分︰1宣傳
累計簽到:10 天
連續簽到:1 天
沙发
發表於 2024-8-22 05:47:19 | 只看該作者
VIP精品區,資源無限好賺金任務區,輕松賺金幣
加入VIP,享受高級特權宣傳賺金又升級,超級棒
感謝大大的辛勞分享!我會繼續在WK關注大大的文章!

回復樓主 親!! 現在是淩晨!妳失眠啦?餓啦?通宵加班?還是想WK啦?

 分享同時學會感恩,一句感謝的話語,就是最大的支持!  歡迎交流討論
您需要登錄後才可以回帖 登錄 | 立即注册

本版積分規則

c重要聲明:本論壇是以即時上載言論的方式運作,WK論壇對所有言論的真實性、立場及版權等,不負任何法律責任。而一切言論只代表發佈者個人意見,並非本網站之立場,讀者及用戶務必自行判斷內容之真實性。 由於本論壇受到「即時上載言論」運作方式所規限,故不能完全監察所有言論,若讀者及用戶發現有內容出現「真實性、立場及版權」等問題,請聯絡我們:[email protected]論壇有權刪除任何言論(刪除前或不會作事先警告及通知)| SiteMap[網站地圖]

發表新帖 返回頂部