(資料圖片僅供參考)
圖片來源:中國工業(yè)互聯網研究院
近日,中國工業(yè)互聯網研究院(以下簡稱“工聯院”)針對人工智能大模型在中文工業(yè)領域的應用性能、技術架構、標準體系進行系統(tǒng)性評測,并發(fā)布系列報告。評測對象涵蓋GPT-4、GPT-3.5、文心一言、ChatGLM等國內外具有代表性的頭部大模型。
本次工業(yè)知識問答測試主要分為客觀題與主觀題兩大類,總計超過1100個問題。主觀題主要考察四大維度:基礎能力、語句能力、概括能力和邏輯能力。評測結果顯示,GPT-4表現最佳。國內頭部大模型表現亮眼,整體與GPT-3.5相當。其中百度文心一言在國內大模型中排名第一。
在客觀題方面,GPT-4與文心一言表現優(yōu)于其他大模型。但評測結果也同時指出,大模型在準確率方面有較大的提升空間。在主觀題方面,國內大模型的基礎能力、語句能力與GPT-4接近,概括能力、邏輯能力與GPT-4存在一定差距。
評測數據集由工業(yè)領域八大行業(yè)的相關數據構成。包括電子設備制造業(yè)、裝備制造業(yè)、鋼鐵行業(yè)、采礦行業(yè)、電力行業(yè)、石化化工行業(yè)、建材行業(yè)和紡織行業(yè)。工聯院根據工業(yè)經驗,結合外部數據源,按行業(yè)構建行業(yè)知識測試集。
從行業(yè)維度看,大模型在八個行業(yè)知識問答能力上差異明顯,個別行業(yè)需進一步優(yōu)化提升。其中,電子、裝備行業(yè)評價指數較高,紡織、采礦行業(yè)綜合評價指數相對較低。
分析大模型落地垂直行業(yè)痛點,豐富特定行業(yè)專業(yè)知識。雖然國內大模型在本次評測中表現較好,甚至在部分行業(yè)評分優(yōu)于GPT-3.5,但工聯院評測報告指出,國內外通用大模型在工業(yè)知識問答領域探索仍處于初級階段,國內大模型與GPT-4有差距,行業(yè)間的泛化能力有待加強。對此,工聯院評測報告給出的建議是進一步豐富相關專業(yè)領域的數據訓練集,進行專業(yè)化的微調。
關鍵詞: