加拿大滑鐵盧大學研發出一種名為SubTrack++的全新訓練方法,不僅可大幅縮短大語言模型的預訓練時間,更能顯著提升其準確性。這一突破有望降低構建人工智能(AI)工具的成本與環境負擔,讓更多人用上強大、便捷的AI技術。
大語言模型是基于深度神經網絡、專注于理解與生成人類自然語言的AI系統。其核心能力源于海量文本數據的預訓練,借此學習語法規律、語義邏輯及上下文關聯,從而輸出貼近人類表達習慣的內容。這類模型的“大”體現在兩方面:一是訓練數據規模巨大,二是模型參數量極為龐大。正因如此,對其進行預訓練往往需要數月時間,并消耗大量算力、專用硬件及電力,高昂成本使一般企業與機構難以承擔。
為破解這一難題,團隊開發出SubTrack++方法,可將預訓練耗時縮減一半。團隊指出,大語言模型能耗極高,即便訓練時間僅減少5%,也能帶來顯著效益。從長遠看,此類技術進步將推動更多人自主構建專屬的大語言模型。
團隊解釋說,大語言模型本質是由龐大數字矩陣構成的神經網絡,通過數十億次試錯學習預測文本序列。每當預測出錯,模型便微調其數學參數以提升準確率。這一過程如同讓模型“閱讀整座圖書館”,從中學習人類如何使用語言。SubTrack++通過聚焦對任務最關鍵的核心參數,簡化校正流程,實現高效微調,從而加速整體預訓練。
團隊期望,通過節省預訓練時間,未來不只大型企業,普通用戶也能構建并定制屬于自己的AI工具。安全學習個人偏好后,大語言模型可成為真正的智能數字助理,適應不同用戶的風格、目標與需求,成為人類工作與創造中的得力伙伴。
團隊將在墨西哥城舉辦的神經信息處理系統會議上正式發表相關論文。




