圍繞人工智能規(guī)?;瘧?yīng)用樣本需求,國家電網(wǎng)有限公司大數(shù)據(jù)中心初步建成具備樣本清洗、分類、標注、質(zhì)檢等能力的人工智能樣本庫——
近期,國家電網(wǎng)有限公司大數(shù)據(jù)中心設(shè)計中心(人工智能樣本中心)技術(shù)攻關(guān)團隊隊員正依托公司級人工智能樣本庫,針對公司總部及各省級電力公司人工智能模型訓(xùn)練需求,開展樣本歸集、治理、共享全流程研發(fā),為各專業(yè)人工智能模型研發(fā)及上線提供樣本支撐。
公司于2023年啟動人工智能規(guī)?;瘧?yīng)用專項工作。樣本是人工智能應(yīng)用的基礎(chǔ)資源,樣本規(guī)模和質(zhì)量是影響人工智能模型應(yīng)用效果的關(guān)鍵因素。高質(zhì)量樣本有助于提升人工智能模型精度和普適度,縮短模型訓(xùn)練周期。
圍繞人工智能模型驗證、訓(xùn)練和規(guī)?;瘧?yīng)用樣本需求,國網(wǎng)大數(shù)據(jù)中心構(gòu)建了覆蓋公司各專業(yè)領(lǐng)域的樣本資源體系,以專項歸集、定向歸集等方式開展全量樣本歸集等工作。
作業(yè)現(xiàn)場典型違章行為識別場景是人工智能技術(shù)在安監(jiān)專業(yè)的重要應(yīng)用場景。“我們此前在應(yīng)用識別場景時發(fā)現(xiàn),現(xiàn)有模型識別準確率較低,容易出現(xiàn)誤告警、漏告警等問題。技術(shù)人員分析認為,主要是高質(zhì)量樣本不足、樣本標注缺乏統(tǒng)一規(guī)范導(dǎo)致訓(xùn)練的模型精度不高,影響了應(yīng)用成效。”福建福州供電公司作業(yè)安全督查員李冰鑫說。
人工智能樣本中心技術(shù)攻關(guān)團隊進一步優(yōu)化樣本標注方式,支撐模型訓(xùn)練調(diào)優(yōu)。針對高質(zhì)量樣本數(shù)量不足的問題,該團隊與各省級電力公司建立協(xié)同機制,加強與公司設(shè)備、營銷、安監(jiān)、物資等專業(yè)部門對接,開展樣本資源盤點、歸集,使原始圖像、文本的歸集及標注數(shù)量顯著提升。最終,該團隊應(yīng)用場景重現(xiàn)、增廣技術(shù)等手段解決了高質(zhì)量樣本獲取難的問題。
樣本有了,但由于質(zhì)量參差不齊,仍然無法完全滿足模型訓(xùn)練需求。“對于歸集上來的樣本,我們剛開始缺乏統(tǒng)一的質(zhì)量評價標準,且在自動化、智能化開展樣本治理方面缺乏有效手段。”人工智能樣本中心技術(shù)攻關(guān)團隊隊員葛鑫亮說。
為了解決這一問題,人工智能樣本中心技術(shù)攻關(guān)團隊聯(lián)合公司各單位業(yè)務(wù)、技術(shù)專家開展樣本治理技術(shù)標準與治理規(guī)范提升行動,制訂了2套質(zhì)量評價標準、1套治理規(guī)范,建成了具備重復(fù)、模糊、損壞等圖像質(zhì)量問題自動處理能力的圖像樣本自動化清洗治理流水線,并開發(fā)了41個文本樣本清洗算子,提高樣本治理能力。
清洗治理后的樣本還需要通過精確標注才能提供給模型進行訓(xùn)練。“樣本清洗、標注工作涉及人工篩選、備份、交接,每個環(huán)節(jié)都需要手工記錄和統(tǒng)計,要耗費大量人力且容易出現(xiàn)統(tǒng)計誤差。”人工智能樣本中心技術(shù)攻關(guān)團隊隊員冉仲陽介紹。
人工智能樣本中心面向27家省級電力公司開展用戶需求調(diào)研,基于人工智能樣本庫自主開發(fā)了全新的樣本任務(wù)管理工具。該工具具備樣本任務(wù)線上下發(fā)、樣本流轉(zhuǎn)狀態(tài)動態(tài)監(jiān)控等功能,實現(xiàn)了任務(wù)分配、質(zhì)量檢查、任務(wù)審核、流程管理全部環(huán)節(jié)線上化、自動化,大幅提升樣本標注等工作的效率。
目前,公司規(guī)模最大的人工智能樣本庫已初步建成,具備樣本清洗、分類、標注、質(zhì)檢等能力,可以面向公司各單位提供高質(zhì)量樣本共享服務(wù)。(王磊)
評論