隨著人工智能應(yīng)用領(lǐng)域的拓展,地方方言正在成為大語言模型應(yīng)用探索的重要領(lǐng)域。日前,廣東海洋大學(xué)陽江校區(qū)計算機科學(xué)與工程學(xué)院副教授鄧超與4名博士牽頭組成團隊,啟動了陽江方言大模型系統(tǒng)研究課題。
這是廣東海洋大學(xué)陽江校區(qū)成立后首個自然語言處理人工智能研究課題,引起了社會的廣泛關(guān)注。該課題將立足陽江方言現(xiàn)狀,探索陽江方言保護(hù)、傳承與利用的新路徑,讓承載著鄉(xiāng)土記憶的陽江話以更鮮活的形式融入當(dāng)代生活,煥發(fā)生機與活力。
創(chuàng)新探索“AI+方言”
有望實現(xiàn)多場景應(yīng)用
近日,記者走進(jìn)位于廣東海洋大學(xué)陽江校區(qū)的陽江信創(chuàng)產(chǎn)業(yè)創(chuàng)新中心看到,研究人員正專注處理方言數(shù)據(jù)。
“來到陽江工作后,我發(fā)現(xiàn)語言不通給我的生活帶來許多不便,同時我也注意到了許多外出求學(xué)的年輕人對方言日漸陌生。”鄧超說,團隊中既有“新陽江人”對方言隔閡的切身感受,也有土生土長的成員對鄉(xiāng)音的深厚情懷,這促使大家“一拍即合”,共同開啟了這場科技攻關(guān)。
據(jù)介紹,當(dāng)前如粵語、上海話、四川話等使用人口較多的大方言研究較為充分,而陽江話這類使用人口較少的次方言研究相對較少,這也使得團隊的研究更具價值。
“我們希望通過AI讓陽江話‘活’起來,既應(yīng)對保護(hù)和傳承挑戰(zhàn),也為人工智能賦能民生服務(wù)提供實質(zhì)性應(yīng)用,助力提升工作效率與質(zhì)量。”作為從海外學(xué)成歸來的陽江學(xué)子、人工智能領(lǐng)域博士劉炳堯也積極開展本課題的研究工作。
如何開展研究?課題攻關(guān)需先采集大量數(shù)據(jù),對數(shù)據(jù)進(jìn)行標(biāo)注分類,接著訓(xùn)練優(yōu)化模型,使其達(dá)到一定的準(zhǔn)確度和識別率。在這個過程中,大模型需要不斷“在學(xué)中用、在用中學(xué)”,通過持續(xù)循環(huán)迭代提升精度,待成熟后即可部署實測,并依據(jù)反饋持續(xù)優(yōu)化,最終形成產(chǎn)品級應(yīng)用系統(tǒng)。
目前,團隊已提出多項應(yīng)用設(shè)想,例如,開發(fā)陽江方言智能助手,為12345政務(wù)服務(wù)便民熱線、醫(yī)療以及教育等民生領(lǐng)域提供方言交互支持;結(jié)合文旅產(chǎn)業(yè)開發(fā)虛擬導(dǎo)游、方言文創(chuàng)產(chǎn)品,助力鄉(xiāng)村振興;生成方言社交內(nèi)容,促進(jìn)本土文化傳播,增強陽江人的文化歸屬感。“我們相信模型的上線,將為陽江社會經(jīng)濟和文化發(fā)展注入新動能,更好地服務(wù)當(dāng)?shù)厥忻袢罕姟!眻F隊成員充滿期待。
多措并舉收集“教材”
多向發(fā)力整合資源
實現(xiàn)從“0”到“1”,過程并不容易。要讓AI“聽懂”方言,首先要給它當(dāng)“語言老師”。為此,團隊通過多種形式收集“教材”,積累了不少素材:組織在校的本地學(xué)生志愿者參與方言音頻錄制、與市12345熱線合作“淘”出真實的通話樣本……
“數(shù)據(jù)采集是基礎(chǔ),既要捕捉方言特有的音調(diào)韻律,更要確保樣本覆蓋不同年齡層、性別、語速的發(fā)音特征。”劉炳堯介紹,陽江方言細(xì)分不同的區(qū)域又有所區(qū)別,數(shù)據(jù)采集工作量大,需要耗時耗力。接下來團隊將繼續(xù)擴大采集范圍,通過更多渠道豐富數(shù)字語料庫,提升識別準(zhǔn)確率,為模型訓(xùn)練夯實基礎(chǔ),“我們的想法是構(gòu)建統(tǒng)一的大模型,后續(xù)經(jīng)陽春、陽西等各區(qū)域的方言語料訓(xùn)練后,讓其適應(yīng)地域差異。”
僅有海量數(shù)據(jù)還不足以確保AI對方言的精準(zhǔn)理解。在研究室的桌面上,《廣東陽江方言研究》《陽江音字典》兩本書籍格外引人注目。“就像教孩子認(rèn)字需要標(biāo)準(zhǔn)課本,AI學(xué)習(xí)方言也離不開權(quán)威詞典的專業(yè)支撐。”鄧超解釋,類似翻譯中“英漢互譯”的原理,構(gòu)建陽江方言語料庫也需要詞典作為參照范本,確保方言的詞匯、發(fā)音符合標(biāo)準(zhǔn),與普通話實現(xiàn)對齊。目前,團隊已收集上萬條中文文字?jǐn)?shù)據(jù)集,音頻數(shù)據(jù)已錄制5000個詞語、1000條句子。
技術(shù)攻關(guān)的另一頭是資源協(xié)調(diào)的挑戰(zhàn)。“課題的順利開展離不開資金、資源的投入。”鄧超介紹,方言識別需要大規(guī)模算力支撐,團隊正與算力平臺企業(yè)和三大運營商對接,積極爭取算力資源的支持;同時,廣東海洋大學(xué)陽江校區(qū)正在籌建人工智能實驗室,團隊也將爭取相應(yīng)的資源支持。
期待社會多關(guān)注
激活方言生命力
一直以來,陽江方言的保護(hù)傳承與開發(fā)利用受到我市社會各界的積極關(guān)注。當(dāng)下,AI技術(shù)的介入,不僅為方言保護(hù)提供了數(shù)字化解決方案,更引發(fā)了關(guān)于如何讓方言在數(shù)字時代煥發(fā)新生的深層思考和探索。
得知團隊正在做方言保護(hù)和傳承工作,著名語言學(xué)家黃伯榮教授的女兒黃綺仙慷慨贈予《廣東陽江方言研究》《陽江音字典》學(xué)術(shù)專著,為研究提供了系統(tǒng)的語言學(xué)理論支持。
“保護(hù)和傳承陽江方言是父親的心愿,希望通過提供基礎(chǔ)研究資料為課題的開展給予幫助,同時也為家鄉(xiāng)方言的保護(hù)和傳承出一份力。”黃綺仙認(rèn)為,這種將前沿技術(shù)與方言保護(hù)相結(jié)合的創(chuàng)新探索,值得大力支持,能引起更多人關(guān)注和重視陽江方言。她期待有越來越多年輕人參與其中,拿起“接力棒”,利用新技術(shù)更好地保護(hù)、傳承和利用陽江方言。
“借助AI技術(shù)研究方言,是保護(hù)和傳承的一種新形式。當(dāng)前有許多本地青少年不了解或少使用陽江方言,通過這種契合青少年喜聞樂見的形式,有望引起他們對方言的興趣和關(guān)注,實現(xiàn)在‘指尖’學(xué)習(xí)方言。”陽江語言研究學(xué)者容慧華介紹,目前已有不少學(xué)者做了大量基礎(chǔ)工作,積累了一定的知識和經(jīng)驗,研究人員可以立足原有的研究、利用現(xiàn)有的資源開展工作,實現(xiàn)方言的保護(hù)傳承和本土化的服務(wù)利用。
對于中國人來說,方言是鄉(xiāng)情鄉(xiāng)愁的重要寄托。如今,“讓世界聽懂陽江話”的課題愿景,正隨著人工智能時代的來臨照進(jìn)現(xiàn)實。當(dāng)AI工具開始“識讀”陽江話,承載著鄉(xiāng)愁與記憶的聲音將以更鮮活的方式,回蕩在漠陽江畔,連接過去與未來。
關(guān)于我們
|
網(wǎng)站幫助
|
網(wǎng)站地圖
|
隱私申明
|
主辦單位:陽江市人民政府辦公室 管理維護(hù):陽江市政務(wù)服務(wù)和數(shù)據(jù)管理局 網(wǎng)站標(biāo)識碼:4417000019 備案序號:粵ICP備16010311號-3 網(wǎng)站報障:0662-3367662
粵公網(wǎng)安備 44170202000121號