日前,在2024世界人工智能大會上,一場關(guān)于人工智能語料的論壇在上海首次舉辦。一年前,2023世界人工智能大會上,上海人工智能實驗室、人民網(wǎng)、國家氣象中心等單位聯(lián)合發(fā)起的中國第一個大模型語料數(shù)據(jù)聯(lián)盟正式成立。人工智能大模型取決于三大要素:算力、算法、語料。中國是世界上數(shù)字化應(yīng)用場景最豐富的國家,各種場景提供了極為豐富的語料。中國是語料大國,但各種語料仍存在參差不齊的情況,需進(jìn)一步加以規(guī)范。通過人工智能大模型,特定的輸入往往會生成特定的輸出,存在“種瓜得瓜,種豆得豆”的規(guī)律。從輸入端著手,強(qiáng)化語料建設(shè),可以推動人工智能健康成長。
在人工智能發(fā)展中,語料具有“賦能”和“教化”的雙重功能,前者通過全方位的知識轉(zhuǎn)移和訓(xùn)練,使得人工智能博聞強(qiáng)識,融會貫通,進(jìn)而技藝超群;后者通過多維度的情感嵌入和價值對齊,讓人工智能“通情達(dá)理”,并且“善解人意”。例如,伴隨我國老齡化程度的加深,具有健康護(hù)理功能的養(yǎng)老護(hù)理機(jī)器人開始走進(jìn)人們的生活。越來越多的老年人希望在享受各種專業(yè)化養(yǎng)老服務(wù)的同時,也能感受到親人照料般的溫暖。這就需要發(fā)揮語料的教化作用,結(jié)合特定的激勵算法,讓機(jī)器人以和藹可親的姿態(tài)、體貼入微的服務(wù),響應(yīng)并滿足老年人的養(yǎng)老需求。由此可見,在人工智能相關(guān)技術(shù)快速密集突破的過程中,要達(dá)到“強(qiáng)健其體魄、文明其精神”的目的,語料建設(shè)是關(guān)鍵,需要著重做好拓源、提質(zhì)、鑄魂三項工作。
首先是拓源。對于語料,人工智能大模型有異乎尋常的“好胃口”,當(dāng)前存在語料資源的較低水平供給與大模型高強(qiáng)度訓(xùn)練需求之間的矛盾。語料建設(shè)是一項復(fù)雜的系統(tǒng)工程,具有多源、高維、異構(gòu)、跨界、超限等典型特征,需要廣泛動員和組織政府部門、行業(yè)組織、企業(yè)等各方力量,建立語料建設(shè)的統(tǒng)一戰(zhàn)線。全國各地紛紛行動,2023年,上海人工智能實驗室宣布聯(lián)合語料數(shù)據(jù)聯(lián)盟成員單位,共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料。深圳數(shù)交所則聯(lián)合近50家單位成立“開放算料聯(lián)盟”,多家A股公司加盟。這在一定程度上緩解了語料資源供給不足的問題。未來仍然需要加快拓展來源渠道,將沉淀在行業(yè)壁壘間、藏身于隱秘空間里的各種語料資源發(fā)掘出來,為人工智能大模型的迭代升級提供動力。
其次是提質(zhì)。語料涉及海量的數(shù)據(jù)、文本、圖片、語音、視頻等資源,既有“原材料”,也有“半成品”,要讓大模型能夠“吃”得下去,要靠數(shù)據(jù)庫技術(shù)解決“消化”問題。大模型不僅要吃得飽,還要吃得好,面向行業(yè)應(yīng)用的專業(yè)數(shù)據(jù)庫可以給AI大模型“開小灶”。
最后是鑄魂。語料對于人工智能的“思維方式”和“行為模式”具有潛移默化的影響。在語料建設(shè)中,既要開放包容,博采世界各國文化之所長;也要汲取中華優(yōu)秀傳統(tǒng)文化的精髓,為大模型準(zhǔn)備“中餐”。中文語料尤其是中式價值觀語料的缺位,輕則會影響面向國內(nèi)特定應(yīng)用場景的垂類大模型開發(fā)進(jìn)程,重則可能失去以我國的文化與價值觀賦能人工智能發(fā)展的機(jī)會。對此,應(yīng)未雨綢繆,加快高質(zhì)量中文語料資源建設(shè)的提速擴(kuò)容,并將中國特色社會主義文化的價值取向融入其中。讓功能日益強(qiáng)大的人工智能成為言端行正、德才兼?zhèn)涞?ldquo;好孩子”。
(作者:陳強(qiáng),系同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院教授、上海市習(xí)近平新時代中國特色社會主義思想研究中心研究員)

已有0人發(fā)表了評論