時(shí)至今日,數(shù)字技術(shù)已經(jīng)滲透到各行各業(yè)。各類歷史數(shù)據(jù)庫紛至沓來,大數(shù)據(jù)、量化計(jì)算、數(shù)字人文等概念也接踵登場。對(duì)此,有人驚呼新的數(shù)字技術(shù)將導(dǎo)致史學(xué)研究革命性的進(jìn)步,也有學(xué)者表達(dá)了審慎的懷疑。那么各種數(shù)字技術(shù)到底能否引發(fā)一場知識(shí)生產(chǎn)的革命?爭論雙方的焦點(diǎn)主要集中在史料收集、數(shù)據(jù)分析、歷史新認(rèn)知的生產(chǎn)三個(gè)方面。
史料收集
數(shù)字技術(shù)促進(jìn)了史料數(shù)量的增加,同時(shí)也讓學(xué)者感受到史料檢索的便利,但是否真正提高了史料收集的效率?李劍鳴認(rèn)為網(wǎng)絡(luò)、檢索等技術(shù)極大拓展了獲取資料和信息的渠道,使得對(duì)資料的檢索和利用大為便利。數(shù)字技術(shù)有助于挑戰(zhàn)史料和信息的壟斷,打破不同區(qū)域、單位和團(tuán)體對(duì)于資源保存的壁壘。黃一農(nóng)感慨借助檢索技術(shù)、互聯(lián)網(wǎng)、數(shù)據(jù)庫,學(xué)者“能夠在很短時(shí)間內(nèi)掌握前人未曾寓目的材料”。
胡優(yōu)靜認(rèn)為大數(shù)據(jù)時(shí)代的各項(xiàng)數(shù)字資源反而令“窮盡”史料變得困難。數(shù)據(jù)庫雖然可以提供唾手可得的材料,但資源分布的零散、史料語言的多樣化以及數(shù)字資源的互不連通,反而增加了研究者處理數(shù)據(jù)的時(shí)間。此外,不同數(shù)據(jù)庫存在大量重復(fù)資源、人工篩選大量檢索結(jié)果中的重復(fù)條目亦大大增加了研究者的工作量。包偉民從檢索字串不易確定和有效檢索結(jié)果的甄別角度提示勞動(dòng)量的耗費(fèi)。
王曉光提出在元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜等數(shù)字技術(shù)支持下,計(jì)算機(jī)可以對(duì)史料進(jìn)行“快讀”。如中國歷代人物傳記資料庫(CBDB)中收錄了超過42萬條人物傳記資料,研究者可以通過檢索迅速獲取相關(guān)人物資料。清華大學(xué)統(tǒng)計(jì)研究中心團(tuán)隊(duì)利用數(shù)據(jù)科學(xué)方法,可以在不到1分鐘的時(shí)間內(nèi),對(duì)《紅樓夢》中730多個(gè)稱謂進(jìn)行詞頻排列。
不過,包偉民對(duì)計(jì)算機(jī)的“快讀”所能達(dá)到的效果心存疑慮。他認(rèn)為計(jì)算機(jī)目前的“閱讀”水平僅限于提取“標(biāo)準(zhǔn)化”文本,通過將數(shù)據(jù)信息與檢索字串一一機(jī)械對(duì)應(yīng),提取文字表面信息。但歷史文本(尤其是中國古代歷史文本)往往是“非標(biāo)準(zhǔn)化”的描述性文字,許多“言外之意”“弦外之音”并不體現(xiàn)在文字上。除了一物多名、文字字面含義與史實(shí)錯(cuò)位外,書寫者往往會(huì)采用簡稱、隱語、借代、反語等修辭手法,這就使得實(shí)際含義往往與字面意思相隔十萬八千里。如果僅僅按照字面意思提取數(shù)據(jù),往往會(huì)遺漏許多信息。
成一農(nóng)認(rèn)為,隨著數(shù)字技術(shù)的進(jìn)步,計(jì)算機(jī)閱讀非標(biāo)準(zhǔn)化文本存在的困難可以得到解決。AI技術(shù)和量子計(jì)算技術(shù)使計(jì)算機(jī)的學(xué)習(xí)能力得到極大提高,智能計(jì)算機(jī)不僅能夠識(shí)讀古漢語等“非標(biāo)準(zhǔn)化文本”,還可以意會(huì)那些文字沒有表述的言外之意和挖掘多維度史料,甚至還可以進(jìn)行史料考訂工作。
數(shù)據(jù)分析
對(duì)于數(shù)字工具能否更好地處理大規(guī)模史料,學(xué)者們見仁見智,將其分成三個(gè)子目:第一,數(shù)字工具能否更好分析大批量史料。梁晨等學(xué)者認(rèn)為在數(shù)據(jù)庫基礎(chǔ)上采用量化工具,“對(duì)分析大規(guī)模的系統(tǒng)性、連續(xù)性歷史材料非常有效”。大數(shù)據(jù)庫擁有的超大數(shù)據(jù),“通常涵蓋某一范圍內(nèi)所有參與者的情況”,而“量化方式又能系統(tǒng)、細(xì)致地研究或描述不同規(guī)模群體的多種信息”。
包偉民卻認(rèn)為數(shù)字工具存在方法上的缺陷。一方面,CBDB等關(guān)系型數(shù)據(jù)庫,在將“非標(biāo)準(zhǔn)化”的歷史文獻(xiàn)轉(zhuǎn)化為可供統(tǒng)計(jì)的量化數(shù)據(jù)時(shí),“難免會(huì)篩選、過濾歷史信息”,從而造成信息的衰減。另一方面,采用量化分析方法的學(xué)者一般以“正相關(guān)”“負(fù)相關(guān)”和“不相關(guān)”三種方式表達(dá)各種變量間的邏輯關(guān)系。但這種非此即彼的統(tǒng)計(jì)歸類,將原本豐富多彩的社會(huì)活動(dòng)簡單轉(zhuǎn)化成是與否、0與1,將歷史簡單化,反而背離了史實(shí)。
第二,數(shù)字工具是否更容易避免選擇性使用材料。林展指出,史家采用抽樣舉例來描述一個(gè)時(shí)代普遍性問題,存在方法論上的缺陷。即樣本的抽取不是隨機(jī)的,由這些樣本代表總體特征的做法存在所謂“選擇性偏差”。梁晨等學(xué)者認(rèn)為借助大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)可以較好地綜合各方材料,避免此類問題。郭輝也認(rèn)為傳統(tǒng)史學(xué)研究的采樣方法,由于數(shù)據(jù)量少,容易造成數(shù)據(jù)失真,而大數(shù)據(jù)則可減少此類問題。
包偉民的看法恰恰相反,他認(rèn)為在“傳統(tǒng)”的以全文閱讀為基礎(chǔ)的研究中,成熟的學(xué)者往往可以通過對(duì)不同案例的全面考量,判斷其典型性,然后舉以為例。這一過程盡管看似主觀,事實(shí)上可能更接近史實(shí)。而根據(jù)這些記載建立起來的數(shù)據(jù)庫,在將復(fù)雜、立體的描述性文本轉(zhuǎn)化成平面的數(shù)據(jù)時(shí),抹殺了它們之間的差異性,其結(jié)果能在多大程度上反映歷史現(xiàn)象的普遍性令人懷疑。
第三,數(shù)字工具的分析是否更具科學(xué)性。數(shù)字人文學(xué)者強(qiáng)調(diào)數(shù)據(jù)挖掘工具更能保證研究的“客觀性”“科學(xué)性”。梁晨等人聲稱,以大數(shù)據(jù)為基礎(chǔ)的定量方法可以克服研究的主觀性,定量計(jì)算“不依賴任何單個(gè)或正反方事件參與者的敘述”,“避免了表達(dá)上的主觀與刻意”,同時(shí)也“避免研究者基于自身認(rèn)知或經(jīng)驗(yàn)所形成的預(yù)設(shè)觀點(diǎn)對(duì)研究結(jié)論的影響”,從而使得出的結(jié)論或規(guī)律性現(xiàn)象更為可靠。
不過這種“科學(xué)性”在一些學(xué)者看來似乎只是一種美好的愿景。采用數(shù)據(jù)挖掘工具“必須依托于統(tǒng)一的制度性定義或標(biāo)準(zhǔn)化結(jié)構(gòu)的信息材料”,但歷史材料的豐富性、多樣性和復(fù)雜性使其無法直接用于統(tǒng)計(jì)分析。因此在數(shù)據(jù)統(tǒng)計(jì)之前,研究者先要設(shè)定統(tǒng)計(jì)范圍、分類、關(guān)聯(lián)等標(biāo)準(zhǔn),將復(fù)雜多樣的史料轉(zhuǎn)換成有統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)。可見這些標(biāo)準(zhǔn)的設(shè)定往往受到研究者主觀經(jīng)驗(yàn)和思路的影響。在成一農(nóng)看來,借用量化分析、大數(shù)據(jù)、圖像化等手段只是讓考據(jù)和論證顯得更具說服力,但“具有說服力”并不等于“史實(shí)”。
歷史新認(rèn)知的生產(chǎn)
評(píng)判歷史研究有無突破的一個(gè)重要指標(biāo)是能否生產(chǎn)新的歷史認(rèn)識(shí),其中包括從歷史材料中發(fā)現(xiàn)新的關(guān)聯(lián)、模式、趨勢以及形成新的解釋框架等內(nèi)容。一些數(shù)字人文的擁躉堅(jiān)信數(shù)字技術(shù)能在這方面取得顯著成效。梁晨和李中清聲稱數(shù)據(jù)挖掘工具能在大規(guī)模數(shù)據(jù)中探索、研究出其中隱藏的特殊關(guān)聯(lián)性或規(guī)律性,“這種大數(shù)據(jù)計(jì)算和統(tǒng)計(jì)性規(guī)律的發(fā)現(xiàn),通常是傳統(tǒng)的僅靠人工檢閱史料的方法無法實(shí)現(xiàn)的”。徐力恒和陳靜稱贊數(shù)字人文技術(shù)可以“同時(shí)比對(duì)上千條數(shù)據(jù),辨識(shí)其中模式”,這是學(xué)者依靠人力無法做到的。彭凱翔則把發(fā)現(xiàn)或檢驗(yàn)?zāi)承┶厔荨⒛承╆P(guān)系,從而使學(xué)者從更高維度、以更貫通的方式解釋信息,看作數(shù)字人文最具革命性的一面。
獲得規(guī)律性、貫通性的解釋似乎是不少數(shù)字人文愛好者的情懷所在。林展在強(qiáng)調(diào)量化數(shù)據(jù)庫模式的優(yōu)越性時(shí),特別強(qiáng)調(diào)其“有助于形成貫通性的認(rèn)識(shí)”。王開隊(duì)的徽州研究團(tuán)隊(duì)試圖借助數(shù)字人文技術(shù),避免區(qū)域研究中的“碎片式”研究,建立中觀、宏觀綜合性研究。
但不少歷史學(xué)者對(duì)于數(shù)字技術(shù)是否能夠發(fā)現(xiàn)可靠的歷史新知持懷疑態(tài)度。張仲民認(rèn)為借助數(shù)據(jù)庫統(tǒng)計(jì)得出的種種判斷看似“科學(xué)”“準(zhǔn)確”,實(shí)則較實(shí)際歷史相去甚遠(yuǎn)。他借計(jì)量史學(xué)大家羅伯特·福格爾之口,表達(dá)了用數(shù)字工具進(jìn)行歷史探究的局限性。數(shù)據(jù)庫基礎(chǔ)上的計(jì)量方法可能只適合經(jīng)濟(jì)史和人口史等專門領(lǐng)域,那些難以用精確數(shù)字計(jì)量的心態(tài)、觀念、文化等領(lǐng)域的問題,如果“企圖用數(shù)據(jù)多少或出現(xiàn)頻率來揭示,不但存在極大的難度,更存在致命的缺陷”。
梁晨也意識(shí)到數(shù)據(jù)庫與定量分析的局限,這些工具僅能夠發(fā)現(xiàn)很多有趣現(xiàn)象,但自身并不能合理解釋這些現(xiàn)象。現(xiàn)象背后的原因依然有賴于學(xué)者對(duì)當(dāng)時(shí)政治、經(jīng)濟(jì)、社會(huì)等重大問題的思考。
作為最早一批嘗試信息技術(shù)的歷史學(xué)者、國內(nèi)知名歷史研究網(wǎng)站“象牙塔網(wǎng)”創(chuàng)辦者陳爽,經(jīng)過十幾年的實(shí)踐后,明確表示各種采用新技術(shù)的研究并沒有帶來終極意義上的學(xué)術(shù)思維革命,也沒有突破“前輩學(xué)者經(jīng)典學(xué)說的理論框架”,學(xué)者所做的更多只是在修正、完善和細(xì)化原有的論題。趙思淵也認(rèn)為數(shù)字人文研究的多數(shù)個(gè)案牽涉的“核心議題、提問仍然來自歷史學(xué)的傳統(tǒng)話題”,“甚至研究方法也未必超出原本以量化或結(jié)構(gòu)化方法處理史料的方法論”。
(陳明華,作者單位:杭州師范大學(xué)人文學(xué)院)
已有0人發(fā)表了評(píng)論