數字人文的文學之維找九宮格會議–文史–中國作家網
數字人文(Digital Humanity)旨在以數御文,是一種穿插學科研討方式,學者用各類數字技巧摸索人文、社科景象,得出量化成果并將其停止可視化浮現。活著界范圍內,自羅伯特·布薩(Roberto Busa)編輯托馬斯·阿奎那的著作索引始,數字人文研討經過的事況了由無到有、由少到多的演化,在英美學界相干雜志陸續出生,相干項目層出不窮,稱號和定位也經過的事況了由人文盤算(Humanities computing)到數字人文的轉變。究其粗略,其演進與盤算機技巧的成長呈正相干關系,90年月起私家電腦的普遍普及增進了其研討的豐盛,近些年人工智能技巧的高潮,更對其有火上加油之勢。
在中國,錢鍾書個人空間師長教師獨具只眼,最早發覺之,授意并助力在社科院啟動相干研討。2000年以后,國際相干研討日漸豐盛起來,相干會議陸續召開、有關大眾號和雜志陸續出生。現在,數字人文方式在汗青學界、社會學界利用較廣,常經由過程gephi、metlab等數字東西構建社會收集,從而懂得汗青潮水年夜勢走向。而詳細到文學研討範疇,這種研討方式的利用尚且無限。
談到數字人文方式在文學界的利用,我們無妨戲仿韋勒克的不雅念,將其分為內部研討與外部研討。所謂內部研討,指的是經由過程社會收集剖析法,將作家生平、交游、空間走向等可視化,經由過程作家的內部數據剖析,可以清楚作家的接收水平,以及它與后代讀者、研討者之關系。內部研討依靠于相干數據的收拾任務,例如,布朗年夜學的“WOMAN WRITERS PROJECT”項目,努力于搜集和收拾搜集了16世紀至1講座場地9世紀中葉被疏忽的女性創作或合著的作品,這類任務也被稱為“數字檔案館”。
而數字人文的文學研討有一個更有魅惑力的範疇——數字化“外部研討”,可以對于文本停止外部剖析,無妨稱之為“量化新批駁”,也可對于某些詞匯和語篇的汗青變更停止剖析,無妨稱之為“量化概念史”,它終極會輔助發明一段汗青的文學外部構型,與傳統研討法有頗多可對話之處。毫無疑問的是,此類研討很是依靠于相干東西的成熟,本文將先容幾類國外的相干軟件東西,浮現國外此類研討的樣貌和走勢,以期為國際相干研討供給參照。
“WordHorad”是一款文學說話剖析軟件,它的開闢者將他們的行動稱為“在解鎖說話的寶躲”,簡直,經由過程高度標誌化的語料數據,以及對這些數據分布紀律的挖掘,我們可以取得察看這些虛擬文學文本的另一只眼睛。“WordHoard”重要經由過程要害詞提取和相互浮現的方式,對文學文本停止研討,在“WordHoard”的官方示例中,它展現了一些風趣的案例,例如“love”一詞的研討,它在喬叟、莎士比亞等人那里浮現的分歧拼寫特色,在分歧的汗青時代有著分歧的分布紀律,經由過程對“love”停止統計,研討者得出了很風趣的結論:在各類敘事文本中,愛被男性說出的次數多于女性,在笑劇類文本中,被女性說出的次數則是男性的三倍,這一成果提醒了“love”的文本機密,愛要怎么說出口?這很是值得文學史家的器重和進一個步驟剖析。
案例還供給了關于4位高文家的說話統計表——
經由過程如許的表格可以發明,荷馬、喬叟、斯賓塞、莎士比亞的作風與他們所處時期的變遷獲得了一種奇特的浮現,經由過程主題詞的變遷,我們可以或許窺見分歧時期的文學主題與分歧作家的文本主題,告竣對一位作家說話有意識的懂得。就名詞而言,在莎士比亞的一切文本中,愛是進場率第四高的名詞,只要主(lord)、人(man)和師長教師(sir)三個詞進場率高于愛,而其他三位作家所應用的最高頻名詞則沒有愛(love),無論莎士比亞是巨大的戀愛歌頌者,仍是巨大的戀愛質疑者,愛都是其一個主要表示和反思主題。
谷歌是人工智能範疇的領頭羊,而谷歌圖書中收錄的大批冊本,谷歌搜刮中存在的大批網頁文字數據,以及谷歌學術中的學術文字記載,都為構建如許一個宏大的語料庫有所助益。它出品的在線東西“Google Ngram viewer”重要基于谷歌圖書的語料庫,便利展示分歧語詞在汗青上的全體變更。經由過程輸出想要查找的要害詞,便可以看到在相干語猜中,跟著汗青成長,相干詞語的變更趨向。例如,筆者將時光限制為1940-2000年,鍵進孔子、孟子、老子、莊子、朱熹等中國歷代思惟家,可以發明,它們積年在數據庫中的權重變更,這一數據顯示,孔子無疑是最有熱度的思惟家,與學者和相干論者的思惟勾連也最為親密。
再如,可以拔取幾位今世作家,如莫言、余華、王朔,察看自1980年月以來,在紙質書數據庫中他們的權重走勢。
可見,這些走勢也值得文學史家的留意,假如參加更多的比擬維度,無疑會出生更多風趣的研討結果。
21世教學紀,自人工智能技巧獲得了主要衝破后,天然說話處置(NLP)相干技巧獲得了日新月異,現在年夜數據、人工智能等要害詞人盡皆知,而機械翻譯、語音辨認、人機對話等效能也在手機端獲得了普遍的利用,我們的日常生涯經常與它糾纏為一體。天然說話處置技巧對文學發生了必定影響,促生了激發普遍爭議的“機械人寫詩”景象,引得有數文學從業者迷惑于詩歌的鴻溝,也引得諸多哲學家會商人類與機械的鴻溝。另一方面,天然說話處置技巧對文學研討也發生了良多參與的能夠。
樹立在天然說話處置基本上的相干研討,為文學研討供給了新的能夠。“NLTK”全稱為”Natural Language Toolkit”,是賓夕法尼亞年夜學發布的天然說話處置東西,簡直是申明最為洪亮的處置東西,它需求經由過程盤算機python說話來操縱和應用,該模塊中包括了大批的語料資本,如《圣經》、莎士比亞的《哈姆雷特》等多部戲劇、簡·奧斯丁的小說、惠特曼的詩集等,除此之外,它也包括路透社的消息文檔、美國總統的演講集、一些片子腳本原文、網友的收集論壇聊天記載,其文本含量不成謂不豐盛,源自分歧汗青階段的詞語儲蓄不成謂不周全。而“NLTK”中的內置函數和效能,則有助于深度發掘文本的表達構造,細致摸索其說話形式,詳盡勾畫其說話地貌。例如“similiarity”函數有助于輔助盤算詞匯類似度,“len”函數有助于發明文本的復雜水平,“concordance”函數有助于發明某些特定詞匯的高低文等等。
在官方相干示例中,一些奇特的研討成果曾經被浮現出來,例如,在分歧時期的美國總統演講中,總統想誇大的重點天然分歧,那么“citizen”和“american”兩詞的應用頻率有什么變更?有關研討職員對其停止了一種可視化浮現。
異樣,也可用它對中文文本停止研討,例如,某些特定的人名在作家魯迅的文本中的分布狀態若何呢?筆者采用python中的nltk模塊繪制了如下分布圖。
眾所周知,魯迅師長教師本身的肄業唸書階段,受章太炎、梁啟超、托爾斯泰等影響深遠,之后與梁實秋、林語堂產生過學術爭辯。不外,胡適成了分布最普遍的人名。
“Gephi”是一款停止收集剖析的軟件,自復雜迷信成為學術熱門,復雜收集圖譜的繪制成為諸多學科中的必須具備技巧,如沾染病收集、神經收集、金融收集、物流收集等。而“Gephi”可以利用于文學外部研討範疇,繪制一部作品外部的說話收集。例如,經由過程對魯迅作品中描述詞停止統計剖析,可以發明其外部說話收集。
不外,今朝這些軟件年夜部門集中于英文處置,基于絕對完整的英文語料庫,異樣也基于東方世界,尤其是美國在盤算機迷信方面的領軍位置,和東方世界人文社迷信界的前沿視角。而中文語料庫以及樹立在其之上的研討板塊,浮現出一種缺掉。近些年,作家逛逛的團隊曾經努力于開闢中文文天職析的軟件,對文學雜志《收獲》中的文學作品和收集文學停止剖析,并獲得了可不雅的結果。不外,更值得等待的是這一範疇的結果日益豐盛,不雅點百花齊放,為傳統文學史與文論研討供給了另一種參照。
相似的中文文學文天職析東西還有待豐盛。不外,現在天然說話處置技巧的成長,人工智能的成長,以及通用人工智能(AGI)的暢想,為這種豐盛供給了一種能夠,筆者對如許的一款文學通用軟件做出如下暢想——
起首,它可以或許停止基礎的詞頻剖析,和樹立在詞頻以及權重剖析上的詞語分布研討,經由過程它,我們可以發明分歧作家和分歧時期的文本差別。例如,20世紀20年月中國文學的高頻詞是哪些?與30年月有何分歧?京派文學與海派文學可以經由過程這種方法獲得量化的區分嗎?唐宋之爭中的唐詩宋詞,能否存在文本要害詞分布的顯明差別?
其次,樹立分歧的辭書庫,針對分歧詞性的分布停止詳細剖析,這些包括基礎的動詞、描述詞、名詞等,也可以經由過程專門辭書的樹立,剖析某一類(如文論類,哲學類詞)的分布。例如,魯迅師長教師最愛用哪些動詞?美學家朱光潛最愛好援用哪些人名?今世文學實際和文學史類教材里哪些概念呈現頻率最1對1教學高?這些都是饒風趣味的體裁。
再次,經由過程基于lstm道理和tensorflow的操縱方法,經由過程感情盤算來摸索文本的感情分布奧妙,發明文本的感情曲線和走勢圖,窺測分歧作家的情感世界,分歧批駁家的感情作風,以及某一時期的讀者群落的精力風采。韓愈散文的感情走向與南朝駢文有何分歧?收集玄幻小說的感情走向較之傳統武俠小說有何變更?
最后,在今朝技巧達不到的一些方面,還可做出更豐盛的暢想——一款將來軟件,或將來編程說話的模塊,也能總結敘事類型,比擬文本說話差別等,讓傳統學者的教學場地文學剖析功力更有用地發揮,讓盤算機的研討成果和批駁家的研討結果可以告竣互為彌補的後果。
那么,可否完成一個將來的中文文學研討軟件呢?它的可行性和能夠性鴻溝在何方呢?現實上,除了技巧的提高,它還需求有宏大的文學語料庫資本,包括紙質文學與收集文學作品,包括紙質出書物的文學評論與網友評論,在這一方面,紙質文本高正確率的數字化處置需求完成,版權也成為了某種限制。也許,全知萬能型的研討軟件短期還不克不及完成,或許我們也不等待它呈現。並且,在從頭審閱中國文學與文論變遷上,幫助性較強的軟件盡對可以施展很是主要的感化。較之于莫萊蒂的遠讀法,新的細讀法仍有其價值,不外它是一種新的細讀法,無妨稱之為數字細讀法或量化細讀法,如許的讀法在國際方才起步,如許的數據庫等候樹立,而如許一款研討軟件則佈滿引誘。