漢學研究的新視野
——「數位人文視野下的漢學研究國際研討會」會議紀要
一、研討會緣起
數位人文研究,是近年來新興的跨領域學科,更是國內外學界熱門的學術議題。所謂的數位人文研究,指的是透過數位科技的協助,創新人文研究方法,啟發研究發現,擴展多元宏觀的研究視野。為了探討數位人文在漢學研究中的發展趨勢,提供研究學者交流合作的機會,並彰顯臺灣在數位人文的研發成果,臺灣大學數位人文研究中心、哈佛大學費正清中國研究中心與臺灣大學圖書館於本年 6 月 4 日至 5 日,在臺灣大學圖書館國際會議廳共同舉辦「數位人文視野下的漢學研究國際研討會」。
這場會議由教育部「頂尖大學策略聯盟—哈佛大學雙邊學術合作交流計畫」支持,是臺灣大學數位人文研究中心與哈佛大學費正清中國研究中心合作計畫中的成果之一。在這次的會議裡,雙方皆分享合作的研究成果,並邀集國內外數位人文領域的學者專家一同蒞臨,交流並闡述數位人文技術的理論與實踐,共同為數位人文研究未來的發展方向擘畫藍圖與願景。
二、嘉賓致詞
會議開始由臺大數位人文研究中心項潔主任與哈佛費正清中國研究中心包弼德(Peter Bol)教授,以及臺灣大學圖書館館長陳光華教授為大會進行致詞。
項潔主任表示,本會議在教育部「頂尖大學策略聯盟—哈佛大學雙邊學術合作交流計畫」的支持下得以進行,也是過去一年來臺大數位人文研究中心與哈佛大學費正清中國研究中心雙方合作的研究成果發表。在過去一年中,雙方就如何建立漢學數位人文研究的基礎建設,花了很多時間,也邀集了很多國內外相關的研究機構與學者,一同構思並規劃漢學數位人文的未來。而本會議的召開,也是為了在此基礎上,發展更多的可以發想的未來。
包弼德教授在致詞時則表示,今年三月的時候,哈佛大學在上海召開了一次關於中國歷史數位人文研究的基礎建設會議(按:「中國歷史研究的網絡基礎設施國際研討會」)。當時邀集了許多從事資料庫開發、圖書館從業人員,以及數位工具設計的資訊人員與會。在該會議中大家已預見在當代的學術場域中,許多的資料庫已經問世,而數位分析工具也更加多元,但如何將數位資源與數位工具相結合,提供人文學者進行更多的研究並擴展視野,應該是人文學者與資訊學者需要努力的方向。在本次的會議中,包教授也期許能夠藉由彼此的分享與溝通,更進一步規劃一個數位人文研究平臺的願景,提供人文研究學者更便利使用的數位人文研究方法。
陳光華館長則期許,現今的世代已經不是各研究單位或個人單打獨鬥的時代,而是一個必須靠協作與分享來共建研究環境的時代。而本次的會議,就是希望藉由這個機會,共同串接彼此的成果,成為一個相互共享的平臺,為數位人文研究提供更多的資源。
三、研討會
本次會議共計 23 篇論文發表,最後則以一場綜合座談作為總結。兩日的議程共分為六大主題,分別為:「學術平臺介紹:理念與架構」、「跨平臺介接的理論與實踐」、「人地資訊的介接與活用」、「文本標記、探勘與分析工具」、「視覺化與應用」,以及「數位人文研究案例成果發表」等。
(一)學術平臺介紹:理念與架構
會議首先進行的場次為「學術平臺介紹:理念與架構」,由臺大數位人文研究中心主任項潔教授主持,共計三位發表人,內容大要如下:
第一位發表人為臺大數位人文研究中心洪一梅博士,發表的題目為〈數位人文的理念建構與實踐轉型:從 THDL 到 DocuSky〉。THDL 是臺大數位人文研究中心所建置的「臺灣歷史數位圖書館」資料庫;而 DocuSky 則是由項潔教授主持,杜協昌博士開發的數位人文學術研究平臺。洪博士表示,THDL 的建置理念,是希望透過系統進行史料分析與視覺化呈現,讓使用者可以從中獲得多重的線索以進行更深入的歷史研究。然而,近年來快速發展的數位科技,讓研究者不再滿足於制式化的資料庫,而期盼能夠擁有一個個人化的學術平臺,得以更自由地上載、取得不同來源與格式的資料,並進行數位工具的分析與呈現。而此構想的實踐,就是 DocuSky。DocuSky 提供個人化的數位人文研究協作,讓人文研究者不必依賴資訊技術專家,而能在研究歷程中自由運用數位科技。從研究材料的蒐集、數位資料庫的建置、文本的爬梳與標記、探勘與分析、以及時空資訊等視覺化觀察皆可透過使用者獨立操作 DocuSky 來完成。洪博士希望這種創新研究的取徑與問題意識,可以為人文研究者知識的積累,貢獻數位科技的協作力量。
第二位發表人是在德國馬克‧普郎克(Max Planck)研究所任職的何浩洋博士。發表的題目是:〈Towards a Networked Research Infrastructure for Digital Humanities〉。在過去十多年的時間,數位人文研究的發展發生了很多的轉變,早期的研究方向,可能是擔心檢索工具到底找不找得到想要的資料,但今天,何博士指出,我們應該是思考如何將文本進行處理與數位分析。透過資訊技術的進展,把原本資料庫的內容,進一步成為提供數位研究服務的平臺。在研究的協作理念下,各資料提供者之間,已經可透過 API(應用程式介面Application Programming Interface)的方式進行介接,使得各資料提供者不再是一個個獨立的穀倉(Silo)。一個良好的合作關係,是在一個簡單的 API 協議上達到資料的共享。也因此,馬克‧普郎克研究所就希望透過這個理念,建立起一個相互合作的平臺,讓更多單位與研究者可以共同合作,使虛擬世界的資料可以在合理與合法使用的前提下,彼此共享。
第三位報告人是中央研究院數位文化中心的王祥安博士。報告的主題是〈中央研究院數位文化中心—數位人文研究平臺介紹〉。該平臺的建置理念,是要將研究者、數位工具與數位內容相互結合,協助人文研究者進行個人或多人協作的研究工作。在此平臺中,透過上傳研究文本與研究者個人整理或他人開放的權威檔,便可藉由平臺工具進行標記、筆記、字詞夾取、統計與共現比對。同時,在設定群組的功能下,個人在平臺中的資源也可以適度地開放與他人共同協作。完成統計分析之後,平臺也可以提供多樣的地理空間與統計圖表的視覺化呈現,並將分析結果匯出供後續的利用。王博士以中國醫藥研究為例,若以《本草綱目》藥物所建立的權威檔,進入 36 部醫書進行統計分析,即可就此判定每本醫書的作者對於藥物的知識是否熟悉、哪些藥物是普遍被使用的、以及在不同類別的藥物在不同的醫書中的使用狀況。同時,若將統計結果放在時間軸中探詢,也可以看出不同時代間藥物使用的演變。該平臺將於今年 10 月份正式上線開放,並希望與其他更多相關學科合作,使平臺的功能可以更為完備。
(二)跨平臺資源介接與共享I:跨平臺介接的理論與實踐
本會議第二個主題為「跨平臺資源介接與共享」,共計分為兩個場次:「跨平臺介接的理論與實踐」以及「人地資訊的介接與活用」。第一場次由哈佛大學費正清中國研究中心包弼德教授主持,共計四位發表人,希望透過對於理論闡述與工具實作的角度,探討不同平臺間資源相互共享的可行性。
第一位發表人為臺灣大學資訊工程學系的杜協昌博士,發表的主題為「從 DocuSky 看跨平臺的資源介接與應用」。杜博士是 DocuSky 平臺的主要開發者,DocuSky 是一個不提供文本資料但卻讓使用者上傳資料的平臺。然而,在強調分工合作的現代社會,在現有的網際網路上,已經有許多開放的內容提供者(content provider),例如「中華電子佛典協會」(CBETA)網站所提供的大量佛學經典全文與詮釋資料、「中國哲學書電子化計劃資料庫」(CTEXT)提供的中國歷代經典文獻,或是日本「漢リポ Kanseki Repository」(Kanripo)網站中為數眾多的免費歷史文獻。此外,如「中國歷代人物傳記資料庫」(CBDB)當中豐富的中國歷代人物傳記資料、中國歷史 GIS 地名資料庫(China Historical GIS placename database,CHGIS)與法鼓山地名規範資料庫也提供了大量的中國歷史地名座標資訊。其他又如提供文本標記的「碼庫思:古籍半自動標記平台」(MARKUS)以及線上視覺化處理工具 Palladio 等等。這些工具、平臺,或是資料庫,若能適當地進行整合將有助於使用者在研究工作中取得更大的成果。杜博士嘗試以 DocuSky 作為出發點,探討跨平台之間的資源介接與應用。透過理念、技術以及實作結果來討論如何從 CBETA、CTEXT、Kanripo 等網站直接取得文本來建構 DocuSky 資料庫。同時也介紹如何經由 MARKUS 標記工具,將 CBDB 與 CHGIS 的資料整合進 DocuSky,並以此展示跨平台整合的效益。透過杜博士的分析,以及 DocuSky 跨平台資源的介接經驗,相信能對拓展數位人文資訊基礎設施(cyberinfrastructure)的建構更為有利。
第二位發表人哈佛大學東亞語言文明學系 Donald Sturgeon(德龍)博士是 CTEXT 的主要建置者,他以〈Digital Humanities with the Chinese Text Project〉為題,介紹 CTEXT 除了提供文本資料外,也開發了不少可以進行文本分析的工具,藉由 API 技術的介接,讓 CTEXT 的價值更上層樓。在本次的報告中,德龍博士闡述如何藉由「群眾外包」(crowdsourcing)的策略來增進 CTEXT 的 OCR 技術並擴充典藏量,同時,也介紹 CTEXT 的工具插件如何協助文本探勘工作。最後,在其他的數位工具中(如:MARKUS)如何透過介接技術來達到相互共享的成果。
法鼓文理學院圖書資訊館館長的洪振洲教授為本場次第三位發表人,洪教授透過「以開放資料與開放 API 打造跨平台連結之數位人文研究環境」為題,藉由其多年在法鼓文理學院進行數位工具資源開發的經驗,介紹法鼓文理學院如何與國內外多個研究平臺與工具之間的串接工作。在開放資料(Open Data)的理念下,CBETA 數位研究平臺(CBETA Research Platform)已經透過 API 技術完成開放資料、開放API 與其他系統進行串接,而這些經驗,也可以提供其他資料庫作為參考。
本場次最後一位發表人為何浩洋博士,發表的題目是「Making MARKUS a Tagging Module of a Networked Research Infrastructure」。何博士指出 MARKUS 的成功,得力於對其他資源的相互介接,包括 CBDB、TGAZ、TWGIS,以及法鼓山的 DDBC 等等。何博士透過實例的展示,以 API 介接技術與標準的規劃與內容,介紹 MARKUS 如何將外部資料介接進入 MARKUS 提供文本標記,又如何匯出至其他平臺(如:DoucSky)進行後續的分析與應用。
(三)跨平臺資源介接與共享II:人地資訊的介接與活用
接續著前一場次的主題,本場次將重點關注於人物與地理空間資訊的介接與活用。本場次由臺灣大學圖書館陳光華館長主持,共有三位發表人,內容概要如下:
本場次第一位發表人是洪振洲教授,發表的題目是〈佛學規範資料庫之內容服務與相關應用〉。佛學規範資料庫(Buddhist Studies Authority Databases)建置至今已將近十年的時間,當中蒐集許多關於佛教人物、時間、地點與經典的背景資訊,並就每筆資料給予永久的規範編碼,作為該筆資料的永久參考方式,並透過此編碼,進行跨專案的內容整合。為便利使用者存取規範資料,法鼓文理學院除建置便利的查詢介面外,也透過 API 服務,讓此規範資料庫的內容可以快速套用到不同的數位工具之中。另外,該資料庫也開放原始資料的下載,讓有需求的使用者,能將資料整合至自己的界面中。透過洪教授的說明,讓與會者能夠更深入瞭解佛學規範資料庫的內容與其建構特性、資料 API 結構與其相關服務與更多相關的分析與活用。
第二位發表人為中國歷代人物傳記資料庫的項目經理王宏甦先生,探討的題目是〈中國研究網絡基礎設施中的中國歷代人物傳記資料庫〉。王經理表示,大部分的人都只把 CBDB 當作一個人物辭典來使用,但是事實上,CBDB 能夠提供許多人物關係的資訊,進行社會關係網絡(social network)、群體傳記(prosopography),以及社會變遷的研究,這才是數位人文研究上更大的效益。透過人物的籍貫、墓誌等相關地理資訊,研究者還可以在 GIS 工具上進行視覺化的處理,這對於研究人物的移動與區域發展等,也是極為重要的。因此,王經理指出,基於大量的數據,如何透過合作的方式來減少重複的工作、提供高效的數據並提供新的研究視角,應是當前極為重要的目標。以目前的成果來說,CBDB 所提供的 API 架構能夠將多個數位平臺相互連結(例如 MARKUS 可以將從 CTEXT 取得的文本,利用 CBDB 的人物介接,迅速完成人物的標記)。因此,透過 API 可使網際網路中的資源彼此連結,彼此回饋數據,彼此成為對方的介面,擴大相互的影響力。王經理也舉 IIIF (International Image Interoperability Framework)的介接為例,即是一個很方便的圖像 API 介接方式。由 IIIF 的成功經驗,也帶出另一個議題,即「如何建構出彼此共同規範化的 API 標準」?因此,所謂「中國研究網路基礎建設」,應是包含了技術上的共享、標準化規範的創立,還要有相關研究者的溝通平臺,俾使數位人文的研究能夠在有機的成長下,取得更大的進展。
本場次最後一位發表人為臺灣大學資訊網路與多媒體研究所的博士候選人林農堯,發表的主題為〈文本地理資訊系統之實作與時空功能〉。林先生為 DocuSky 中地理資訊系統 DocuGIS 與 Geoport 的建置者,在本次發表中,林先生闡述此兩系統的建置理念與活用的方法。傳統的文本地理資訊系統,都受限在特定的文本中進行研究及呈現。而透過與 MARKUS 及DocuSky 的介接,讓 GeoPort 將 DocuSky 中取得的 MARKUS 標註文本,建立結構化的空間資料。再透過 DocuGIS 將文本資料作進階的觀察、過濾、分析與找尋文本中的空間脈絡。林先生以 CBDB 的地理空間資訊,以及中國正史中的自然災害記錄為例,討論 DocuSky 中的地理資訊系統如何將這些人、地資訊,透過系統的連結予以視覺化呈現,也讓人文研究者得以自行在空間上選用各種參考來源以輔助觀察自己的文本史料,為 GIS 協作開啟一條良好的研究取徑。
(四)文本標記、探勘與分析工具
本次會議的第三個主題關注於文本分析與比對,由中央大學資訊工程學系蔡宗翰教授擔任主持人,共有四位發表人,內容概要如下:
第一位發表人為銘傳大學資訊工程學系的謝育平教授。謝教授長期以來進行詞彙萃取的演算法開發;本次研討會,則以〈同位詞夾子:主題式分類詞庫萃取演算法〉為題,分享自己的研究心得。所謂「同位詞夾子」必須由五個部件組成,包括:前文、前綴、中綴、後綴、後文等,其概念是將一個詞彙在文件某處的特徵,用來在文件中萃取與該詞彙具「同位性」的同位詞。而「同位詞夾子」則是以「半自動主題式詞庫萃取演算法」所建置的數位工具,一方面利用人工來保證準確率,同時再以機器速度來補足召回率,以達到更高的準確率與盡可能達到的召回率。透過使用者提供的種子範例,藉由演算法在文本中進行詞彙夾取,再依照演算出來的「同位性分數」排序供使用者人工決定是否符合所需分類;再依人工幫助擴充種子範例、重啟演算法,如此互動循環到滿意為止。在實際的研究案例中,謝教授舉臺灣歷史數位圖書館的人名、地名、官職名、事件名等夾取成果,以及中國古典小說中萃取三國演義的武器名、西遊記的法術名、紅樓夢的衣飾名、金瓶梅的小吃名等非傳統命名實體研究的詞彙分類。透過這樣的演算法夾取,有效地取得使用者所需詞彙,更縮短了使用者查找詞彙的時間。
第二位發表者為政治大學資訊科學系的陳冠群先生,發表的題目是〈中文裁判書要旨之自動擷取〉(共同作者為劉昭麟教授)。裁判要旨是快速瞭解裁判書判決理由的文字記載,但是並非所有的裁判書都有裁判要旨,因此,若能透過自動擷取方式從裁判理由中取得文字成為裁判要旨,將有助於快速理解裁判理由。作者透過兩類分類模型—Gradient boosting 與 Recurrent neural network(RNN)—進行擷取並比對效果。在「基本特徵」、「裁判特徵」、「分具標記特徵」與「詞彙及詞性特徵」等特徵擷取方式下,即可在相似的判決理由撰寫模式中提取文字,整理成裁判要旨。經與人工編輯的裁判要旨比對研究結果後,本研究所提出的方法都可以達到很高的擷取效果,而以 RNN 為分類模型的研究方法,則又高於其他的實驗模型。因此,作者認為,透過不斷的機器學習與合適的分類模型,將有助於快速擷取裁判要旨,使未來不管在研究或是整理中文裁判書的工作上,都將更有幫助。
第三位發表人為葉修宏先生,隸屬於中央研究院資訊科學研究所何建明教授的團隊,發表的文章是〈基於主題模型與句向量的中國古文相似語意偵測〉(共同作者為何建明教授與曾偉勝先生)。歷史學家從大量的文本中取得歷史資訊以進行歷史研究,透過數位工具的協助,在大量的文本中可以快速抓取研究者可能需要的資訊,或是不同史書間的相似語意的段落,並將這些結果回饋給研究者。一般的比對相似文字的方法可能使用 n-gram 的字串比對方法來處理,但是卻無法比對出「語意」的相似段落。因此何教授採用 Embedding Model 的方式來進行比對,將字詞或句子轉成規範性的數值進行比對。透過機器學習文句的重要特徵所轉製成的數值,從新舊《唐書》作為研究案例,該團隊也取得了不錯的研究成果。
本場次第四位發表人為海洋大學資訊工程學系林川傑教授,分享的主題是〈CORPRO:庫博中文獨立語料分析工具〉(共同作者為陳光華教授與闕河嘉教授)。庫博是一套獨立安裝於個人電腦系統中的數位人文研究文本分析工具,主要用於分析中文語料,可以用於檢驗不同文本間的斷詞與詞頻分析,並匯出成果。庫博內建了多種數位工具,包括詞頻的統計、緊鄰搭配文字二元語法(bigram)、斷詞與修正工具、詞彙共現分析、並且可把相類似的「同類詞」合併統計與查詢等多種功能。針對同一文獻集(例如《紅樓夢》),也可以分段相互比對,藉此探討同一文獻集中是否存在不同作者的可能性。透過林教授的介紹,與會場外的實機示範,有助於研究者更加瞭解本工具的使用方法與實際效益。
(五)視覺化與應用
本次會議的第四個主題探討視覺化技術在數位人文工具上的呈現,由CBDB 項目經理王宏甦先生主持,共有兩場發表,內容概要如下:
第一場發表人是臺灣大學資訊工程學系的碩士研究生周柳村與陳柏銓,發表的題目是〈表格視覺化工具與其共享模型〉。在本研究中,兩位發表人試圖建立一個系統,可以將所帶入的數值資訊,進行視覺化的圖像呈現,同時,當使用者在進行資料的調整時,圖像也可以同步進行修正,提供了研究者在進行研究數值觀察中,即時的成果展示,並將資訊、圖像與視覺化呈現的操控權,掌握在使用者個人身上。
本場次第二位發表人是臺灣大學數位人文研究中心的胡其瑞博士,發表的題目是〈數位人文視覺化技術與民族學研究〉。作者係進行民族學研究的人文學者,在本次的報告中,作者闡述如何將數位人文工具與民族學的研究相結合。民族學研究強調文本、時間與空間,在數位工具的協助下,研究者可以把文本放在時間的脈絡中分析、或是把文本產生地進行空間分析、時間與空間的套疊,以及不同時間、空間、文本間的相互串連分析,由此,可以提供給民族學研究者更豐富的資訊,也可以看到許多以往沒有注意到的問題。作者以其研究的中國西南苗族為例,他們當中所流傳的英雄祖先神話,如何影響他們在當代面對壓力時成為謠言的語彙。透過數位人文研究工具所進行的詞彙統計分析、共現,以及 DocuGIS 的空間呈現,讓我們看到這些語彙與歷史記憶之間,所存在的相互關連。
(六)數位人文研究案例成果發表
本次會議最後一個主題是「數位人文研究成果展示」,發表人由過去這一年來與臺大、哈佛兩單位有互動交流的學者與研究生們所組成,其目的是為了展示數位技術在人文研究上所能提供的輔助及初步的研究成果。共計六位發表人,由哈佛大學東亞語言文明學系的 Donald Sturgeon 博士主持,內容概要如下:
本主題首位發表人為臺灣大學資訊網路與多媒體研究所碩士研究生陳善文,報告的主題是〈甲骨卜辭斷代的演算法初探〉。陳先生長期與中央研究院歷史語言研究所黃銘崇研究員合作,透過演算法進行對甲骨卜辭上的干支計年進行斷代工作。甲骨文上雖記有月份、干支、貞人(占卜者)等資訊,但是卻無法準確地由這些殘缺的資訊查出該片甲骨的生成年代,從而無法對甲骨上記載的事情進行年代的排比與先後次序的研究。而透過演算法的協助,可以從月份與干支推算卜辭生成的可能時間,再輔以張培瑜所著之《中國先秦史曆表》中的冬至合朔時日表進行比對,則可更為精確地找出合理的生成時間,這種研究方法,該團隊稱之為「微細斷代」,對於甲骨文內容的研究,提供了數位人文研究方法上的助力。
第二位發表人為哈佛大學費正清中國研究中心獨立研究學者秦瓔女士,發表的題目是〈軼事集遠讀:以《唐語林》為例〉。《唐語林》是一部關於唐代軼事的宋代筆記,作者闡述自己的研究歷程,說明如何從大約一千一百條軼事中提取人物、官職、地名等詞彙以此分析這些軼事發生的時空背景,並擬進行的研究分析方向。
第三位發表者是哈佛大學歷史系的博士候選人陸奕先生,其研究與檔案相關,作者以其在中國大陸的檔案機構蒐集檔案的觀察,發表〈管中窺豹:試析中國地方公開檔案目錄〉一文。數位化的普及確實讓檔案機構妥善保存了許多珍貴的歷史資料,但是數位化的處理是否也同時意味著資訊被刻意的掩蓋與不公開?作者透過採集與分析浙江、天津等省市的線上檔案目錄,探討從大量卻破碎的紀錄中提取相關後設資料,以及檔案生成的地域、人物與轉發關係,由此分析檔案可能的開放程度與其在官僚系統內的網絡關係。進一步,作者透過官方對檔案的歸檔與保存期限規定,以演算法的方式來分析檔案內容與保存期限之間的關連性,從而探討中國文書行政處理的內容與邏輯性,並由此思考數位環境下政治力對訊息的監管與歷史書寫之間的張力。
第四位發表者是臺灣大學中文系博士候選人朱先敏,發表的題目是〈鑑賞與記憶形式—《世說新語》、劉孝標注與《水經注》〉。作者是在從事關於《水經注》的研究中,無意間透過數位人文工具發現該書與《世說新語》在用詞上有頗高的相似性。輔以劉孝標注的《世說新語》來掌握故事的文獻來源與生成背景,並透過數位工具如詞夾子、詞頻統計分析等工具在文本間找出許多共現的詞彙。由此,作者探討兩個主題相異的文本之所以出現共現的詞彙,是一種時代用語的相似性,或者是一種透過鑑賞的方式來記憶人物(如《世說新語》)或是山水(如《水經注》)?藉由文學分析的角度以及數位工具的結合,當可進行更深入的分析與研究。
第五位發表人為臺灣大學歷史學系碩士研究生李旻恆,發表的題目是〈以《淡新檔案》為中心—19 世紀北臺灣物質文化社會〉。《淡新檔案》是臺灣歷史數位圖書館(THDL)所收錄的文獻集,因此有利於透過數位人文的研究方法來對該檔案進行研究。作者透過對《淡新檔案》中刑事編財產侵奪類進行抓取,將受竊物品列出,並由這些物品探討十九世紀中葉北臺灣一般社會階層所使用的有價物品,由此分析這些物品所反映出來的物質社會與意義。
第六位發表者為臺灣大學歷史學系博士候選人胡馨怡,探討〈唐代前期的科舉家族及其地理遷徙路徑〉。本研究主要透過中國歷代人物傳記資料庫中的唐代科舉名錄,以及登科者的社會網絡關係,來觀察唐代前期科舉家族的形成。同時,在資料庫中對於人物郡望、籍貫、葬地等資訊的比對,在數位人文研究工具上進行地理空間的分布並探討遷徙的路徑。由此探討唐代前期的社會流動與家族的形成。
四、綜合討論
本次會議最後由一場綜合座談進行總結。這場綜合座談由項潔教授與包弼德教授擔任主持人,並邀請政治大學劉昭麟教授、馬克‧普郎克研究所何浩洋博士、中央研究院數位文化研究中心王祥安博士,以及法鼓文理學院王昱鈞教授擔任與談人。希望透過這些單位的代表,針對當前數位人文的研究發展,各舒己見:
項潔教授首先肯定本次會議的成果,認為透過這樣的討論對數位人文研究的發展是相當有意義的。項教授認為「合作」是建立漢學網路基礎建設的第一步,而合作重點在於與誰合作(People)?以什麼內容來合作(Content)?用什麼技術合作(technology)?以什麼標準來合作(standard)?以及,這些合作項目之間的互動關係。另一方面,這樣的合作成果要如何才能永續發展下去(Sustainability)?近幾年項教授常在反思,數位人文研究是為人文學者解決問題,或者是來幫研究者發現問題的?現在在資訊界熱烈討論的人工智慧(AI),是不是也可以成為數位人文研究的一環?上述這些問題在這兩天的會議中多少都引起了一些討論與反思,這也是未來可以繼續思考的方向。
包弼德教授認為,在 people 的層次,要考慮的不僅僅只有工具的開發者,還有很重要的管理者與使用者的層面需要留意,這樣才能夠使研究的發展有所精進。而王祥安博士則觀察到,使用者與工具開發者之間長期以來存在著一條鴻溝,彼此之間也缺乏良好的溝通管道,而本次會議的貢獻之一,即是試圖為兩方搭起溝通的橋樑。因為好的系統是根據使用者的需求而產出的,若使用者能夠明確地表達需求,工具開發者才能就現有最新的技術來與使用者進行協作。
在技術與標準的層面上,API 介接方式似乎是近來較為通行的技術,但是 API 的設計也必須有其標準。王祥安博士即指出,目前標準化的合作機制在目前仍有很大的限制。因此,若能夠建立一套規範,對於未來的發展是有幫助的。對此,何浩洋博士則提供了他在德國的經驗,認為 API 的設計應該朝向簡單、基礎的方向發展,藉由簡單的設計讓不同的資料提供者間能夠相互介接,並推廣給大眾使用。這樣的方式可以在短時間內匯集大量的資料,而且在互通的前提下,不用一直重複製作別人已經建置好的成果。而項教授則不認為一定需要存在一個強勢的規範,反倒是各平臺與資源應該自行設計合於己方規範的轉檔機制(converter),這樣,一方面可免去現有資料需要因應新規範而重新轉製的複雜性,一方面也保有了各方的自有彈性。另外,德龍博士也提出他的建議,認為在數位資源的持續開發下,如何簡化數位工具與平臺的複雜性是促使數位工具間合作與進展的重要因素,因此,將工具與資源做適度的區隔,在 API 的介接技術下便可保持各自工具的彈性與自由度,也是他所謂「去中心化」很重要的概念與原則。
而永續發展的問題,一直以來都是數位人文研究的大問題,從數位典藏時代到數位人文的進展,許多舊有資源逐漸因為計畫終結而成為「孤兒」。包弼德教授舉哈佛為例,哈佛大學的圖書館也不願意接手計畫已終止的資料庫。政治大學劉昭麟教授則舉政大的經驗,指出雖然政大從事數位人文工具的開發很早,並且花了很多時間在進行工具的開發與標準的建立,但是永續發展往往才是該校面臨到最大的問題。王祥安博士表示,國家數位典藏計畫執行期間所建立的五百多個網站與資料庫,有一半的網站在計畫結束後就無人管理了。王博士所屬的數位文化中心花了很多的人力物力去接管部分的網站,但這畢竟不是最好的方式,除非資源擁有者願意公開資源,在如 Github 等平臺上供人下載運用,或許可以將資源持續維運下去。法鼓文理學院的王昱鈞教授則表示,法鼓文理學院的資源主要是靠宗教團體的力量在支持運作。而在內容的建置上,一開始的設計就是追隨國際標準,加上資源的完全公開性,因此在永續的發展上,並不會太難。而該學院對外的合作也保持開放的心態,這也是法鼓文理學院在開發相關資源的過程中與其他單位較為不同的地方。
對於未來,與談人和與會學者也各自提出他們對於數位人文研究發展的期待。項教授相信在不久的將來漢學的數位人文研究可以形成一個不小的研究社群,透過群體的合作來進行更深入的研究。同時他也期待未來的數位人文研究能夠更被人文研究者所看重,甚至是主導研究的方向。而資訊技術人員是以平等的角色加入這樣的研究當中,而不是研究工作的「黑手」。更進一步,包弼德教授與劉昭麟教授都期待,能夠有更多的人文學者本身即具備了數位工具的基礎能力,以資訊技術的眼光來看到自己的研究。王昱鈞教授則表示,在法鼓文理學院已經有不少學生與研究者開始往這個方向努力,對於未來,也抱持著樂觀的態度。而技術的精進方面,劉昭麟老師不排斥將人工智慧的技術帶入研究當中,甚至認為,在大量資料持續堆積下,若是人工智慧機制可以協助數位人文研究進行資料的篩選與詮釋,將更能發揮數位人文研究的精神。王昱鈞教授指出,未來法鼓文理學院將更朝向跳脫文字的整理,而進入到背後的佛教與經義,也期望透過人工智慧的技術,去建構更深入的佛學研究。包弼德教授則鼓勵更多的研究者加入數位人文研究的領域,無論是基礎網路設施的建設,資源開放與介接技術的提升,或是研究組織的建立,以及人才的培訓,都是應該發展與考量的目標。
總結兩日的會議,無論是學者提出個人的研究成果與發想,或是與會來賓給予的建議與激盪,都為會議帶來許多新的火花,對於未來臺灣數位人文研究的發展,帶來了許多新的方向與想望。
*作者:胡其瑞 臺灣大學數位人文研究中心博士後研究人員