數位人文研究在臺灣已經展開多年,國立臺灣大學成立的數位人文研究中心、中央研究院的數位文化中心等機構的成立,都可以看出數位人文發展的趨勢。今年,臺灣數位人文學會成立,亦隨之組成學術委員會、技術委員會等委會員,協助會務的推動。技術委員會在今年(2016年)10月21日展開了第一場的學術活動——由臺灣大學生物產業傳播暨發展學系的闕河嘉老師帶來「數位人文研究:從人文社會學科領域出發」的演講。
闕河嘉老師從臺大農推系畢業,後來在紐西蘭奧克蘭大學就讀教育學博士,研究領域是鄉村研究和後結構主義,本次演講的主題正是以一個社會科學學者的領域來看現在的數位人文研究。
數位人文是利用資訊工具等技術來進行人文學或社會科學的研究,可以說是技術和社會科學的聯姻。然而使用聯姻二字也可以再思考兩者在發展中的關係。台灣從數位典藏,典藏保存後加值,發展到數位人文,或許不可避免有著技術層面凌駕於人文社會研究的傾向,以不同的演算法來進行人文學或社會科學研究,如詞頻 (Term frequency)、主題叢集 (Topic clustering)或是機器學習 (machine learning)等技術。在這樣的趨勢下,對於研究的詮釋權該落在哪一方,是資訊技術產出之結果,還是人文社會學者本身?對此,闕河嘉老師提出數位人文研究應該為技術與人文學或社會科學的共振 (Synergies),在兩者的平衡合作之下,創造出新的研究方法,像是machine reading加上close reading,在機器閱讀的情況加上自己對於主題的長期關注、深讀的結果,呈現嶄新的研究成果。
資料量雖不及資料探勘和大數據的研究,但社會科學自身有語料庫分析的方法。根據自已的研究主題建立文本集,利用餵入大量文本進行文本的分析,在拆解文本的詞句後,再次連結出意義,配合社會現象作解釋。語料庫分析又分成以語料庫驅動 (Corpus-driven)和以語料庫為本 (Corpus-based),前者為由語料庫分析呈現的數據來作解釋;後者為以語料庫之內容做為佐證補足論述,不論哪一種研究方法,闕老師認為都不要因為落入對於工具本身的美好想像,而除去「人」(dehumanize)在參與其中的重要。
最後闕老師展示由她與陳光華老師開發的語料庫工具—庫博 (Corpro),在文本集已事先建立好的情形下,我們看到如字詞的出現頻次 (frequencies)、共現(Co-occurrence)、搭配關係(collocation)、關鍵詞的上下文(Key word in context)分析等功能的呈現,也能以同一字詞不同主題的分類,看出字句是在何種背景下進行論述,藉此對社會現象等研究主題有更進一步的分析。在今年暑假的臺大夏季學院的「認識數位人文」課程,便有許多學生利用此一工具進行近來社會現象的研究。
此次演講,闕河嘉老師讓我們能從社會科學的角度看到數位人文,去認知到在不同學科領域中的所見所得,也呈現了語料庫分析的方法與工具,使聽者能對人文學及或社會科學的研究有多一層的想像。(許淑莉撰)