【學術活動】庫博Corpro文本分析工作坊

【庫博】Corpro文本分析工作坊 時間:2017年05月26日(五) 10:00-17:00 地點:台灣大學文學院視聽教室(文20) 講者:闕河嘉教授(國立台灣大學生物產業傳播暨發展學系) 活動簡介:本次工作坊,闕河嘉老師將和大家介紹她的團隊長期開發的多功能文本分析軟體庫博Corpro,運用這套軟體,與會者可以解析文本中詞彙出現的頻次,在文本中的分布情形、前後語境的脈絡、比較兩批文本的差異詞彙,以發掘大量資料展現的模式。 活動提醒: (一)工作坊於上午九點30分開放報到,十點正式開始。 (二)當日工作坊將分成兩部分進行,第一部分為講解與示範,第二部分為實際操作。中間將會適時有十至十五分鐘的休息時間,及午休用餐時間約為一小時。 (三)本活動將不提供紙杯,請您自備環保杯。 (四)請自備筆電,請注意需安裝或更新64位元的java(電腦須為64位元windows系統)。 報名網址

【學術活動】臺灣人物資料庫工作坊

臺灣人物資料庫 (Taiwan Biographical DataBase ‧ TBDB) 工作坊 活動簡介:自1990年代起,當社會資產已進入數位化的時代之際,科技與人文的結合研究隨之發展,近年來有越來越多以科技整合為核心的數位人文研究及課程,人文研究視角與方法的擴充及改變,是數位時代下的成果。 活動內容介紹:本次工作坊邀請當前以研究台灣文學、歷史文獻數位發展的專家學者,從分享近年以科技技術幫助大量數位資料進行分析,從中尋找意義關聯性的成果;以及建立數位資料庫的理念到使用端在利用資料庫進行研究的心得。 這其實比較是一個前導行的溝通會議。在這幾年,中國史的領域已經受益於China Biographical Database 中國歷代人物傳記資料庫(CBDB)多多,陸陸續續有越來越多基於CBDB的研究出現。在台灣文史方面,如何也能建置類似的資料庫,來促進相關的研究,是一個值得思考的問題。有興趣利用數位工具、資料庫來進行台灣文史研究的朋友,歡迎報名產加。給我們建議、批評、指教,與我們一起打造TBDB,開創一些可能的研究、教學新途徑。 邀請對數位人文、開拓文史研究新視野有興趣的朋友,踴躍參加。 主辦單位:國立臺灣文學館、臺灣數位人文學會、捷克國科會 合辦單位:國立成功大學、國立臺中科技大學 專題補助計畫:科技部 地點:國立臺灣文學館 第一會議室(臺南市中西區中正路1號) 時間:2017年5月12日(星期五)上午10時至下午5時。 報名日期:即日起至2017年5月8日止。 報名網址及議程下載

【學術活動】「數位人文技術於佛典文獻研究之應用與發展」演講報導

本次演講洪振洲教授以「數位人文技術於佛典文獻研究之發展與應用」為題,探討法鼓文理學院近年的數位人文專案和工具,如何支援佛學研究。 洪教授先提出了兩個問題:「要怎麼利用數位人文技術進行佛學研究?」以及「數位人文技術,要怎麼輔助人文學者進行佛學研究?」但要解決此二問題,必須先去理解現在佛學研究的主流研究方法為何。以蕭振邦〈佛學研究一般方法論〉(2003)書中內容為例,佛學研究的研究方法有四:文本解讀、理論重構、解釋模型的建構和撿別,以及相關解題的後續檢驗。 為了輔助佛學學者的研究,數位人文工具和資源可以從以下三方面進行著手。方向一:以數位技術產生更好的材料(例如:建立資料庫,將經、書、論等相關原始資料放置再一起);方向二:以電腦協助進行大規模的資料整理(例如:資料彙總、內容比對,從大量語料資料中整理出重要的研究內容);方向三:以資訊科學研算法輔助判讀(例如:利用統計分析或人工智慧,彌補文史哲個別研究者閱讀文獻量較少,解釋比較重特殊性和片面性的缺陷)。 而數位人文資源又可以區分出以下五類:基礎文獻資料庫、格式妥善的原始資料、資料分析與應用:結合GIS呈現、資料分析與應用:社會網絡分析,以及資料分析與應用:文字量化分析。洪教授在五類資源中分別提出相關的實例,展現法鼓文理學院近近十年數位人文專案的豐富成果。 中華電子佛典協會(CBETA)研究平台是其中相當成功的案例。不只整合了經典閱讀,還提供全文搜尋、字典內容、經典背景、人名地名參考資料、字詞統計,以及相關研究文獻,是多達兩億中文字的文獻庫。原本資料內容是以往以光碟方式呈現,後來開發並打造新的網頁閱讀介面,未來期望可以開發「搜尋與比對」和「文字數位分析」功能。然而洪教授也不諱言,系統建置的困難在於metadata本身就存有爭議(例如:佛典譯者的認定),致使系統需要極大的彈性來建置相關資料。 這些數位人文專案的資料開放政策,基本上資料都是完全公開下載(除了少許外部合作案),都套用CC授權(BY-NC-SA),所以大家都可以自由使用。全文資料都是符合TEI規範的XML檔案。 在資料分析與應用上,洪教授歸類出三類:結合GIS呈現、社會網絡分析,以及文字量化分析,這是數位人文目前最常用的研究方法。首先,結合GIS呈現的專案,可以參考《佛教傳記文學的視覺化與搜尋》,此資料庫利用Google Earth和高僧傳記的結合,將各高僧的生平要事及足跡,進行視覺化呈現。第二,社會網絡分析的專案,可以參考《高僧傳社會網絡視覺化》,把高僧傳內容所提到的高僧間的往來關係,構建成人際關係的網絡圖。最後,文字量化分析,開發出Search & Comparison的功能,可以找出特定詞彙在佛典中的出現頻率,透過資料聚合,進行統計和視覺化,呈現研究成果。(張天心撰) 演講PPT

【學術活動】「以社會網路分析數位人文領域知識結構」演講報導

本次演講唐牧群教授從社會網絡分析(Social Network Analysis, SNA)的角度,來看數位人文領域的知識整合。唐教授首先介紹社會網絡分析的特性,再來以數位人文文獻為例,進行書目網絡的探討。 以社會網絡分析為方法的研究出版,自2000年初以後逐漸盛行。主要原因在於,一方面以前的資料取得不易,另一方面則是社群網路於近年的增長,使得社會網絡分析的資料取得變得容易。相關研究多集中在美國等國家,台灣亦有相關的研究;研究領域多集中在電腦科學和社會科學。 若將社會網絡分析一詞進行拆解:社會(Social)代表的社會實體可以指個人、群體、機構或社群;網絡(Network)則指關係;分析(Analysis)可指計量、測量和視覺化。社會網絡分析旨在找尋節點之間的關係,幫助研究者找出結構對個體的影響,既可見樹又見林,在社會科學研究中是偏向結構性層面的解釋。而網絡分析測量指標的類型有三。一為凝聚力(cohesion):探討網絡是否聚集或分散;二為中心性(centrality),何為網絡中的中心點或有影響力者;三為群聚性(clustering),探究網絡中是否有次群體或者社群存在。社會網絡假設個體之間彼此是有關係、且互相影響,而網絡結構會促使或者限制個體的行動。 數位人文存在跨領域的特性,不像圖書資訊學或電腦科學是固定的領域,專門機構並不多,也缺少相對應的資料庫。所以唐老師與三位研究者選定的資料集,是以關鍵字輸入Scopus資料庫,以及ADHO期刊的2115篇文章為例,來探討數位人文文獻的多樣性(diversity)和凝聚性(cohesion)。 研究結果發現,數位人文每一篇文獻的平均作者數為1.33人,有近半數的文獻作者只有一人,型式偏向社會科學研究的作者數量。隨著時間演進,數位人文出版主題的豐富性也在增加,儘管不同時代的研究關鍵字與主題不盡相同。 從資料集延伸出三種網絡:一、共同作者網絡:網絡密度相當低,是相當分散的網絡。作者們侷限在彼此認識的小團體,跨國合作也相當少見。此現象可以歸因於數位人文研究很多單一作者,且人文學領域中本來就存在很多子領域,加之語言和國籍的障礙,導致網絡相當分散。二、共被引網絡:利用google scholar找出兩篇文章被未來文章所引用的關係,發現共被引的節點在2000年初大幅增加,而要透過共被引進行主題的分群並不容易。三、書目耦合網絡:各節點呈現出多個次領域的主題群聚。 由以上研究得出結論:數位人文領域的多元性日漸增加;共同作者的網絡則呈現相當零散的樣態,可以視為平行世界模型(Plural worlds model);而共被引網絡和書目耦合網絡,則呈現逐漸聚合的樣態,可歸結為小世界模型(Small world model)。(張天心撰) 演講PPT

【學術活動】「數位人文研究:從人文社會學科領域出發」演講報導

數位人文研究在臺灣已經展開多年,國立臺灣大學成立的數位人文研究中心、中央研究院的數位文化中心等機構的成立,都可以看出數位人文發展的趨勢。今年,臺灣數位人文學會成立,亦隨之組成學術委員會、技術委員會等委會員,協助會務的推動。技術委員會在今年(2016年)10月21日展開了第一場的學術活動——由臺灣大學生物產業傳播暨發展學系的闕河嘉老師帶來「數位人文研究:從人文社會學科領域出發」的演講。 闕河嘉老師從臺大農推系畢業,後來在紐西蘭奧克蘭大學就讀教育學博士,研究領域是鄉村研究和後結構主義,本次演講的主題正是以一個社會科學學者的領域來看現在的數位人文研究。 數位人文是利用資訊工具等技術來進行人文學或社會科學的研究,可以說是技術和社會科學的聯姻。然而使用聯姻二字也可以再思考兩者在發展中的關係。台灣從數位典藏,典藏保存後加值,發展到數位人文,或許不可避免有著技術層面凌駕於人文社會研究的傾向,以不同的演算法來進行人文學或社會科學研究,如詞頻 (Term frequency)、主題叢集 (Topic clustering)或是機器學習 (machine learning)等技術。在這樣的趨勢下,對於研究的詮釋權該落在哪一方,是資訊技術產出之結果,還是人文社會學者本身?對此,闕河嘉老師提出數位人文研究應該為技術與人文學或社會科學的共振 (Synergies),在兩者的平衡合作之下,創造出新的研究方法,像是machine reading加上close reading,在機器閱讀的情況加上自己對於主題的長期關注、深讀的結果,呈現嶄新的研究成果。 資料量雖不及資料探勘和大數據的研究,但社會科學自身有語料庫分析的方法。根據自已的研究主題建立文本集,利用餵入大量文本進行文本的分析,在拆解文本的詞句後,再次連結出意義,配合社會現象作解釋。語料庫分析又分成以語料庫驅動 (Corpus-driven)和以語料庫為本 (Corpus-based),前者為由語料庫分析呈現的數據來作解釋;後者為以語料庫之內容做為佐證補足論述,不論哪一種研究方法,闕老師認為都不要因為落入對於工具本身的美好想像,而除去「人」(dehumanize)在參與其中的重要。 最後闕老師展示由她與陳光華老師開發的語料庫工具—庫博 (Corpro),在文本集已事先建立好的情形下,我們看到如字詞的出現頻次 (frequencies)、共現(Co-occurrence)、搭配關係(collocation)、關鍵詞的上下文(Key word in context)分析等功能的呈現,也能以同一字詞不同主題的分類,看出字句是在何種背景下進行論述,藉此對社會現象等研究主題有更進一步的分析。在今年暑假的臺大夏季學院的「認識數位人文」課程,便有許多學生利用此一工具進行近來社會現象的研究。 此次演講,闕河嘉老師讓我們能從社會科學的角度看到數位人文,去認知到在不同學科領域中的所見所得,也呈現了語料庫分析的方法與工具,使聽者能對人文學及或社會科學的研究有多一層的想像。(許淑莉撰)