(转载)澳大-南師語料庫與數字人文暑期學院特約報道之三
暑期學院特約報道之三 2024
8月14日至16日,澳大-南師語料庫與數字人文暑期學院培训课程在各位老師的講解和指導下,穩步踏進實踐探索階段。
8月14日,中國人民大學盧達威副教授以“正則表達式的語料庫應用”為主題進行講座,用三個實例介紹正則表達式的基本概念、原理與匹配規則,現場指導同學們利用正則表達式進行語料檢索、整理及格式處理的實操。講座將理論知識與實際操作相結合,幫助同學們在實踐中了解正則表達式的大作用,逐步激發同學們的探索興趣。
現場學習氛圍熱烈,與會者利用盧老師分享的操作方法,輕鬆高效地將亂序文本整理為可錄入數據庫的格式。華中師範大學沈威副教授還向大家介紹了更多便於文本處理的小工具。
8月15日,華中師範大學沈威副教授以“語言研究中的統計方法”為題為在場學員開展講座與實操培訓。講座中,沈老師特別強調研究者應當注意語言研究中的數據來源及合理性,關注“倖存者偏差”。此外,沈老师还展示了語言研究中常見統計方法的案例,并實際演示了如何使用SPSS對數據進行正態性檢驗。
南京師範大學李斌教授對講座進行精彩點評。
與會同學有的就研究方法的角度對“倖存者偏差”這一問題進行進一步思考,有的就抽樣時數據處理對隨機性的影響進行提問,有的對研究樣本數量提出問題,現場互動氛圍熱烈。
8月16日,南京農業大學王東波教授以“荀子古籍多模態大語言模型的開發與應用”為主題,介紹了用深度學習技術構建大型語言模型的原理、預訓練方法和應用情況;南京農業大學博士生朱冬梅展示了荀子古籍多模態大語言模型的具體構建与訓練方法。
李斌教授、沈威副教授、盧達威副教授先後進行點評,在場師生對荀子古籍多模態大語言模型的開發、應用表達了濃厚興趣,希望可以借由大語言模型為古籍智能處理做更多工作。
14日至16日晚,李斌與常博林二位老師採用線上線下相結合的方式,基於古代詩歌數據,耐心細緻地講授了“字符編碼”“字符串處理”等三次課程,指導同學構建網頁,引導學員結合個人的研究興趣,基於自己的科研項目更好地使用MySQL數據庫,逐步利用更高級的編程語句對數據庫中的數據进行檢索,構建便於查詢的檢索系統。在老師與助教的幫助下,許多學員都基於自己的研究項目構建出比較成熟的數據庫查詢系統,並根據自己的研究需要對檢索方式加以設計。
講習班課程內容緊湊,每次正式課程結束後大家都會認真總結當天學習中遇到的問題,積極提問。晚上十點過後,李斌老師及各位助教仍在為同學們答疑解惑,耐心指導大家完成自己的項目。同學們的學習興致極高,大家互相討論、彼此交流學習心得,共同進步。
暑期學院的正式講授部分至此告一段落,學員們在为期七天的講座與實踐課程中收獲頗豐,不少同學已經初步完成了檢索系統的構建。8月18日的課程是本次暑期學院的最後一天課程,屆時各位學員將向大家展示自己構建並完善的檢索系統,匯報自己的學習成果。我們期待大家能夠用優秀的成果展示自己所學,亦期待本次暑期學院所講授的內容能夠真正助力各位學員的研究!
(本文转载自“比特人文”微信公众号)