文章摘要:数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
文章关键词:自动分词,数字人文,sikuBERT,预训练技术,词典信息融合,
论文作者:刘畅1 王东波1 胡昊天1 张逸勤1 李斌2
作者单位:1. 南京农业大学信息管理学院 2. 南京师范大学文学院
论文分类号: G254;G255.1
相似文献:SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究.....作者:王东波,刘畅,朱子赫,刘江峰,胡昊天,沈思,李斌,刊载期刊:《图书馆论坛》数字人文视域下SikuBERT增强的史籍实体识别.....作者:刘江峰,冯钰童,王东波,胡昊天,张逸勤,刊载期刊:《图书馆论坛》
相关文章:信息检索课的教学设计与实践—从讲座到课程——科创专题信息检索课程设计.....作者:孙爱莉 结合钉钉办公系统医院图书馆网络培训模式初步实践与探讨.....作者:曹湘博;丛爱玲基于云端的医学信息服务平台-知识管理服务科技创新.....作者:王军红;吴丹;孟娜新冠肺炎疫情期间图书馆线上讲座服务策略.....作者:李晓婧推广人文阅读 打造书香医苑 让“悦读”成为新生活新风尚.....作者:搭平台、促健康、提素养,引领信息服务新时尚.....作者:王璞琳;崔婷;张延一;张美玉“百年毓医书香传承”医学人文阅读推广服务.....作者:王丽丽;刘培波;刘贺优质服务有温度 氤氲书香有情怀.....作者:柏梅;孙奇;张秀娟;董松
文章来源:语料库语言学 网址: http://ylkyyx.400nongye.com/lunwen/itemid-74439.shtml
上一篇: 中国语言文字论文_首届暨南大学詹伯慧语言学奖评选揭晓
下一篇: 中等教育论文_“新经验语文”的一路追问