登录    注册    忘记密码

详细信息

知识发现视角下词汇历时语义挖掘与可视化研究     被引量:6

Diachronic Semantic Mining and Visualization of Chinese Words:A Knowledge Discovery Perspective

文献类型:期刊文献

中文题名:知识发现视角下词汇历时语义挖掘与可视化研究

英文题名:Diachronic Semantic Mining and Visualization of Chinese Words:A Knowledge Discovery Perspective

作者:潘俊[1];吴宗大[2,3]

机构:[1]浙江科技学院理学院大数据科学系,杭州310023;[2]绍兴文理学院计算机系,绍兴312000;[3]南京大学信息管理学院,南京210093

年份:2021

卷号:40

期号:10

起止页码:1052

中文期刊名:情报学报

外文期刊名:Journal of The China Society for Scientific and Technical Information

收录:CSTPCD、、国家哲学社会科学学术期刊数据库、北大核心、CSCD、CSSCI、北大核心2020、CSCD_E2021_2022、CSSCI2021_2022

基金:教育部人文社会科学研究青年基金项目“基于知识库和大规模文本的词汇语义表示研究”(18YJCZH137);浙江省公益技术应用研究计划项目“多源异构数据融合的农业知识服务关键技术与应用”(LGN21F020003);浙江省高校重大人文社科攻关计划“基于语义混淆的个性化信息服务用户隐私保护策略”(2021GH017)。

语种:中文

中文关键词:知识发现;词向量;表示学习;历时语义;人民日报

外文关键词:knowledge discovery;word vector;representation learning;diachronic semantic;People's Daily

中文摘要:针对中文词汇历时语义的知识挖掘问题,本研究设计了一个面向知识发现的可扩展框架,该框架基于松耦合的可配置服务式架构,底层提供数据清洗、数据规范化、历时词向量训练等服务,中间层通过XML(extensible markup language)配置来定制基础数据的抽取策略并实现界面映射,顶层通过对关键服务的组合调用,构建知识发现与可视化的应用模块。以《人民日报》词汇历时语义挖掘实践为例,给出了该框架的一个具体实现,展示了历时词向量在数字人文和社会计算研究中的可能应用模式。该方法框架及其实现具有较好的通用性,通过二次开发,能灵活构建各类面向知识发现的词汇历时语义挖掘应用,并可推广到对其他历时语料的知识挖掘。

外文摘要:Mining knowledge from diachronic word semantic shifts has become an increasingly important problem in word temporal analysis.To this end,this paper aims to design a scalable framework for knowledge mining in the diachronic corpus,which is based on a loosely-coupled and service-oriented configurable architecture.The bottom layer of the framework provides data level services such as data cleansing,data normalization,and diachronic word vectors learning,among others.The middle layer defines customized data extraction strategy and user interface generation through the configuration files in xml format.The top layer uses various services to fulfill specific requirements of knowledge discovery and visualization.This study also implements a framework focusing on word semantic shifts of People’s Daily and identifies possible approaches in the application of diachronic word vector to digital humanities and social computing research.The proposed framework and its implementation are highly scalable,which can be used as a basis for researchers to further develop applications for diachronic word semantic knowledge mining and can also be extended to other diachronic corpora.

参考文献:

正在载入数据...

版权所有©绍兴文理学院 重庆维普资讯有限公司 渝B2-20050021-8
渝公网安备 50019002500408号 违法和不良信息举报中心