国家语言资源监测与研究中心(网络媒体分中心) 欢迎您!
语言资源网
|
网络媒体
|
平面媒体
|
海外华语
|
教育教材
|
有声媒体
-
首页
-
用户留言
- 您是第76734位客人...
中心简介
◇ 中心概述
◇ 中心学术委员会
◇ 中心机构组成
◇ 中心研究人员
◇ 管理工作管理条例
◇ 科研经费管理条例
◇ 学术活动管理条例
◇ 研究项目管理条例
研究动态
◇ 网络词典查询
◇ BBS语料库数据发布
◇ 热点事件追踪
◇ NTCIR国际信息检索
◇ 语委语料检索
◇ 网络流行词
◇ 网络新词识别
◇ 全部成果
◆ 2005年热点事件追踪
热点事件跟踪研究是国家语言资源监测与研究中心(网络媒体)中比较重要的一项研究,也是具有特色的一项研究。
热点事件,就是一段时间内在某一群体中关注程度比较高的事件。热点事件跟踪基于统计学方法,采用了文本分类和聚类、信息检索、多文档摘要等多种自然语言处理方法,并结合已有的流行语抽取技术,选取了财经证券类、社会类、科技类、国际类、体育类共5个大类的若干热点新闻事件。
本研究的特色之处在于实验中获取了与事件相关的热点词群、事件相关新闻文档、词群相关文档等等。
财经证券类
社会生活类
科技信息类
国际热点类
体育新闻类
◆ 第五届NTCIR信息检索
华中师范大学自然语言处理研究所&国家语言资源监测与研究中心(网络媒体分中心)参加了2005年在日本举行的NTCIR信息检索,取得了可喜的成绩!
通过参加这次国际性的信息检索大赛,进一步强化了自然语言处理研究所在信息检索领域的研究,也有力地促进了网络媒体监测中心对网络信息的检索、监测和评估!
◆ 国家语委现代汉语语料库检索系统
国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。
国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。
语料库检索系统面对的是大规模语料库,服务于众多学者,是信息检索技术在语料库范围内的实际应用,也是语言学领域必不可少的工具。国家语委现代汉语语料库检索系统在提供普通查询的基础上,新增重叠词、高级等查询方式,并具备进阶处理功能,对查询结果进行过滤,最大限度满足用户需求。
进入检索系统
国家语委现代汉语语料库检索系统
◆ 网络流行词追踪
流行语就是在某一时期,某一地域或某一人群中迅速传播、盛行的词语。网络流行语就是在网络中的某一时期或某一网络社区中迅速传播、盛行的词语。网络流行语具有如下特点:扩散性,时效性,地域性,密集性。
我们认为网络流行语应该具备3个最基本的特性:
1、研究的时间范围内被关注程度有明显的上升过程,且上升过程较迅速;
2、上升过程具有一定的“绝对高度”,即出现的次数较多;
3、上升过程到一定高度后保持一段被关注时间。
为了使网络流行语的监测与发布具有科学、动态和权威性,我们基于国家语言资源监测与研究中心(网络媒体)的监控语料库进行网络流行语候选词语表的筛选工作。
动态语言知识更新量化的统计结果不是一个数据形成的“点”,而是由无数量化的点构成的一条“线”,一条可以观察到历时的变化的曲线。因此对流行语的研究要基于一条变化的曲线。首先,我们依据非平稳时间序列分析和预测理论,对网络流行语的原始数据进行非线性趋势分析,得到每个流行语的流行性曲线。
图:“苏丹红”的流行性曲线(蓝色)
图:“超级女声”的流行性曲线(蓝色)
图:“芙蓉姐姐”的流行性曲线(蓝色)
图:“纺织品谈判”的流行性曲线(蓝色)
图:“油价”的流行性曲线(蓝色)
然后我们依据可靠性理论并根据我们对网络流行语概括的特征建立流行特征模型。
图:流行特征模型曲线
对每个流行语的流行特征曲线,我们进行流行特征模型拟合,符合条件的词语作为网络流行语的候选词语,最后由人工来对候选词语进行筛选。
◆ 网络新词发现
随着互联网的飞速发展,各种新词汇大量涌现,仅靠人工无法及时地发现这些新词。而且,最近的研究(Sproat and Emerson 2003; Chen 2003)显示,60%的分词错误是由新词汇导致的,因此,有效地识别网络新词汇(NWI:New Word Identification),将为观察研究分析语言现象的动态变化、规范语言文字、监测网络语言文字、词汇编撰等提供基础性支持。
我们通过对汉字中,串与串之间的关系来分析和抽取网络新词,有效地提高了新词识别能力。部分数据摘录如下:
2005年9月
郭叁俊
韩凯臣
瓦斯燃烧
詹春柏
叶静漪
吕振霖
徐韶杉
两岸经济交流与合作
孙凤岐
夏瑞馥
2005年8月
粱晓丽
卡扎菲
刘瑞璞
吕丽莉
卧佛寺
汤姆森
杨玉琼
戴季陶
柳棵峪
凤凰岭
2005年7月
邵琪伟
陈师傅
赖尚斌
凤宜楼
刘仕忠
芥末油
陈雅凤
梁丽婵
邢振亮
黑龙江省母婴保健条例
建议浏览器:Microsoft Internet Explorer 5.0以上 最佳分辨率:1024x768(px)
承办单位
:华中师范大学自然语言处理研究所 国家语言资源监测与研究中心(网络媒分中心)
电话
:027-67867053
Email
:ychang@mails.ccnu.edu.cn
版权所有 © 2006-2009
国家语言资源监测与研究中心(网络媒分中心)
Copyright © 2006-2009 web.
clr.org.cn
All Rights Reserved.
设计开发:
华中师范大学自然语言处理研究所
国家语言资源监测与研究中心(网络媒分中心)