国家语言资源监测与研究中心(网络媒体分中心) 欢迎您!   语言资源网 | 网络媒体 | 平面媒体 | 海外华语 | 教育教材 | 有声媒体
- 首页 - 用户留言 -   您是第76734位客人...
◆ 2005年热点事件追踪
    热点事件跟踪研究是国家语言资源监测与研究中心(网络媒体)中比较重要的一项研究,也是具有特色的一项研究。
    热点事件,就是一段时间内在某一群体中关注程度比较高的事件。热点事件跟踪基于统计学方法,采用了文本分类和聚类、信息检索、多文档摘要等多种自然语言处理方法,并结合已有的流行语抽取技术,选取了财经证券类、社会类、科技类、国际类、体育类共5个大类的若干热点新闻事件。
    本研究的特色之处在于实验中获取了与事件相关的热点词群、事件相关新闻文档、词群相关文档等等。
财经证券类
社会生活类
科技信息类
国际热点类
体育新闻类


◆ 第五届NTCIR信息检索
    华中师范大学自然语言处理研究所&国家语言资源监测与研究中心(网络媒体分中心)参加了2005年在日本举行的NTCIR信息检索,取得了可喜的成绩!

    通过参加这次国际性的信息检索大赛,进一步强化了自然语言处理研究所在信息检索领域的研究,也有力地促进了网络媒体监测中心对网络信息的检索、监测和评估!


◆ 国家语委现代汉语语料库检索系统
    国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。

    国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。

    语料库检索系统面对的是大规模语料库,服务于众多学者,是信息检索技术在语料库范围内的实际应用,也是语言学领域必不可少的工具。国家语委现代汉语语料库检索系统在提供普通查询的基础上,新增重叠词、高级等查询方式,并具备进阶处理功能,对查询结果进行过滤,最大限度满足用户需求。

    进入检索系统 国家语委现代汉语语料库检索系统




◆ 网络流行词追踪
    流行语就是在某一时期,某一地域或某一人群中迅速传播、盛行的词语。网络流行语就是在网络中的某一时期或某一网络社区中迅速传播、盛行的词语。网络流行语具有如下特点:扩散性,时效性,地域性,密集性。

    我们认为网络流行语应该具备3个最基本的特性:

        1、研究的时间范围内被关注程度有明显的上升过程,且上升过程较迅速;

        2、上升过程具有一定的“绝对高度”,即出现的次数较多;

        3、上升过程到一定高度后保持一段被关注时间。

    为了使网络流行语的监测与发布具有科学、动态和权威性,我们基于国家语言资源监测与研究中心(网络媒体)的监控语料库进行网络流行语候选词语表的筛选工作。

    动态语言知识更新量化的统计结果不是一个数据形成的“点”,而是由无数量化的点构成的一条“线”,一条可以观察到历时的变化的曲线。因此对流行语的研究要基于一条变化的曲线。首先,我们依据非平稳时间序列分析和预测理论,对网络流行语的原始数据进行非线性趋势分析,得到每个流行语的流行性曲线。


图:“苏丹红”的流行性曲线(蓝色)



图:“超级女声”的流行性曲线(蓝色)



图:“芙蓉姐姐”的流行性曲线(蓝色)



图:“纺织品谈判”的流行性曲线(蓝色)



图:“油价”的流行性曲线(蓝色)


    然后我们依据可靠性理论并根据我们对网络流行语概括的特征建立流行特征模型。


图:流行特征模型曲线


    对每个流行语的流行特征曲线,我们进行流行特征模型拟合,符合条件的词语作为网络流行语的候选词语,最后由人工来对候选词语进行筛选。


◆ 网络新词发现
    随着互联网的飞速发展,各种新词汇大量涌现,仅靠人工无法及时地发现这些新词。而且,最近的研究(Sproat and Emerson 2003; Chen 2003)显示,60%的分词错误是由新词汇导致的,因此,有效地识别网络新词汇(NWI:New Word Identification),将为观察研究分析语言现象的动态变化、规范语言文字、监测网络语言文字、词汇编撰等提供基础性支持。

    我们通过对汉字中,串与串之间的关系来分析和抽取网络新词,有效地提高了新词识别能力。部分数据摘录如下:
2005年9月
 郭叁俊
 韩凯臣
 瓦斯燃烧
 詹春柏
 叶静漪
 吕振霖
 徐韶杉
 两岸经济交流与合作
 孙凤岐
 夏瑞馥
2005年8月
 粱晓丽
 卡扎菲
 刘瑞璞
 吕丽莉
 卧佛寺
 汤姆森
 杨玉琼
 戴季陶
 柳棵峪
 凤凰岭
2005年7月
 邵琪伟
 陈师傅
 赖尚斌
 凤宜楼
 刘仕忠
 芥末油
 陈雅凤
 梁丽婵
 邢振亮
 黑龙江省母婴保健条例





建议浏览器:Microsoft Internet Explorer 5.0以上  最佳分辨率:1024x768(px)
承办单位:华中师范大学自然语言处理研究所  国家语言资源监测与研究中心(网络媒分中心)
电话:027-67867053 Email:ychang@mails.ccnu.edu.cn

版权所有 © 2006-2009 国家语言资源监测与研究中心(网络媒分中心)
Copyright © 2006-2009 web.clr.org.cn All Rights Reserved.

设计开发: 华中师范大学自然语言处理研究所 国家语言资源监测与研究中心(网络媒分中心)