您现在的位置 :

首页  >  资讯 >  > 正文

精彩看点:700多亿字样本中出现不规范字词135.9万次 如何才能不再出错

时间 :2023-06-15 17:01:23   来源 : 快科技


(相关资料图)

近日,由上海蜜度信息技术有限公司、澎湃新闻、上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司、新浪微博6家机构共建的数字生态内容实验室通过人工智能、大数据等技术手段对4946.3万条、706.6亿字内容的样本进行全面梳理,整理出出错频率最高的“不规范字词TOP20”。


“不规范字词TOP20”(部分)

对错误类型进行统计,“常见错误”在不规范字词TOP20中占9项,是互联网上主要出现的不规范用字词形式。TOP20中,“常见错误”类型的帐(账)号等属于误用形近别字,其出现错误频次超过1万次。TOP20中,异形词、繁体字各有5项出现。其中,颤(战)栗、架式(势)等误用读音相近字的错误频次均超过千次。

TOP20中繁体字中岀(出)、沒(没)等与正确用字的字形非常相近,在快速输入或手机等小屏幕输入场景中易混淆;妳(你)、愛(爱)等被部分网友用于表达个性,因此出现频率较高。

标签:

推荐文章

X 关闭

X 关闭