中文文本分析器的工作原理
该工具使用基于词典的最长匹配分割方法,将中文文本分割成单个词语。 CC-CEDICT 开源词典。然后,每个单词都会与官方词典进行交叉引用。 HSK词汇表 (1-6级)以确定其难度分类。
此 估计 HSK 水平 代表读者需要达到的最低 HSK 水平,才能理解文本中大约 95% 的词汇——研究人员认为这是舒适阅读理解所必需的门槛。
此 可读性分数 结合 HSK 等级分布、平均词长、句长和词汇多样性,得出 0-100 的可访问性评级,分数越高表示文本越易于访问。
使用此工具进行中国研究
学习者可以使用文本分析器来 评估阅读材料是否符合他们目前的阅读水平粘贴文章、教科书段落或微信消息,即可立即查看其难度是否符合您的水平。一般来说,如果超过 5% 的词汇超出您当前的 HSK 等级,则该文本可能对您来说太难,难以轻松阅读。
教师和项目协调员可以用它来…… 兽医阅读材料 在分配给学生之前,确保难度与学习目标相符。
想更深入地了解各个角色吗?试试我们的 激进与中风探索器 查看部首分解、笔画数和相关字符。