Skip to content

中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。

License

Notifications You must be signed in to change notification settings

alfredcc/Chinese-Names-Corpus

This branch is 56 commits behind wainshine/Chinese-Names-Corpus:master.

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Dec 18, 2017
3ebaf64 · Dec 18, 2017

History

24 Commits
Aug 7, 2017
Aug 7, 2017
Apr 2, 2017
Nov 25, 2017
Aug 7, 2017
Aug 7, 2017
Feb 19, 2017
Dec 17, 2017
Dec 31, 2016
Dec 8, 2016
Dec 18, 2017

Repository files navigation

中文人名语料库(Chinese-Names-Corpus)

某业余项目的副产品。不定期更新。只删词,不加词。

可用于中文分词、人名识别。

中文常见人名(Chinese_Names_Corpus)

120万。从亿级人名语料中提取。删除了罕见姓氏、和带生僻字的人名。随机删除了部分名人姓名(一点点小私心)。清洗后仍存有少量badcase。

中文古代人名(Ancient_Names_Corpus)

25万。多个人名词典汇总。删除了罕见姓氏、和带生僻字的人名。清洗后仍存有少量badcase。

日文人名(Japanese_Names_Corpus)

18万。从维基百科中提取。删除了罕见姓氏、和带生僻字的人名。清洗后仍存有少量badcase,尤其是日文地名。

翻译人名(English_Cn_Name_Corpus)

48万。多个人名词典汇总。删除了翻译人名常用字之外的人名。混有少量西化中文人名,如“李伯恩”。清洗后仍存有少量badcase,尤其是英文地名。

中文姓氏(Chinese_Family_Name)

1千。从亿级人名语料中提取。删除了罕见姓氏,复姓只保留了“欧阳”。

中文称呼(Chinese_Relationship)

5千。称呼词根。多个人名词典汇总。删除了部分带贬义的称呼。 18万。中文称呼。多个人名词典汇总。清洗后仍存有大量badcase。

成语词典(ChengYu_Corpus)

5万。多个成语词典汇总。清洗后仍存有少量badcase。


更新时间:

更早的提交,不记得时间了。

删除了1000余非人名。 -2017.08.08

删除了5000余非人名。 -2017.11.25

新增了18万日文人名。 -2017.12.17


@思南斋 整理

2017.12.17

About

中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。

Resources

License

Stars

Watchers

Forks

Packages

No packages published