evan.hong fda20c9f20 init 3 年之前
..
tools fda20c9f20 init 3 年之前
unihan fda20c9f20 init 3 年之前
.bumpversion.cfg fda20c9f20 init 3 年之前
.gitignore fda20c9f20 init 3 年之前
.python-version fda20c9f20 init 3 年之前
.travis.yml fda20c9f20 init 3 年之前
CHANGELOG.md fda20c9f20 init 3 年之前
GBK_PUA.txt fda20c9f20 init 3 年之前
LICENSE fda20c9f20 init 3 年之前
Makefile fda20c9f20 init 3 年之前
README.md fda20c9f20 init 3 年之前
kHanyuPinlu.txt fda20c9f20 init 3 年之前
kHanyuPinyin.txt fda20c9f20 init 3 年之前
kMandarin.txt fda20c9f20 init 3 年之前
kMandarin_8105.txt fda20c9f20 init 3 年之前
kMandarin_overwrite.txt fda20c9f20 init 3 年之前
kXHC1983.txt fda20c9f20 init 3 年之前
kanji.txt fda20c9f20 init 3 年之前
merge_unihan.py fda20c9f20 init 3 年之前
nonCJKUI.txt fda20c9f20 init 3 年之前
overwrite.txt fda20c9f20 init 3 年之前
pinyin.txt fda20c9f20 init 3 年之前
zdic.txt fda20c9f20 init 3 年之前

README.md

pinyin-data Build Status

汉字拼音数据。

数据介绍

拼音数据的格式:

{code point}: {pinyins}  # {hanzi} {comments}
  • # 开头的行是注释,行内 # 后面的字符也是注释
  • {pinyins} 中使用逗号分隔多个拼音
  • 示例:

    # 注释
    U+4E2D: zhōng,zhòng  # 中
    

Unihan Database 数据版本:

Date: 2020-02-18 18:27:33 GMT [JHJ]
Unicode version: 13.0.0

  • kHanyuPinyin.txt: Unihan DatabasekHanyuPinyin 部分的拼音数据(来源于《漢語大字典》的拼音数据)
  • kXHC1983.txt: Unihan DatabasekXHC1983 部分的拼音数据(来源于《现代汉语词典》的拼音数据)
  • kHanyuPinlu.txt: Unihan DatabasekHanyuPinlu 部分的拼音数据(来源于《現代漢語頻率詞典》的拼音数据)
  • kMandarin.txt: Unihan DatabasekMandarin 部分的拼音数据(普通话中最常用的一个读音。zh-CN 为主,如果 zh-CN 中没有则使用 zh-TW 中的拼音)
  • kMandarin_overwrite.txt: 手工纠正 kMandarin.txt 中有误的拼音数据(可以修改
  • GBK_PUA.txt: Private Use Area 中有拼音的汉字,参考 GB 18030 - 维基百科,自由的百科全书可以修改
  • nonCJKUI.txt: 不属于 CJK Unified Ideograph 但是却有拼音的字符(可以修改
  • kanji.txt: 日本自造汉字 的拼音数据 (可以修改
  • kMandarin_8105.txt: 《通用规范汉字表》(2013 年版)里 8105 个汉字最常用的一个读音 (可以修改)
  • overwrite.txt: 手工纠正的拼音数据(可以修改
  • pinyin.txt: 合并上述文件后的拼音数据
  • zdic.txt: 汉典网 的拼音数据(可以修改

参考资料

相关项目