HCL2000 数据集预处理

一个很简单的小脚本,主要作用是将 .hcl 解析为 .jpg 文件。

数据集介绍

HCL2000 面向 GB2312-80 一级汉字,包含 3755x1300 个手写汉字样本和 1300 个书写者的个人信息。

.hcl 为二进制文件,首部有一个 512 字节大小的文件头,用来存放书写者标识(PID)、水平和垂直方向扫描的精度、整个文件的大小等信息。每个汉字样本用 64x64 个二值像素描述,占用 512 个字节。

详细内容可以参考这篇论文《一个新的脱机手写汉字数据库模型及其应用》

依赖

  • numpy
  • skimage
  • tqdm

使用

  1. 下载本项目,给出 git 下载示例;

    git clone https://github.com/Zeroto521/HCL2000_data_process.git

  2. 切换到项目文件夹内;

    cd HCL2000_data_process

  3. 安装依赖;

    pip install -r requirements.txt

  4. 下载 HCL2000 数据集;

  5. 移动 hcl2000 到本项目 data/hcl 文件夹内;

  6. 运行脚本;

    python script.py

script.py 脚本中仅给出了解析单个 hh001.hcl 文件示例。 更多细节请参考 script.py

项目主页

https://github.com/Zeroto521/HCL2000_data_process

参考