裂缝分割常用数据集与开源资源概览

数据集

裂缝分割常用数据集与开源资源概览

梳理裂缝语义分割领域几类代表性公开数据与代码仓库:CrackSeg9k(大规模统一标注与基准)、DeepCrack(经典分层网络与配套二值标注数据)、以及 CT-CrackSeg(卷积–Transformer 与边界感知,文档含 Crack500 / DeepCrack 组织方式)。附获取方式、规模与使用许可要点,便于选型与复现实验。

2026-04-14 数据集
访问 评论

结构健康监测、道路与隧道巡检、材料无损检测等场景中,裂缝的像素级分割是高频需求。不同文献使用的数据与指标差异较大,直接对比模型往往困难。下面按三个常用开源入口,归纳各自背后的数据集特点、目录约定与引用方式,便于快速选型与下载。

一、CrackSeg9k:多源整合与统一评测基准

仓库Dhananjay42/crackseg9k

论文与数据:对应 ECCV 2022 Workshop 论文 CrackSeg9k: A Collection and Benchmark for Crack Segmentation Datasets and Frameworks。作者将多种既有裂缝数据统一标注与整理,并给出多种分割框架的复现实验代码(仓库内按模型分目录,如 DeepLab、SwinViT、pix2pix 等),另含 DINO 相关特征生成脚本。

数据规模与获取:公开数据约 9160 幅量级(故得名 CrackSeg9k),托管在 Harvard Dataverse(DOI:10.7910/DVN/EGIEBY)。因平台单包体积限制,完整集被拆为两个子目录发布;下载时请选用说明中的 V4 版本(截至仓库说明的更新节点),并同时解压两个子文件夹才能得到全量图像。

适用场景:需要跨表面类型(墙体、路面、玻璃等混合来源)、与论文中统一指标对齐的基准实验,或希望直接对比多种经典分割实现时,优先参考该仓库与数据说明。


二、DeepCrack:经典架构与配套二值标注集

仓库yhlleo/DeepCrack

论文DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation,Neurocomputing,2019。网络设计受 HED(Holistically-Nested Edge Detection)等思路启发,侧重多尺度、层次化特征用于裂缝分割。

数据布局(仓库内 dataset 目录):

子目录含义
train_img训练 RGB 图像
train_lab训练二值标注
test_img测试 RGB 图像
test_lab测试二值标注

数据为人工标注的多场景裂缝图像,整体规模约 537 张(常见划分:300 训练、237 测试,与后续工作 README 中的描述一致)。

许可注意:作者在 README 中明确,部分原图版权归作者方全部标注图版权归作者方;用途限制为非商业科研与教学。用于论文或产品前请仔细阅读仓库说明并按要求引用与申请。

适用场景:复现 DeepCrack 路线、作为中等规模二值分割基线,或与后续方法(如下文 CT-CrackSeg)在同一数据划分上对比。


三、CT-CrackSeg:卷积–Transformer 实现与数据组织参考

仓库HqiTao/CT-crackseg

论文:ICIP 2023,A Convolutional-Transformer Network for Crack Segmentation with Boundary Awareness(卷积与 Transformer 结合、边界感知)。仓库为 PyTorch 训练 / 评测脚本,依赖 config_crack.yml 等配置;并给出与 Crack500DeepCrack 两套公开数据对齐的目录树约定,便于直接改路径训练。

数据相关摘要(以 README 为准):

  • Crack500:手机采集的大图经裁剪与筛选后,形成训练 / 验证 / 测试子集(规模远大于原始 500 张大图,具体张数以官方发布包为准)。
  • DeepCrack:推荐整理为 train / testimagesmasks 的配对结构,与上节 DeepCrack 仓库的 train_img / train_lab 等可对应迁移。

仓库另提供预训练权重下载链接(Google Drive / 百度网盘等,以 README 当前版本为准)。代码仓库为 MIT 许可;底层数据集仍须遵守各自原始许可(尤其 DeepCrack 的非商业限制)。

适用场景:关注边界质量、Transformer 与 CNN 混合结构,或需要在 Crack500 + DeepCrack 上与论文表格对齐时,以该仓库为起点最省事。


四、横向对比(便于选型)

名称大致规模标注形式典型用途许可/注意
CrackSeg9k~9k 级,多源统一分割基准(见 Dataverse 说明)大规模基准、跨场景对比遵循 Dataverse 与论文引用
DeepCrack537 张量级二值 mask经典方法复现、中小规模实验非商业科研/教学,版权声明严格
Crack500 等(经 CT-CrackSeg 文档)以官方包为准图像–mask 对与 ICIP 论文实验对齐按 Crack500 官方条款使用

五、引用格式(摘自各仓库 README,使用时请以最新版为准)

CrackSeg9k 论文

@inproceedings{kulkarni2022crackseg9k,
  title={CrackSeg9k: a collection and benchmark for crack segmentation datasets and frameworks},
  author={Kulkarni, Shreyas and Singh, Shreyas and Balakrishnan, Dhananjay and Sharma, Siddharth and Devunuri, Saipraneeth and Korlapati, Sai Chowdeswara Rao},
  booktitle={European Conference on Computer Vision},
  pages={179--195},
  year={2022},
  organization={Springer}
}

CrackSeg9k 数据集(Dataverse)

@data{DVN/EGIEBY_2022,
  author = {Siddharth Sharma and Dhananjay Balakrishnan and Shreyas Kulkarni and Shreyas Singh and Saipraneeth Devunuri and Sai Chowdeswara Rao Korlapati},
  publisher = {Harvard Dataverse},
  title = {{Crackseg9k: A Collection of Crack Segmentation Datasets}},
  year = {2022},
  version = {V4},
  doi = {10.7910/DVN/EGIEBY},
  url = {https://doi.org/10.7910/DVN/EGIEBY}
}

DeepCrack 论文

@article{liu2019deepcrack,
  title={DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation},
  author={Liu, Yahui and Yao, Jian and Lu, Xiaohu and Xie, Renping and Li, Li},
  journal={Neurocomputing},
  volume={338},
  pages={139--153},
  year={2019},
  doi={10.1016/j.neucom.2019.01.036}
}

CT-CrackSeg 论文

@inproceedings{CTCrackSeg,
  title={A Convolutional-Transformer Network for Crack Segmentation with Boundary Awareness},
  author={Tao, Huaqi and Liu, Bingxi and Cui, Jinqiang and Zhang, Hong},
  booktitle={2023 IEEE International Conference on Image Processing (ICIP)},
  pages={86-90},
  year={2023},
  organization={IEEE}
}

结语

若目标是统一基准与可复现排行榜,优先跟进 CrackSeg9k 与 Dataverse V4 全量包;若侧重经典基线与非 Transformer 结构DeepCrack 的数据与论文仍极具参考价值;若需边界感知与 Conv–Transformer 实现CT-crackseg 的配置与数据树说明能显著减少预处理时间。实际工程落地前,务必再次核对各站点 README 中的下载链接、版本号与许可条款

评论区