服务器之家:专注于服务器技术及软件下载分享
分类导航

免费vps|免费空间|免费域名|

服务器之家 - 新闻资讯 - 免费资源 - 免费空间 - 包含OCR基准测试集的免费资源

包含OCR基准测试集的免费资源

2023-05-09 20:01未知服务器之家 免费空间

我想为扫描文本(通常是任何扫描,即A4)进行OCR基准测试.我能在这里找到一些NEOCR数据集,但NEOCR并不是我想要的. 我希望链接到具有适当图像的免费数据库源和引用的实际文本(包含在图像中). 我希望这个线程对其他人进行OCR冲浪数据

我想为扫描文本(通常是任何扫描,即A4)进行OCR基准测试.我能在这里找到一些NEOCR数据集,但NEOCR并不是我想要的.

我希望链接到具有适当图像的免费数据库源和引用的实际文本(包含在图像中).

我希望这个线程对其他人进行OCR冲浪数据集也很有用,因为我没有找到任何对这些数据源的良好引用.

谢谢!



1> Grokify..:

我很幸运在许多项目中使用大学研究数据集.这些通常很有用,因为需要发布输入和预期结果以独立地重现研究结果.一个例子是下面讨论的第四次OCR准确度年度测试的UNLV数据集.

另一种方法是从数据集开始并创建自己的训练集.与Gutenberg项目合作也是值得的,该项目已经转录了57,136本书.您可以使用HTML版本(带图像)并使用各种变换(如字体,旋转等)将其打印出来.然后您可以转换图像并扫描它们以与文本版本进行比较.请参阅下面的示例.

1)OCR准确度年度测试DOE和UNLV

UNLV的能源部(DOE)和信息科学研究所(ISRI)从1992年到1995年进行了5年的OCR测试.您可以在这里找到每年的研究描述:

概述:http://www.expervision.com/testimonial-world-leading-and-champion-ocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe-university-of-内华达州拉斯维加斯,拉斯维加斯,内华达大学拉斯维加斯分校

1.1)UNLV Tesseract OCR测试数据发表在第四次OCR准确度年度测试中

使用Tesseract进行第四次年度测试的数据在线发布.由于这是一项OCR研究,它可能适合您的目的.

此数据现在作为Google代码上发布的UNLV OCR评估工具项目的ISRI的一部分进行托管:

项目:http://www.zzvips.com/uploads/allimg/c4a3ry3d3in

图像和地面真相文本和区域文件,用于1992年至1996年期间UNLV/ISRI年度OCR准确度测试中使用的数千个英语和一些西班牙语页面.

在UNLV/ISRI OCR准确度年度测试中使用的OCR评估工具的源代码.

UNLV信息科学研究所的出版物适用于OCR和文本检索.

您可以在此处找到有关此数据集的信息:

说明:http://www.zzvips.com/uploads/allimg/i5nsjb4pkw5

数据集:http://www.zzvips.com/uploads/allimg/rvfaaqimzcn

在数据集链接中,您可以找到许多可以下载的gziped tarball.在每个tarball中都有许多带有一组文件的目录.每个文档有3个文件:

.tif 二进制图像文件

.txt 文本文件

.uzn 区域文件,用于描述扫描图像

注意:发布时,我注意到这个数据集最初发布在@Stef上面的评论中.

2)古腾堡项目

古腾堡计划以下列格式转录了57,136本免费电子书:

HTML

EPUB(带图片)

EPUB(无图像)

Kindle(带图片)

Kindle(没有图像)

纯文本UTF-8

以下是一个例子:http://www.gutenberg.org/ebooks/766

您可以通过执行以下操作来创建测试数据集:

创建测试文件:

    从HTML,ePub,Kindle或纯文本版本开始

    使用不同的字体,旋转,背景颜色,有和没有图像等渲染和变换.

    将渲染转换为所需的格式,例如TIFF,PDF等.

测试:

    通过OCR系统运行生成的图像

    与原始纯文本版本比较


延伸 · 阅读

精彩推荐