文字 深度学习数据集 手写数字和英文字符,数据集包含5个CSV文件datasetphanum、datasetchars、datasettemnist和datasetmnist,分别包括字母数字、字母、emnist手写字母和数字。datasetfinal是包含上述所有数据集的合并文件。图像的灰度为(28,28),存储在数据集的784列中。最后一列包含标签。
文字 深度学习数据集 古波斯语楔形文字字体数据集,选择了开源的Tesseract引擎进行字符的分割、学习和分类。由于铭文中存在噪声(石缝),本文采用了一些图像处理技术来消除噪声。该系统的最终输出包括楔形字体的提取,句子的波斯语和英语的抄写,句子的发音和翻译大量提取的波斯语和英语单词,使我们更好地了解他们在那个时代的说话方式。通过验证和结果切片获得的结果表明,该系统能够较好地处理楔形文字的识别,对测试数据的所有字符进行了较好的分类,准确率约为92%。
文字 深度学习数据集 发票信息识别数据集,数据集由XML文件和图像组成。XML文件包含从发票图像中提取的数据,为了清晰起见,文本和XML文件的名称保持相同。数据集的用户应该提取发票号、发票数据、公司名称(从公司1到公司2的发票)、公司电话号码、地址等实体