奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试
战网验证码识别库 战网验证码识别 如何识别战网验证码 如何自动识别战网验证码
上一篇文章,奇迹验证码少样本高精度验证测试。基于新浪微博验证码的测试
我们一般都是用标记正确的样本来训练,通常的想法是:样本标记的越正确,成功率越高,错误的越多,越影响识别率。
本测试的目的是:
验证一下,错误样本与可疑样本 能不能训练出80-90%的识别库?
可能对可能不对的,收集 了3万张左右,标记全部是错误的结果6500张,不能联网核对对错,又不想人工一个个的核对,怎样训练出识别率80-90%的识别库
如果能联网核对对错收集正确样本自然简单。我们说的是如果不能联网验证的时候,怎样区分他是对还是错
一种方法是人工一个个的核对,那样很慢但比较准
一种是根据初步识别的位数来判断
当然愿意人工一张一张标记成正确的,那是可以的
愿意去花钱打码也是可以的
或直接花钱买一个本地识别库也是可以的
一、随机下载3.7万张样本
https://www.battlenet.com.cn/login/captcha.jpg
二、把验证码分成2部分:“确认错误标记”+“可疑标记”
通过分析,正确的验证码一般长度是 7-9位的。
那么通过程序 ,可自动把1-6位。和10位或以上的标记答案 确认为“确认错误标记”以下简称【6500错误样本】
7-9位的标记为“可疑标记”
下面再把7-9位的合计3万张分为3份,每份1万张。
训练原理如下:
其实这里面重要的是2个分类
一个是完全正确的,一个是完全错误的
我们把可疑的正确的 里面的最 接近正确的分离出来,就成功了
再通过训练的初步识别库。来识别 刚刚6500张,
训练3个识别库 来,交叉验证一下结果
结果相同的分为一类,结果不相同的分类
如果识别库A,识别库B,和识别库C 来识别6500张完全错误的。识别的结果与之前的标记不同,且识别的位数是7-9位,那么这个很有可能就是正确的识别结果
如果用程序自动来处理,很快就分离出“正确”和“错误”的标记,再进一步修正错误的标记为 “更正确的”的标记
三、训练6500张图、训练1万张图、训练3万张图,分别跑15000步。
我先来训练一下这6500张图
如果想让这6500张里效果更好一些,可以人工标记几张图,
比如50-100张,也可以不标
这是完全错误的样本,竟然有60%,看看有没有一点点成功识别率。
效果还是可以的;
这是刚刚的可疑C 目录,1万样本,80%左右
这是全部的可疑样本 3万样本,15000 82%
四、实测3个模型库的识别率
经过实测,6500错误样本训练的识别库,实测成功率为83%
可疑C 目录,1万样本训练的识别库,实测成功率91%
全部的可疑样本 3万样本训练的识别库,实测成功率92%
样本分离、模型融合后,实测成功率98%
那么有的朋友要问了,为什么实测成功率比训练的成功率高?那是因为可疑样本中有一部分样本是标记错误的。
五、以上原始样本集标记用到自动标记工具,
验证码 样本批量下载 自动标注 万能英数验证码 识别库
战网验证码识别库 战网验证码识别 如何识别战网验证码 如何自动识别战网验证码
博客地址:https://blog.csdn.net/qq_41895190