Skip to content

验证码数据

“机器学习”属于“人工智能”的一部分,“人工智能”分开来讲,先有“人工”,后有“智能”,目前的人工智能发展水平还处在“弱人工智能”的阶段,简称“弱智阶段”,所以“人工”部分是必不可少的,现在还不存在不需要“人工”的“智能”。

“机器学习”按照字面意思讲,就是机器自主的进行学习,那么问题来了,机器需要学习的模板从哪里来?好比我们读书,总得要有课本,否则我们按照什么内容学习呢,这个问题的答案就是“人工标注”。

“人工标注”:即人工对一定数量的数据进行标注。此过程也是“机器学习”整个流程中最耗费人力、最耗费时间的一步。

“数据标注”:将验证码的字符内容命名为当前验证码图片的文件名称。

20201118230715

!> 注意:网站提供验证码各式各样,则需要针对该网站的验证码接口多次访问,获得一定量的验证码图片,然后人工对验证码图片进行标注。

上图的验证码是脚本自动生成,下面直接给出代码。

python
# captcha_gen.py文件
import random
import numpy as np
from PIL import Image
from captcha.image import ImageCaptcha


NUMBER = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
LOW_CASE = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u',
            'v', 'w', 'x', 'y', 'z']
UP_CASE = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U',
           'V', 'W', 'X', 'Y', 'Z']

CAPTCHA_LIST = NUMBER + LOW_CASE + UP_CASE
CAPTCHA_LEN = 4         # 验证码长度
CAPTCHA_HEIGHT = 60     # 验证码高度
CAPTCHA_WIDTH = 160     # 验证码宽度


def random_captcha_text(char_set=CAPTCHA_LIST, captcha_size=CAPTCHA_LEN):
    """
    随机生成定长字符串
    :param char_set: 备选字符串列表
    :param captcha_size: 字符串长度
    :return: 字符串
    """
    captcha_text = [random.choice(char_set) for _ in range(captcha_size)]
    return ''.join(captcha_text)


def gen_captcha_text_and_image(width=CAPTCHA_WIDTH, height=CAPTCHA_HEIGHT, save=None):
    """
    生成随机验证码
    :param width: 验证码图片宽度
    :param height: 验证码图片高度
    :param save: 是否保存(None)
    :return: 验证码字符串,验证码图像np数组
    """
    image = ImageCaptcha(width=width, height=height)
    # 验证码文本
    captcha_text = random_captcha_text()
    captcha = image.generate(captcha_text)
    # 保存
    if save:
        image.write(captcha_text, './img/' + captcha_text + '.jpg')
    captcha_image = Image.open(captcha)
    # 转化为np数组
    captcha_image = np.array(captcha_image)
    return captcha_text, captcha_image


if __name__ == '__main__':
    # 生成验证码数量999
    for _ in range(1, 1000):
        t, im = gen_captcha_text_and_image(save=True)
        print(t, im.shape)      # (60, 160, 3)

归纳总结

我们在使用深度学习时会有很多优势,例如图像识别,在很多时候会碰到背景比较复杂的图片,这时候很多传统机器学习或算法(例如,KNN 算法)就容易失效,为了去除噪声提升图片质量,可能需要做大量的工作还不一定能成功,而且数据标注难度极大。而深度学习的话,不用关心噪声,直接把样本丢进去学习,最后神经网络反馈的效果大多会比较好并且具有一定的抗噪能力。

“机器学习”的大体流程就是:人工对一定量的数据进行标注,机器再通过人工标注后的数据进行学习,最后达到智能化识别的过程。一般来说,数据标注的越精准,学习的数据量越多,机器智能化识别的程度就越高。

优点:

  1. 可以智能化识别复杂的验证码。
  2. 不仅限于验证码,还可以识别其他的物品。

缺点:

  1. 前期需要大量人工标注数据,费时费力。
  2. 机器学习对机器设备的硬件要求较高。
  3. 当验证码的大小、形状和生成方式发生大的改变时,需要重新学习。

最后如果想要精进验证码这一块,请学习《深度》章节。