剑眉星目

验证码数据

“机器学习”属于“人工智能”的一部分，“人工智能”分开来讲，先有“人工”，后有“智能”，目前的人工智能发展水平还处在“弱人工智能”的阶段，简称“弱智阶段”，所以“人工”部分是必不可少的，现在还不存在不需要“人工”的“智能”。

“机器学习”按照字面意思讲，就是机器自主的进行学习，那么问题来了，机器需要学习的模板从哪里来？好比我们读书，总得要有课本，否则我们按照什么内容学习呢，这个问题的答案就是“人工标注”。

“人工标注”：即人工对一定数量的数据进行标注。此过程也是“机器学习”整个流程中最耗费人力、最耗费时间的一步。

“数据标注”：将验证码的字符内容命名为当前验证码图片的文件名称。

20201118230715

!> 注意：网站提供验证码各式各样，则需要针对该网站的验证码接口多次访问，获得一定量的验证码图片，然后人工对验证码图片进行标注。

上图的验证码是脚本自动生成，下面直接给出代码。

python

# captcha_gen.py文件
import random
import numpy as np
from PIL import Image
from captcha.image import ImageCaptcha


NUMBER = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
LOW_CASE = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u',
            'v', 'w', 'x', 'y', 'z']
UP_CASE = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U',
           'V', 'W', 'X', 'Y', 'Z']

CAPTCHA_LIST = NUMBER + LOW_CASE + UP_CASE
CAPTCHA_LEN = 4         # 验证码长度
CAPTCHA_HEIGHT = 60     # 验证码高度
CAPTCHA_WIDTH = 160     # 验证码宽度


def random_captcha_text(char_set=CAPTCHA_LIST, captcha_size=CAPTCHA_LEN):
    """
    随机生成定长字符串
    :param char_set: 备选字符串列表
    :param captcha_size: 字符串长度
    :return: 字符串
    """
    captcha_text = [random.choice(char_set) for _ in range(captcha_size)]
    return ''.join(captcha_text)


def gen_captcha_text_and_image(width=CAPTCHA_WIDTH, height=CAPTCHA_HEIGHT, save=None):
    """
    生成随机验证码
    :param width: 验证码图片宽度
    :param height: 验证码图片高度
    :param save: 是否保存（None）
    :return: 验证码字符串，验证码图像np数组
    """
    image = ImageCaptcha(width=width, height=height)
    # 验证码文本
    captcha_text = random_captcha_text()
    captcha = image.generate(captcha_text)
    # 保存
    if save:
        image.write(captcha_text, './img/' + captcha_text + '.jpg')
    captcha_image = Image.open(captcha)
    # 转化为np数组
    captcha_image = np.array(captcha_image)
    return captcha_text, captcha_image


if __name__ == '__main__':
    # 生成验证码数量999
    for _ in range(1, 1000):
        t, im = gen_captcha_text_and_image(save=True)
        print(t, im.shape)      # (60, 160, 3)

归纳总结

我们在使用深度学习时会有很多优势，例如图像识别，在很多时候会碰到背景比较复杂的图片，这时候很多传统机器学习或算法（例如，KNN 算法）就容易失效，为了去除噪声提升图片质量，可能需要做大量的工作还不一定能成功，而且数据标注难度极大。而深度学习的话，不用关心噪声，直接把样本丢进去学习，最后神经网络反馈的效果大多会比较好并且具有一定的抗噪能力。

“机器学习”的大体流程就是：人工对一定量的数据进行标注，机器再通过人工标注后的数据进行学习，最后达到智能化识别的过程。一般来说，数据标注的越精准，学习的数据量越多，机器智能化识别的程度就越高。

优点：

可以智能化识别复杂的验证码。
不仅限于验证码，还可以识别其他的物品。

缺点：

前期需要大量人工标注数据，费时费力。
机器学习对机器设备的硬件要求较高。
当验证码的大小、形状和生成方式发生大的改变时，需要重新学习。

最后如果想要精进验证码这一块，请学习《深度》章节。

验证码数据 ​

归纳总结 ​

验证码数据

归纳总结