紫金老三的准硕士研究生,找份家教还是不难的。然后就可以坐在空调间里,靠着一张嘴巴拉巴拉就把钱挣了。
很无奈,林远眼下还是只得捡起了他黄色的“王冠”。他打开了房门,然后保持了这个动作约摸十秒钟。林远终究是没有迈出去。
‘我不能被一份通知书制约嘛,不就是一张纸嘛。有它没它我都将是紫金航院的硕士研究生。不如。。。’
林远坐到了电脑前,用搜索引擎开始了检索--图片搜索:紫金航校计算系研究生的入学通知书。
很快,蓝底的硕士入学通知书图片映入眼帘。
不愧是航校,连入学通知书都是蓝天的颜色。
林远忍不住幻想自己接到入学通知书的那一刻,想想就很激动。
但是,此时他先需要手搓一份。
暑假很快就要到了,家教的黄金季节就要来了。林远已经脑补完成了自己的家教简历,就差这一张录取通知书。
录取通知书不是印钞,林远想来应该随便找家广告公司应该就能够打印出来。不就是一张彩印的硬质卡片嘛。
问题就在于电子版的录取通知书不好搞。
网上是可以找到很多相关的图片,在那些图片上用ps改个名字和照片也是很容易的事情。但问题是,如果要追求逼真的话,那录取通知书的色彩以及尺寸还是得尽量准确。
但想从网上检索到的图片中获取通知书各个部位的色彩色号,以及大小尺寸,这并非是一件简单的事情。
首先,哪怕是同一张通知书,不同的人在不同的时候用不同的手机摄像头,都会拍出不同的色号来。
其次,想从图片里面还原出通知书实际的尺寸,也是要费一点功夫的。
林远随后打开了pycharm,他准备用python祭起爬虫脚本。
学好数理化,走遍天下都不怕。
你看,这个时候就用到了。
为了解决色号的问题,林远打算用爬虫脚本来大批量爬取网上的紫金航校研究生录取通知书图片。然后综合汇总之后做个筛选,再取个平均值。
筛选是必须的。因为这年头拍照用美颜太普遍了,鬼知道会把实物的色号改的如何面目全非。
至于什么是“色号”。顾名思义:就是标识每一种色彩的编号,相当于颜色的身份证。
由于计算机世界的一切数据都是数字,那颜色自然也就不例外。最常见的颜色定义格式就是rgb三基色,r(red)、g(green)、b(blue)红绿蓝三基色可以调制出各种不同颜色。
当然,除此之外还有cmyk、hsb等等。但在计算机世界中,还是rgb格式使用更广。
这个级别的爬虫并不难写。林远只需要爬取某度搜索引擎的搜索结果,然后从中摘取出图片,再通过ocr字符识别过滤一遍,把带有紫金航校研究生录取通知书字样的图片挑选出来。
接着来一个目标识别--将图片中的录取通知书所在区域抠图抠出来。然后再做一份数字图像直方图,就是把录取通知书图片中每种色号做个统计。
接下去再对统计结果做一个排布。就好比跳水比赛的打分,去掉最高分和最低分,取个中间值即可。
这种方式相对简单,其实就是筛选出中间值。
但是这个过程还是涉及了一些计算机和数字图像处理方面的内容,好在如今这个年代得益于摩尔定律的强大推动,计算性能的天板被一再突破,计算机科学与ai技术发展飞快。
20年前在大型实验室里才能尝试的图像目标识别,如今仅凭一台古董级别的t440就能运行。
当然,这并非是图像目标识别这件事情简单,而是在无数的人开源贡献之下,让这项技术使用起来变得简单。
(本章完)