第25章数据采集的困难_学霸的算力系统

底层原理的优势反馈到上层应用上常常会产生指数级的差别。数据采集的道理就是如此。

手动采集就像手动驾驶一样，一个人只能应付一个数据节点。可自动采集的话，一个人就能应付n个数据节点。

如果真让林远去手动采集数据，那外卖算法优化这个项目就不用做了。因为他无论如何也不可能每天蹲在所有商家的门口，以及坐在所有骑手们小电驴的后座上，不停地记录他们产生的数据。

科学法则就是如此。当你的目光只看到一辆车的时候，你并不觉得自动驾驶和手动驾驶差别多大。可是将视野投射出去，涵盖无数辆车的时候，巨大的差距就体现出来了。

这也是那么多科技大公司心甘情愿烧巨资押宝自动驾驶的原因之一。

不过这是题外话了，林远这时候站在清晨的微风中。空气中逐渐上升的气温就像他此时慢慢焦灼的心情。

真正走上it这条路后，林远渐渐有了两个最大的感悟。

一个是遇到问题必须习惯性地去探究，抓住问题的本质。二是真正明白了方向的重要。

这两点并非是空话。

林远并没有因为失落而绝望，他开始仔细分析系统数据途径的特点。试图去抓住问题的本质。

算力系统可以轻松获取好团公司从后台导出的已经采集好的外卖数据，并且对数据总量大小无感，再大的数据也能很快载入。那也就是说：系统更加关心的是数据的形式。

那些被采集好的外卖数据也并非是最终可被ai模型执行的向量形态。

外卖数据一般是这样：某年某月，张三在a地接到订单(编号：order123)，然后去商家所在的b地，了多少时间等餐，之后再走什么样的路径什么时间送到客户所在的c地。

这样的数据是不可能直接丢给现实世界的ai模型去计算的，特么的ai指的是ai最终生产出来的那个玩意儿，又不是指生产ai的玩意儿本身就是个ai。

这一点是很反普通人的常识的——ai其实就是算法，而ai算法是被生产制造出来的，而这个生产制造的过程却一点也不ai。

这就好比你给地里的瓜果浇大粪，地里就能长出好吃的瓜果一样。瓜果好吃，但浇下去的那玩意儿显然不能吃。

但是，这仅仅是对现实世界的ai模型来说。算力系统却并非如此，算力系统直接就可以载入这些未经处理的数据进行计算。

现实世界的ai模型在计算之前，通常的做法是：把这些外卖数据处理成矩阵向量。

ai模型是冰冷的，它才不管你丢给它的数据是什么意思，反正在它眼里都是矩阵向量。于是外卖数据就需要先被转化为：[-1，23，321，.]这种冰冷的数字。

这些数字代表了真实的外卖数据。比如：某条外卖订单配送时的天气是大晴天，那矩阵向量中的某一个参数可能就会用数字“1”来表示，进而用数字“0”来表示阴天。

但算力系统则不同，林远之前测试过。外卖的数据根本不需要经过预处理，直接让系统载入也能处理。貌似系统自身就可以进行数据预处理。

这倒是符合系统的尿性--毕竟这系统就像一台可以按需改变自己硬件参数的活的电脑。

于是林远自然而然想着从这一点上寻找突破口。

(本章完)

第25章 数据采集的困难（2 / 2）