(ps:切掉的新书已更新过章节内容不可能放这本,没那么丧心病狂,只是搜索引擎名字引用了“灵境搜索”,因为想了几个名字都觉得没这个合适,现在人工智能和gpt那么热,正好2013年是生物识别技术和神经网络开始爆发的年头,本来ai的剧情就是从本书大纲挪过去,不在本书展开,新书嘎了,那边也还没展开,所以调整回来,但已经更新了的章节内容是绝对不会发第二次。)
——
陈宇说到这里顺手关掉了会议大屏幕的ppt,转而看向众人说:“ai语言大模型的建构,后面的一大工作重点就是数据投喂,底层算法架构虽然不是基于自然语言处理nlp,但毫无疑问也受其影响,接下来的数据投喂首先是把互联网上已有的公开数据截止2012年之前产生的存量数据信息都给我爬一遍,国内国外的都要爬。”
这等于是白嫖全人类千百年来所积累的绝大部分知识。
一位与会的工程师询问道:“每天大约要爬取多少数据量?”
陈宇言简意赅:“5个pb左右。”
5个pb?
众人都是一阵惊愕,5个pb的数据量换算一下就是500多万gb的数据量,互联网巨头谷歌在2008年每天处理的数据量大约是20个pb左右,相当于是其四分之一的数据处理量。
这是一项大工程,而且超级消耗算力资源,换句话说就是烧钱啊,光是网费就要一大笔开支。
陈宇转而说道:“此外,叟狗搜索开发新版本大更新,新版本推出之后更名为灵境搜索,等到用户完全适应习惯了,叟狗搜索这个名字就弃掉。”
新版本上线初期,叟狗搜索的名字还是会保留的,用户若是输入叟狗搜索引擎的时候会跳转显示为灵境搜索,并且要有标记这是改名后的叟狗搜索。
告诉老用户,叟狗还是那个叟狗,名字改了而已。
现在肯定不能直接用灵境搜索这个名字,那会丢掉好多老用户,叟狗这个名字还是需要保持一段时间的,等灵境搜索的知名度和影响力覆盖了叟狗就可以彻底放弃这个名字。
此时此刻,旁听的方鸿翘着个二郎腿一言不发的听着。
陈宇继续道:“对于新版本灵境搜索,简而言之就是,更简洁、更精准、更舒适。灵境gpt成熟的那天便会接入灵境搜索,这是颠覆当代搜索引擎的一大重要倚仗。”
“也许颠覆百渡乃至谷歌的可能不是灵境搜索,但毫无疑问的是,ai技术的进步必然会改变人们访问信息的方式。”
“而我所想象的方式是,浏览器的搜索栏被人ai取代,在我输入时,ai会自动完成我的想法或问题,同时给我提供最佳答桉,这个答桉可能是一个网站或产品的链接,ai用旧的搜索引擎后端来收集相关信息和连接,然后为我汇总。”
“这种颠覆方式就在于像是让一个专业的研究人员来做这项工作,只不过ai会立刻完成,而人类需要花费数分钟乃至更久才能完成。”
用户自己去搜索内容的时候,还得去筛选、寻找,有时候非常耗时,而如果有ai的帮助就不一样了,直接问ai即可,它马上秒秒钟就给用户提供最佳答桉。
想要达到这种效果,那就需要超级庞大的算力资源,以及ai足够“聪明”或者说能够更加精准的理解人类的“语言”才能提供精准的答桉。
显而易见,首先就需要让ai把人类千百年来积累的知识都掌握了。
先去把那些数据爬一遍再说,这是能够针对任何用户提出的任何问题并快速给出精准答桉的前置条件之一。