。
初步测试软件,利用“自动搜索分析器”抓取信息,方然对AI的能力进行了评估。
将命名为ASA的软件上线到第三方服务器后,每天抽一点时间查看日志,一周后,方然验证了自己的预测。
人工智能自动抓取数据分析的能力,没有想象中那么强,排除服务器计算资源的限制后,总体上还是要比他自己来做慢得多,收集到的讯息杂乱无章,即便经过筛选,也很难汇总成有条理的报告供人阅读。
但这只是系统第一次上线的表现。
在这之后,随着机器学习的进行,盘踞在代码中的神经网络架构逐渐熟悉了操作流程,搜索的准确率和速度都在提升,不仅如此,此前在AIASG运行中观察到的现象,也出现在了ASA的行为模式里。
这也正是方然所需要的。
在网络上搜索、分析资料,做法,无非是截取数据并进行处理,这一点无论是人、还是程序来做,都只有速度和广泛度的区别。
但问题在于,面对互联网络上数以亿计的信息节点,数以万亿计的数据文件,乃至数以ZB(十万亿亿字节)计的数据,如此庞大的数据量,没可能不加选择的进行分析处理,究竟要如何取舍,就十分棘手。
面对这种规模的问题,人和计算机的思路,并不一致。
面对数据量超出分析能力的情形,人的解决办法,往往是借助自身的经验、和已经掌握的线索,进行通过率极低的初步筛查,把百分之九十九点九的信息来源都排除在外,接下来,在实施数据截取、系统侵入时,又会进行类似的筛选,把有限的时间精力集中到最有可能取得突破的方向。
这样做,说好听点是更有针对性,说实话则是面对海量数据的妥协。
譬如方然自己,之前调查“匿名者”的时候,虽然尽可能的多方面收集讯息,但,再怎样拓宽口径,也不会去侵入汉堡王的结账系统,或者窥探汽车零部件供应商的库存数据,因为这些与“匿名者”行踪八竿子打不着的数据,没有任何搜查的必要。
但人工智能却不这么认为:
凭借远超人类的处理能力,AI更倾向于采用“广种薄收”的策略。
每天查看ASA系统的分析报告,经过几个月的训练,方然认为这一系统已具备了实战能力,考虑再三,他又花费时间将核心代码内嵌到伯克利大学自然科学部的服务器里,以“学术数据搜集与分析系统”的名义来运作。
项目部署完毕,在秋天的伯克利,方然每天的日程就多了一项内容,基本上,不论在实验室还是在寝室里,他都会打开监视器,用旁观者的视角去审视ASA的行为,一来是扮演嗅探者的角色,评估这一系统、乃至隐藏于幕后的自己被发现的风险,二来也可以更客观的观察人工智能的数据搜集策略。
上线不久,“自动搜索与分析”系统的表现,就出乎了方然的意料。