人生差不多也是如此,不问损耗,不问代价,不考虑复杂度,只要结果。
等他又清洗完一批数据后,咎因进来,将一个黄皮的横翻便签样本子放凌壹桌上,道:“回姐叫我带给你,她赶着下班先走了。”
“嗯”
凌壹盯着屏幕上的缺失值分析,没看是什么,咎因回到座位,继续说:“回姐说工作比较急,没事叫我们两个加加班,三倍工资,你明后天有事吗?”
“没有。”
“那正好,我也没有。”
凌壹这才翻开那个便签本子,发现里面是支票页,看厚度,大概十来二十张。
他以前没有在现实中接触过这种东西,既不知道格式也不知道怎么填写,想着暂时也用不上,合上封面先装进了自己包里。
“公司有宿舍吗?”
凌壹问。
“有,酒店式的,随时都能住。”
“那正好,我不用回去了。”
“不是吧,也不用这么卷。”
他从包里拿出个降噪耳机,彻底隔绝掉外界杂音,一连听了三四天机箱里嗡鸣。
环境是差了点,不如自己床上,但是Genesis不许把东西带走,也没办法。
一个数据在算法里的一生,也和冒泡差不多,从杂乱到清晰,逐渐浮起。
首先是分类,有固定格式和模式的,属于结构化数据,直接给标,没有的,按编码排序。
然后将有了统一标准的的数据丢进储仓,也就是数据库,根据数据的种类,大小,用途,放在仓储的不同位置。
这一步,必须具备良好的数据分析能力,因为在放置的时候,要确保可以快速有效的找到任意单个数据在哪,并且该数据的关联信息也要立马回应。
例如一个人的姓名是单个数据,那该数据的关联信息包括身高,性别,年龄,体重等等。
在互联网上用户在查姓名时,基本信息会随即展示出来,就是这个原理。
在味觉的应用中,牙齿的触感要比舌头高一个优先级。
现在的草莓品种都很大,人都是门牙咬一口,随后才碰到舌头。
但是在后续咀嚼中,两种触感是有交错级和同级的,既可能是牙齿碰到,也可能是舌头,还可能同时碰到。
他丢了两片口香糖在嘴里,模拟着咬合行为,将赵兰琴给上的数据表格一一编码。
接着是去除一些重复值,避免该数据占比过大影响权重、然后是缺失值,设定一条填补规则,可以取相邻数,可以取平均数,这个要根据数据类来推断。
();() 然后核对格式和检测有无异常值,确保质量和一致性,写好的分析软件里,最后正式应用到算法。
“我这处理完了,你那怎么样。”
请关闭浏览器阅读模式后查看本章节,否则将出现无法翻页或章节内容丢失等现象。