马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。为什么很多创新思想来自跨界,首先是没有利益牵挂约束,其次是没有思想禁锢。下面是Google在超融合中的2个主要的创新思想。一、不要RAID 谷歌在2003年时候,在其GFS的设计中提出了不要RAID的思想,我听到这一思想的时候已经是2007年的时候,大吃一惊。存储第一课就是RAID 0/1/2/3/4/5,这是存储界认为经过20年研究天经地义的事情,就像牛顿第一定律。10年前的Google在大家心目中只是一家搜索引擎公司,远没有现在的江湖地位。差钱饭后我们讨论了一番,觉得30%的磁盘利用率这一致命死穴就没戏。随着这几年Hadoop的HDFS、OpenStack的Ceph都采用了Google的思想“不用RAID”后,我好好思考一番后,不仅拍案称奇。 RAID有什么问题,消灭RAID有什么好处?
1. RAID难以实现软件定义 RAID往往需要专用硬件,写缓存要电池/电容保护,同时通过高速通道镜像保护,这是传统存储的设计思路,最后演变成专用设备。 消灭RAID后,软件直接操作硬盘,数据保护直接COPY就好了,跨服务器的数据保护实现很简单。 2. RAID的数据重构是大问题 做存储都是RAID的数据重构是问题,因为要把包括校验数据在内的所有Data读出来,然后拿CPU去算。硬盘在一个设备内已经时间很长了,通过网络重构时间基本是不可忍受的。网络RAID?现在看来还处于“呵呵”阶段,也就是用来售前打单而已。 消灭RAID后,磁盘损坏,指针直接指向备份数据即好,因此HyperFlex的磁盘损坏下的数据重构时间是<1分钟。同时慢慢恢复拷贝,而且还不用读整个磁盘,有多少数据读多少,软件都知道。
二、Log Structured文件系统
传统文件系统叫“Journaling File System”,从有文件系统开始,也好几十年历史,中间也进行过很多改进,包括引进Checkpoint。谷歌创新的叫“Log Structured File System”,中文都可以叫日志型文件系统!顶你个肺,我花了很多年还是用不好“at、in、on”一样,大家只需要知道此日志非彼日志就好了。 Google的Log Structured基本思路有3点: 用表(Table)而不是树(Tree)来管理指针,这样的好处是解决数据量大以后指针的搜索效率急剧下降的的问题。 日志里面不带数据, 数据直接落盘,这样数据写就1次,而传统方式是2次,解决SSD的写寿命问题。 对压缩友好,这点我琢磨半天没搞明白,谁搞明白我请他吃饭。
LogStructured牵扯到非常深的数据结构知识,大学时候数据结构学的就一般,到今天也大部分都还给学校了,因此这块也就半瓶子醋:知其然而不知其所以然,所以只能抛砖引玉大家探讨吧,就像重新回到青葱的大学时代。 三、题外话:为何又是Google 现在小到个人、中到公司、大到国家,都在喊创新、跨界、转型。但只有Google做到了从搜索到操作系统,从软件到硬件,从电脑到手机,从IT到AI,每到一处都是惊天动地。有人说Deepmind是买的,Android是买的,机器人是买的,但为啥别人总买对的,我们总买贵的呢? |