大数据,大数据,几乎所有的企业都在提大数据。
问题是,大数据涉及哪些核心技术?底层平台经历了哪些重要发展阶段?对于刚接触大数据的“新兵”来说,如何简化开发、诊断和运维过程,从调整代码、修改参数、重跑、等待、看日志、停掉作业等重复、复杂的工作中解脱出来,提升工作效率?如何在快速构建数据应用的同时,还能充分享受到低成本优势……
本期创业访谈,我们有幸邀请到跑象科技CEO 卢山巍,向我们具体分享了在大数据领域“摸爬滚打”的一些经验和看法。在他看来,企数据化建设如果是零基础,应该先从一两个业务场景切入,或者从需求痛点出发,以解决具体问题为核心点,待完成数据化体系的初步搭建工作、积累一些成功经验后,再将这种模式复制到其他的场景中,从而逐步搭建起企业的大数据体系。
以下为采访实录:
问题 1:卢总,您好!很荣幸有机会采访您,先简单介绍一下您自己?
您好,我也很荣幸。我也算是大数据领域的老兵了,在Hadoop/MapReduce/Storm时代就在eBay从事批量数据处理和实时数据处理的相关开发工具和数据质量工具的研发和应用,后来加入宜信,带着团队研发了四大开源项目,并于2017年9月在GitHub上开源(DBus、Wormhole、Moonbox、Davinci),之后主导宜信统一数据中台的建设工作。我一直对大数据基础平台研发、实时数据处理技术、现代数仓建设、数据中台建设和大数据应用平民化等课题有着深厚兴趣并持续思考,在2020年底有幸获得资本的认可,成立了“跑象科技”企业服务公司,主创团队来自四大开源平台核心人员。
“跑象”的寓意是奔跑的大数据,创业的初衷是为了能够继续在现代实时数据技术和数据应用上深耕,希望可以运用我们的技术帮助企业进一步发挥大数据的价值。
问题 2:您于2020年底创立了跑象科技,在此之前在宜信和eBay都工作过,请问是基于怎样一种考虑或者契机促使您做的这个决定?
多年的IT从业经历,让我意识到自己的热爱与擅长,我是一个本质导向思维方式的人,善于将表象抽象提炼,然后再反向发散创新。反观近20年的工作经验,基本上都是围绕工具、框架、平台、通用技术产品等展开的,所以我更愿意称自己为“技术产品架构师”。eBay的工作经历,让我窥探到了大数据的魅力,职业方向也在此时定了下来;在宜信的5年经历,让我找到了尽情发挥大数据技术工具创造和设计想法的土壤。回顾过往,很感谢在eBay和宜信的经历和积累,因为这让我找到了能将自我价值大化发挥的方向。跑象科技,是过往的积累和认知成熟落地的实体果实,我们在此基础上,针对数据应用工具的设计和研发做了更多扩展、改进、延伸和增强。
问题 3:您之前在宜信主要负责的工作是?跑象科技现在的主营业务是什么?跟您之前技术方向是否一致?
在宜信那段时期,我主要负责四大大数据开源平台的从到1,以及公司统一数据中台建设的从到1。如果说在宜信的创造是个和第二个小板凳,那么,跑象科技现在在做事情则是第三个甚至是第四个小板凳。跑象专注的大数据工具研发领域,和此前所做的四大开源项目,既是一脉相承,同时也可以说是推倒重来的,二者并不矛盾,我们认同精益求精,也认同重复的力量,应该这就是人们口中的工匠精神吧,跑象整个产研团队的气质都是这样,把复杂纠结留给自己,把灵活易用交给客户。
自创立以来,跑象科技致力于提供数据基础设施建设软件平台和大数据建设、大数据转型佳解决方案,解决企业用户数据应用构建过程中的痛点,尤其在实时化、可视化、应用化方面有着深刻的理解、认知和佳实践。
问题4: 当初为什么考虑进入大数据这个领域?
eBay的工作经历,让我接触并进入了大数据的领域。记得刚开始时,一个超大数据量的计算处理作业性能调优,我做了3个月,每天就是趴在电脑前调整代码、修改参数、重跑、等待、看日志、停掉作业、重复循环......后面,我意识到这样的开发流程过于繁琐,于是先旁路出来开发了一套ETL数据开发框架,以提速上述过程;然后再回到主线继续调优,随即我发现大数据数据质量的检测和修复,和IT业务系统开发完全不一样,没有现成的工具和经验可用,于是,我再开旁路开发了一套数据质量检测和诊断工具,解决快速定位逻辑和坏数据问题;然后再回到主线继续调优,尝试各种性能参数组合。有一次,我上面重复循环的这个工作拖垮了一整个大集群的正常运行,因此被一个印度大佬越洋电话训了一顿。就是在领导这种耐心(无奈)等待之下,我完成了个大数据项目的上线,3个月的时间,产出是1套ETL开发框架、1套大数据质量测试诊断工具,作业性能从3天跑完到3小时跑完。经历这一切之后,我领略到了大数据的黑魔法魅力,不知不觉间,我自己也成为了大数据的黑魔法师。
问题 5:目前大数据发展的问题有哪些?基于此我们怎么做的?
基于过往的职业经历,以及在开源社区运营的几年当中,与各类企业都有过深度交流,我们看到大数据的价值变现,不同企业所处的阶段是不同的。简单来说,随着企业数据建设的逐步开展和升级,企业数据能力会从到1(数仓建设)并开始朝向100(数据应用)进发。以数仓建设为主的企业,批量数仓、实时数仓自有其价值,但我认为,真正全面释放数据价值的形态应是百花齐放的数据应用,在这一点上,很多互联网企业已经提供了很好的案例和实践,相信传统企业和中小企业也会越来越重视数据应用的建设。跑象在做的事,就是为企业提供可以快速构建数据应用的工具和武器,我们相信,当一个领域的工具效率极大化,使用成本极低化,这个领域的创新力就会被释放并点燃,我们致力于推动这个进程。
问题6:企业大数据如何起步?
这是个比较大的话题,很多企业在数据化建设的过程中存在认知不足、技术陷阱、人才短缺、经验不足等问题。举个例子,如果企业在开始时,就投入大量的人力、财力、在缺乏试用验证的情况下,贸然上一个相对庞大的系统,很容易让企业陷入投资回报率未能达到预期的困境。企业的数据化建设,在零基础的情况下,建议先从一两个业务场景切入,或者从需求痛点出发,以解决具体问题为核心点,完成数据化体系的初步搭建工作,待积累一些成功经验后,再将这种模式复制到其他的场景中,从而逐步搭建起企业的大数据体系。这样一来,无论是在投入还是产出方面,都会更加有的放矢,这也是我们跑象秉承的理念。跑象在产品规划初期,就已充分考虑到企业现状和痛点,倾力打造产品矩阵而非单一平台,可以理解为我们每个产品都是可配置的,可单独使用,亦可组合使用,企业可以针对性选择产品来解决自身问题,也可组合使用完成企业端到端全链路数据加工。产品价格采用低门槛准入方式,以保证企业能够快速、低成本的搭建起自己的数据化体系。
问题 7:针对目前的数据量爆发式增长,对数据处理能力和时效性都有了更高的要求,我们是怎么应对的?
新问题总会有新技术来应对和解决,但随之而来也会带来一定的副作用。站在客户企业角度,新技术的变迁会带来新的业务驱动力量,但也会带来新的学习成本和迁移成本。在跑象看来,我们的技术平台本身就具备中间件架构属性,对于平台产品的抽象和设计,可以让客户持续享受新技术带来的变革,还能有效提升客户的“技术变迁成本抗性”。这是基础平台本身的价值体现:让客户安心享受新技术带来的能力和价值。
问题9:基于您这些年的工作经验您觉未来大数据发展的趋势是什么?基于此我们准备怎么做?
以“黑客帝国”的角度看,数据是无处不在的,对数据的应用方式也是无穷无尽的。跑象希望可以一直保持大数据技术趋势和数据应用发展的敏感度,不断推出更多好用易用的数据工具,让企业和个人能够以前所未有的视角和方式与时代共进。
问题10:后,您对技术人员未来职业路线选择是否有一些好的意见和建议?
我个人并不觉得自己是个成功案例,好听点说算是大器晚(未)成,如果时间可以重来,我希望可以更早的形成自我认知,迈出事业脚步。所以我希望每个人能够在时代的快速变迁中尽早找到自己的定位,自己的热爱,并为之全力以赴。