作者 | 王耐
编辑 | 石亚琼(邮箱:syq@36kr.com)
**
为了服务企业的数字化转型,数据科学平台(Data Science and Machine Learning Platform,简称DSML)的服务商大量涌现,比如Databricks、Dataiku、Domino Data Lab、Alteryx等企业,其中Databricks被纳斯达克列为2022年最值得关注的IPO之一。
根据Gartner的调研,63%的企业计划加大在DSML方面的投入,这也是CIO优先级最高的品类。Gartner将DSML平台定义为核心产品和相关集成产品、组件、库和框架(包括专有、合作伙伴和开源)的支持产品组合。该平台还支持将数字化解决方案合并到实际业务流程、组织的基础架构及产品和应用程序中。简而言之,就是把集中的数据资源、技术能力和分散的业务团队、业务场景打通,让数据变成更有价值。
成立于2015年4月的和鲸科技(全称:上海和今信息科技有限公司)前身为数据竞赛平台科赛网,目前是一家专注于“数据科学协同平台”的数据智能科技公司和平台服务商,公司以“Connect People with Data”数据与人的价值链接”为使命。公司在近日还获得A 轮融资,由考拉基金领投,五源与线性跟投数千万人民币。
公司搭建的数据科学协同SaaS产品“ModelWhale”,可满足数据科学家、人工智能工程师、商业分析师等数据工作者在线完成算法建模、数据分析、数据可视化等任务,并支持私有化部署和云端协同,帮助企业、高校、科研机构、政府机构开展工业级数据科学与人工智能的应用研发。除此之外,公司还经营中国最大的数据科学开源社区——“和鲸社区”,帮助中国的企业和机构对接优质开源算法、开源数据、算法人才。
和鲸科技业务
和鲸最大的差异化,在于将协同能力的内核落实到数据应用的全流程中
数字化转型已是共识,业界讨论的重点也从“为什么数字化”,变成了“如何数字化”。埃森哲和工信部下属机构联合完成的《2021中国企业数字转型指数研究报告》(以下简称为《报告》)发现,中国企业数字转型指数从2018年的37分,已上升至2021年的54分。转型成效显著的领军企业达到16%,比去年提升了5个百分点。
值得注意的是,《报告》中还提到,尽管领军企业的数字化优势在持续扩大,但多数企业因为战略部署落后、基础薄弱、组织架构不合理、人才不足等因素,只能采取小修小补的方式,两者的差距不断拉大,数字化的马太效应已经凸显。成本高、风险高、见效慢、差距大的问题,使企业在数字化转型上如履薄冰、举步维艰,如何破冰成为企业急需解决的问题。
为了帮助企业应对这个难题,和鲸科技的回答是:以数据人才为杠杆,以组织协作为枢纽,实现数据要素的价值闭环和价值循环。
数据要素的价值闭环
和鲸科技的主要产品是数据科学协同平台——ModelWhale,其主要是为了帮助企业打通“数据协同、数据利用、业务落地、能力复用”的端到端流程,从而让数据变得有用处、有价值,同时实现人才和技术资产的积累,最终构建起“人才技能、技术落地、业务效益”三者的良性循环,进而支撑企业的数字化转型。
在企业级数据平台市场中,和BATH等巨头的竞争是绕不开的话题,和鲸科技创始人范向伟对此表示,BATH的定位是做数字化底座,和鲸科技专注于上层应用的协同场景,也就是数据要素的“最后一公里”。
相对于市场的同类产品,和鲸的差异化在于将协同能力作为内核,将敏捷开发、DevOps的理念,落实在了模型开发与应用的全流程之中。BCG的研究报告《金融机构如何驾驭大数据》显示,协同是大数据应用最主要的瓶颈,挑战要高于技术因素和资源因素。尤其是局部验证了数据对于业务的价值之后,当企业希望规模化地放大这种价值,协作的瓶颈就会凸显。
和鲸科技的主营业务是数据科学协同平台ModelWhale的SaaS产品,该产品专注于实现组织内部的数据人员和业务人员的实时协同,也支持跨地域、跨组织的协同场景。
跨地域、跨组织的协同
和鲸科技业务迭代
数据科学协同平台ModelWhale,分为三大板块,分别 包括基础层、协同层、开放层。通过三大板块的层层递进,来实现数据科学能力从IT端到业务端的衔接,将开放、协作、复用的理念落地,最终构成了数据智能应用的敏捷开发和精益创新的闭环。
在基础层,需要实现的是技术能力的弹性利用、动态组合。ModelWhale可实现统一高效的数据管理和资源调度,支持低代码、Notebook和CloudIDE的三种开发模式。其中,ModelWhale的资源调度能力,可满足不同级别的模型训练需求。该平台以云计算能力为基础,自主研发了高可用的算力调度器,具备按需计算、弹性扩容的优势,从而可以支持从1个用户到数千个用户的低成本、高效率地快速拓展,帮助企业节约可观的算力成本。低代码、Notebook和CloudIDE的支持,对应了不同背景的用户的技能条件与需求特点,也覆盖了数据应用从探索到开发、从工程化到生产上线、从运维到迭代的整个生命周期的开发需求。
开发模式、数据管理、资源调度
在协同层,实现的是个人、团队和基础设施三者的持续拉通、成果复用。ModelWhale积累了数据科学的全要素、全流程的协作能力组件,能对各类研究课题、算法项目、分析任务,进行分工拆解、任务分配、数据接入、资源分配、进度监控、成果验收、成果复用等项目管理工作。该平台也可支持对单个成员的资源用量监控和用户群组管理,在项目开展前后可以有效规划资源、避免浪费、保障计算资源的合理分配使用。通过协作层的支撑,可以让合适的数据,被合适的团队,在合适的任务上,实现紧密地咬合、持续地迭代、高效地复用。简而言之,也就是实现敏捷开发理念和数据科学实践的结合。
ModelWhale适用研究
在开放层,实现的是个人、企业与开源技术生态的协同共生、成果共享。在基础层和协同层的能力之上,ModelWhale可以与和鲸社区实现系统化的打通。基于和鲸社区数据开发者的算法能力、建模能力,企业可以将企业的数据应用需求,与高校、科研机构、社区开发者进行对接。通过ModelWhale的全流程的托管,可以保障开放层开发过程中的安全性、高效率,以及开发成果的可用性、可维护性。通过ModelWhale的开放协同的能力,个人和企业都可以用更低的成本、更快的速度,实现"(数据 算法 算力)*人才"的价值闭环和价值放大。
(数据 算法 算力)*人才
服务多个行业top3客户,用头部的影响力拉动增长飞轮
数据科学协同平台ModelWhale目前主要使用场景在科研机构、企业和高校。在采访中,范向伟提到,自从ModelWhale产品问世,连续三年,产品收入均保持了每年2倍以上的增长,并在市场的竞争中,占据了相对领先的位置。标准产品的年销售收入,从三年前的百万级,达到现在的千万级。目前公司的营收占比中,科研的份额占到了2/3,政企占到了1/3。对此范向伟补充到,数据协同的能力是不断验证、不断迭代、不断叠加的,靠的是滚雪球,打的是持久战,没法一口吃个胖子,也没有这个可能性。
数据科学平台的国内市场还处于成长期,离欧美发达市场还有3-5年的距离。和鲸科技认为,技能赛事、培训教育、科研协同是国内平台型产品的一个很好的切入点。在数字化的进程中,这些场景是头部客户在人才和组织成长方面的刚需。从科研切场景切入,也可以帮助平台完成核心能力、核心用户的原始积累与需求验证。通过教育、科研、企业的有序分层,形成有梯度的市场渗透、能力叠加,能帮助平台绕开“城墙”,实现更快、更稳、更精准的迭代升级与产品增长。
和鲸科技目前的平台客户场景包括气象、医院、药企、高校、科研、新能源、传统能源、金融等多个场景。客户包括清华大学、上海交通大学、中石油、国家气象信息中心、中国电信、中国医学科学院、解放军总医院、强生医疗、默克制药、信通院、国家人口与健康数据中心、北京医保局、金风科技、九坤投资等多个国家级和行业级的头部客户。
和鲸科技客户
和鲸科技的典型客户,如国家气象信息中心、解放军总医院、协和医学院、金风科技,有着共同获客、转化、增购的路径。和鲸科技对此补充到,机构内的数据科学家、数据分析师,通过和鲸社区的内容与活动,可体验到ModelWhale在特定场景的数据应用的功能优势。经历个人版的试用之后,再向所在的团队进行组织版和企业版的推荐。这也实现了从个人到团队,再到机构的价值验证和价值放大。ModelWhale在经过金风科技数据部门的验证、采购、局部落地之后,进一步拓展场景,在一年的时间中,实现了平台用户从30人到300人的增长,覆盖了集团公司三十余个部门。
产品体验推动增长(PLG)
以解放军总医院、协和医学院等头部的医疗客户为例,范向伟在采访中介绍到,医学的复杂性很高,数据智能也是刚需,但医生、研究人员普遍不具备专业的编程能力。ModelWhale可以通过低代码的简单易学的方式,最小化技能门槛,并通过协同能力,使IT、临床、研究等不同岗位的人才相互配合,通过背靠背的协作,实现数据应用的价值闭环。通过社区用户覆盖头部客户,再通过头部客户的实践,实现腰部客户的复制,成为了和鲸的业务增长的效率杠杆。
头部客户的成功落地,为其他的机构、企业提供了平台落地的背书与示范。基于头部机构知识库、案例库的沉淀,数据平台从产品到落地,也逐渐走向了标准化、普及化。范向伟对此介绍到,和鲸在和解放军总医院、协和医学院等头部医院的合作中,其实也是在共建算法库、知识库、案例库。头部机构的机器学习、人工智能的课程与案例,本身就是面向行业中的医生和学生的。目前和鲸与头部医院、头部药企共同组织的数据竞赛,每年覆盖的人数可达到上千人、几百家医院。
除了医疗、生命科学等科研场景,在企业场景中,数据平台不仅要面对大量IT系统的对接、打通需求,还要面对复杂的业务场景,这使得销售成本、实施成本、研发成本都很高。如果产品无法定位到精准的应用场景、用户人群,无法用可控的成本满足客户需求,实现数据价值的落地,那么数据平台产品的采购、复购的成功率就会很低,研发和分销也无法实现提速,这会形成一种恶性循环。
数据科学平台的选型和落地,有着很高的复杂性和实施风险,客户的产品选型是高度谨慎的,公司在头部客户在选型和落地上的经验积累,提升了公司标准产品的服务能力和规模商用的影响力。公司表示,目前和鲸科技已在气象、医疗、科研、能源、金融等领域实现了部分头部客户的覆盖与转化,以及高比例的复购与增购。
产品体验推动增长(PLG)
坚持PLG路线,和鲸社区成为留住客户的流量池
SLG(销售驱动增长)卖软件靠的是销售渠道,而PLG(产品主导型增长)更注重用户和产品,通过产品自身实现获客。此模式获客成本低、增长速度快、迭代效率高,典型公司比如Atlassian、Canva、Zoom等。PLG对产品研发与市场营销,都提出了很高的要求,中国目前能够面向头部客户,走通PLG的企业仍是少数。
随着企业对成本-效益和可持续性的敏感度提升,为了满足客户需求,服务商就需要提供更低成本、更快迭代、更高效率的方案。PLG模式对于企业客户也意味着更低的试错成本、部署成本和维护成本。顺应企业客户的需求和技术发展的趋势,是整个SaaS行业在重点探索的方向。
PLG模式的商业逻辑是产品主导、加速迭代。推出高质量的产品是前提,而产品优质首先需要有足够深的用户洞察。只有围绕用户洞察和用户痛点,才能持续地验证产品设计、提升产品性能、叠加产品壁垒。所以PLG的逻辑起点是,平台公司需要先找到核心用户、形成与核心用户之间的共生关系。
和鲸科技的前身是科赛网,现在已经演化为拥有25万注册的和鲸社区,社区在过去六年保持了每年100%的增速,成为了最大的第三方的数据人才社区之一,注册人群覆盖了全国的主流高校、研究院和企业。和CSDN等传统开发者社区相比,和鲸社区的差异化能力,在于数据分析的流程、代码、结果是可以在线运行、实现端到端的复现,其他用户可以对社区内的模板进行运行、修改和进一步的分享。
和鲸社区交互界面
和鲸社区通过和各个行业的头部客户合作,已组织了超过200场专业数据科学与人工智能竞赛,累计有10万多数据人才参加,解决了超过20类人工智能业务问题,累计算法解决方案2000多项。数据竞赛将数据、算法、人才和行业应用场景汇集在一起,形成了聚集效应。多年的数据竞赛服务经验,也提升了和鲸在数据人才和行业企业中的知名度和影响力。
竞赛和社区为和鲸带来了大量精准的专业用户群体,也为数据科学协同平台ModelWhale的发展提供了多方面的赋能。在采访中,范向伟提到社区和竞赛,一定程度上降低了数据平台的综合成本。对此他解释到,建设数据平台的成本上包括三个方面,一是开发成本,开发起步阶段常常需要超过数十人的开发团队、上亿的投资金额;二是销售成本,平台的销售周期很长,面对激烈的竞争,需要维护庞大的销售团队和售前团队,很多技术厂商的销售成本会占到总成本的五成以上;三是服务成本与定制化成本,因为数据平台在企业的落地场景丰富而复杂,数据平台解决不了的业务问题,往往需要较高强度的定制化和服务来打补丁。
2021全国人工智能大赛
拥有一个规模领先、增长领先的一个开发者社区,就可以在社区做用户需求的调研、测试。这些用户既是产品当前的使用者,也是潜在的产品用户。相比传统的市场渠道,社区的触达面更广、增速更快。通过社区也可以触达数字化成熟度更高的标杆客户,这相应也可以降低销售成本、缩短销售周期,带来更高的客户匹配度和满意度。
和鲸通过在竞赛和社区积累了大量注册用户,这些用户通过内容和活动拉动,进一步成为ModelWhale平台的使用者、推荐者和分享者。从个人用户向机构客户的转化,为打通一个B2C2B的链条闭环提供了可能。范向伟在采访中表示,数据科学平台是通用技术平台,数字化转型是全面变革,只有体验足够好、迭代足够快的产品,才能够满足企业客户数字化的需求。经过七年的积累,和鲸实现了社区增长、产品打磨、销售增长的飞轮,也成功跑通了PLG的商业模式。目前的产品订单中,约80%来自于社区用户的推荐,80%以上的签约客户完成了复购和增购。
叠加社区和PLG模式
社区和竞赛,不仅帮助和鲸科技实现了平台产品研发、推广、落地的闭环,还促进了平台的用户洞察和快速迭代。社区模式和PLG模式,形成的叠加效果,为数据科学平台的落地构建了一个价值更高、成本更低、速度更快的良性循环。在竞争激烈、门槛坚硬的数据平台的市场中,和鲸占据了一个相对独特的生态位。
在采访中,范向伟也表示,数据科学平台是天花板很高、壁垒也很高的通用技术平台,也是有着枢纽地位的兵家必争之地,一边要对接体系庞大的云计算生态、开源生态、数据资源,一边要对接高增长、跨行业、跨场景的业务需求。市场需求和底层技术,都在快速、深刻的演变过程中,如何把握住不变的核心变量,才是行业终局的胜负手。长周期的平台的发展,主要矛盾在于:要持续平衡好“产品迭代、行业资源、业务增长”三个飞轮的关系。在把握技术趋势和需求趋势的同时,既要防止定制化、同质化的过拟合,也要尽早布局行业的稀缺要素与入口位置,形成企业的产品迭代飞轮、资源壁垒飞轮,叠加之后形成业务增长飞轮。
对于和鲸来说,产品迭代飞轮是产品体系和用户反馈的良性循环,资源壁垒飞轮是头部的企业客户和高潜力的个人用户。这是在迭代数据能力、分享开源成果、跑通应用闭环的过程中,形成的一种难以替代、持续演化的共生关系。
,