怎样阻止白癜风复发 http://m.39.net/pf/a_6210228.html中国开源项目的雄起时刻到了吗?
作者
王学琛
编辑
火柴Q
这是第三次了,年初的董事会召开前,投资方的投后同事来问星爵业绩规划,他说:“不需要做报表,我们今年的目标收入多半还是0。”这家“三年收入都为0”的企业,是星爵在年创立的Zilliz,一家做开源模式的基础软件公司,主打融合异构计算的数据科学软件。这类公司在中国市场颇为另类——做基础、通用型技术,运营模式是短期内不会也难以开启商业化的开源。不过今年以来,“基础软件+开源”的项目正在得到投资人青睐。5月底,「甲子光年」发布《“基础软件+开源”,为什么是现在?》一文后,不少投资人都表示这是他们今年的重点方向之一。这一领域的融资消息也不断:年4月,物联网大数据平台涛思数据完成超过万美元的A轮融资,这是其今年完成的第二轮融资;云管理软件及服务提供商骞云科技,同样在年第一季度完成两轮融资;年6月,图数据库研发商欧若数网完成万美元Pre-A轮融资。国外的开源数据库CockroachDB(蟑螂数据库)也在年5月收获D轮万美元融资,目前已积累了超过1.亿美金的融资;云存储技术服务商Snowflake在今年2月完成4.79亿美元融资。其实抛开暂时没有收入这一点,仅看企业用户的增长,Zilliz的画面很美:其在年10月15日正式开源的第一款产品,向量搜索引擎Milvus在7个月内积累了多家企业级用户。即使是在没有付费门槛的开源市场,这个速度依然惊人——目前成立五年、已是中国开源项目样本的新型分布式数据库公司PingCAP积累前几百家企业用户用时为两年半。在社区影响力上,Zilliz也给中国“基础软件+开源”业带来了新突破。Milvus在今年3月作为孵化项目加入了LinuxAI基金会(LFAI),其创始人星爵也在4月22日当选LinuxAI基金会新一届董事会主席,这是中国代表首次担任国际顶级开源AI社区的最高职务。就在昨天(年6月15日),Milvus发布了最新版本v0.10.0。Milvus各项社区指标
其实这类公司、这个赛道都是在等一个蝉的故事:不鸣则已,一鸣惊人。前期不做收入,一旦开始进入商业化就可能迎来爆发式增长。
星爵本人的经历对做成这件事已很有说服力——年到年的6年里,他一直在研发甲骨文的第一个云数据库产品Oracle12c,是最初奠基团队5人之一。如今,这个产品已累计为甲骨文带来了亿美元的营收。
本文,「甲子光年」深度采访了Zilliz的创始人星爵、合伙人顾钧,多家Milvus的企业用户以及Zilliz的投资方和其他观察基础软件、开源项目的投资人。
这一次,到了中国开源项目雄起的时刻了吗?
1.7个月+企业级用户的加速度
7个月拿家企业级用户,为什么这么快?
“选择比努力重要”,加速度首先和Zilliz选的方向有关——他们切中了当下数据处理领域的两个趋势:异构计算和非结构化数据处理。
这分别反映为Zilliz当前的两个主要成果:异构众核数据处理平台MegaWise和向量搜索引擎Milvus。
Zilliz首先启动的是对异构众核数据处理平台MegaWise的研发。
异构计算背后对应的趋势是,随着AI、物联网、云计算的进一步发展,未来的芯片架构会越来越碎片化,场景也会越来越多元,计算和数据流淌在从云端、边端到终端的各个角落。
此前,面对不同的架构,解决方案是堆人力,写代码。这是因为PC和移动时代,主流架构只有x86、Arm等少数几个,与其费劲攻克异构计算,不如以开发的方式去适配。
但现在,在x86、Arm之外,RISC-V、达芬奇、寒武纪的MLUv02等新架构涌现,人工适配已无法实现,异构环境成为计算不得不攻克的壁垒。
图为芯片专家唐杉博士维护的名为“AI芯片全景图”的GitHub频道
同时,ChrisLattner开发的LLVM让异构计算的商用成为可能。简单来说,LLVM是一个横跨编译层和汇编层的框架,可以实现用一套语言调动不同指令集架构的硬件。
第一个看到异构计算的必要性,并从中获利的是Google的深度学习框架TensorFlow。
TensorFlow的优势之一就是率先实现了异构计算,通过技术屏蔽掉下面芯片体系结构的差异,也屏蔽掉云端边部署环境之间的差异。也因此,TensorFlow在此方向上一度领先Caffee、PyTorch等3-5年的时间窗。
Zilliz成立第一天起也将此作为发力方向,在投入异构众核数据处理平台MegaWise的研发,也因此一度给外界留下了GPU数据库的印象。
研发过程中,Zilliz团队在两年多时间里,完成了十数次版本迭代、近30万行代码,最终在年推出了MegaWise数据处理平台。和主流CPU数据处理引擎相比,MegaWise可以实现查询性能提升倍以上,硬件成本和运维成本降低10倍。
MegaWise架构图
在一边研发平台的同时,Zilliz也在探索基于MegaWise的具体产品形态,最终他们把首个产品定位到了处理非结构化数据的工具——一款向量搜索引擎。
“最怕技术人陷入盲目的狂欢和自嗨,你做一个技术上很牛逼的东西,但市场上没人愿意用。”星爵称,Zilliz在做底层研发时就已开始不断和用户沟通,发现大部分用户对非结构化数据处理工具需求迫切。
这个背景和近几年AI的发展大势有关。此前,计算机主要处理的是结构化数据,即可以用二维表结构来逻辑表达和实现的数据。而以深度学习算法为代表的当下AI,把图片、视频、语音等非结构化数据也纳入了机器能处理的范畴。
但是,数据库产品的发展一度没有赶上AI算法层和应用的进展,目前还没有一个原生于AI的非结构化数据库管理系统取得主流地位。
各企业、组织的开发者在处理非结构数据时,仍不得不使用上一代的Oracle、MySQL、DB2、SQLServer等关系型数据库,但并不称手。
Milvus的企业用户、资深算法工程师文安哲告诉「甲子光年」,以企业征信数据为例,中国有上亿家公司,每一家公司的征信数据包含了很多维度,且单一维度就可能有大量数据,如一些集团企业的商标专利就有成千上万个。面对这些海量的非结构化数据,企业短期内并没有能力去自研处理技术。
Milvus要解决的就是这个非结构数据处理的痛点。
具体来说,Milvus做的是非结构数据处理的一个共通环节——向量的快速搜索分析。不管是处理图像还是语音的深度学习算法,都有一个共通环节,就是把图片等对象向量化。
此前虽然已有Facebook开源的Faiss向量搜索库和微软开源的SPTAG库,不过,Faiss和SPTAG都还不是成形的产品,用户在使用时仍需进行大量开发。而相比Faiss和SPTAG这样的算法库,Milvus提供完整的向量数据更新、索引与查询框架。
Milvus可在无需变更代码、只更新数据的情况下实现快速检索。
半年以来,Milvus已经积累了多家企业级用户,并解锁了以图搜图、以图搜视频、自然语言处理、语音识别、推荐系统、新药发现等场景。就在昨天(年6月15日),Milvus发布了最新版本v0.10.0。
另一方面,这种“加速”发展,也源于Milvus采取了一种新的开源方式——“重装开源”。
Milvus开源的第一个版本就已经非常完备。星爵记得当时有用户评价,“没有看到过一个东西刚开源就会写这么详细的文档。”
如果说以往的开源方式是“小苗”阶段就放到社区让大家一起浇水,那么Zilliz的开源是一出场苗就长好了,连花都开好了。
星爵说:“十年前做开源软件,是从你写第一行代码就开源,现在已经不一样了,我们要求第一个发布的版本就是可用且好用的。”
为了年10月15日这“一哆嗦”的开源,他们已经研发了近天。
其中仅Milvus的研发就经历多天。Zilliz团队深入研究了ANNS算法,针对不同处理器芯片和指令集做了大量优化,在完成多个