36氪专访丨 专注材料数据研发及应用,「机数量子」今年将会建立材料产业大数据联盟

发布日期:2022-02-21 浏览次数:1487

机数科技开始做数据库可以追溯到十年前。

机数科技创始人兼CEO江俊告诉36氪,有一次参观日本国家实验室,他发现日本最顶尖的科学实验室里摆放着许多中文基础研究论文和杂志。日本研究员解释说,琐碎的实验数据统计非常重要,但往往需要大量的人力和时间,日本科学家根据中国的基础材料整合数据提炼规律,就可以把更多的精力放在更有意义的科学研究中。

事实上,日本长期收集我国材料开发数据,欧盟处心积虑想与我国共建数据平台,美国利用学术期刊坐收全球材料科研成果数据——数据的重要性不言而喻,但由于国内的综合性数据收集意识淡薄、数据清洗困难等原因,导致国内的“数据矿山”无人问津。

江俊回国的第一件事就是想办法打造“国产数据库”。十年间,他号召和组织志同道合的学术工作者一起,对国产数据进行最初的整合和梳理。2017年,机数科技终于在导师和师兄弟的支持下成立了。公司专注于为行业与科研用户提供材料大数据咨询、人工智能分析和新材料定制开发服务。目前公司拥有亚洲最大的材料数据库平台大材库,和半导体数据库、磷矿数据库、催化数据库等软件以及量子化学计算、大数据技术、人工智能分析等集成技术。机数科技的目标就是要解决材料数据缺乏的知识源头“卡脖子”问题,让中国的科研不再受制于人。

机数科技的数据部门除了将核心算法重写了一遍外,还开发了自然语言处理工具,使得数据爬取的速度提升了3到5个量级,将材料库中的数据从800万左右扩充到了1亿以上,极大增加了数据量。

数据量增加了之后,数据清洗就是当务之急。机数科技通过人工方式对数据进行标签,形成了第一代知识图谱,之后基于第一代知识图谱自动进行数据的筛选分析。公司数据部门还建立了知识抽取数据的工具,提炼知识图谱,对数据进行多轮清洗,获得高质量数据,目前机数科技的知识图谱已经进行了多次迭代。

机数科技还对材料做了文本化,并针对文本做了目录表,既保证了存储量不用太大,同时能够实现快速检索。

江俊认为,机数科技的材料数据库处于全球的第一梯队。和国外的材料数据库企业相比,机数科技的材料数据库优势在以下几个方面:1.材料数据量更多;2.数据实现了真正的数字化;3.在知识图谱基础上开发了人工智能分析算法,自动化分析能力更强;4.平台语言是中英对照,国内用户使用更为友好。

除了拥有材料数据库平台外,机数科技还会专门根据不同的客户需求做定制化服务,包括材料定制和集成材料+智能算法软件两种服务模式。江俊告诉36氪,未来机数科技将会向SaaS方向发展,机数科技已经和姑苏实验室联手建立了软件部门,进行第二代SaaS产品的开发。

机数科技的主要销售渠道是和仪器公司达成战略合作关系,捆绑销售账号,下游客户主要是高校和科研院所。公司已经拥有1000多家平台客户、20多家材料定制客户和软件客户,预计今年出售的平台付费账号将会有1000套以上,营收规模能达到1500万左右,营收增长点除了科研院所和高校外,还包括江浙沪的一部分小企业。

团队目前的全职人员有22名,运营人员6人,汇聚了12名教授、7名副教授、9名博士等精英科技人才,覆盖物理、化学、信息、电子等专业。创始人江俊是中国科学技术大学教授、国家杰青和国家科技部973计划首席科学家。

机数科技今年将会建立材料产业大数据联盟,在联盟内部分享部分材料数据,形成客户粘性,帮助拓展销售渠道。同时公司还将在矿山开采、微电子和半导体领域开发材料仿真软件,进行数字化赋能。