生物信息还需要云计算提供什么样的功能?


生物信息应用上云,你碰到了哪些问题?
现有的阿里云、亚马逊AWS云计算基础设施需要做哪些改进,为什么?
目前你用的最多的云产品和Web Service API是哪些?
已邀请:
最佳回复

事实上,我还没有用到任何云,但是近期可能有需求,也调研了亚马逊和阿里的云,下面说一说我的现实需求。

我研发的多重PCR引物设计的软件mprimer,在常规的多重PCR引物设计中,计算量不存在问题,因为一般不超过10重,即使针对基因组进行特异性分析,使用一个CPU,也会很快出结果。但是如果要设计高通量的多重PCR引物用于二代测序目标区域富集的话,那时间问题就非常严重了。因为,至少在100重以上,1000重都是比较常见的,如果要针对整个外显子设计引物(10000+),那时间问题就更为严重了,单核我估计得按年计算了,即使使用几十个CPU,也得上月。

所以,高通量的多重PCR引物设计,尤其是针对二代测序目标区域的富集,绝对是一个计算密集型的问题。

当然,程序本身后续还要不断的性能优化,但当前阶段,我对云有一个简单粗暴的需求:核越多越好。

其实,我的程序本身可以提高性能的地方不少,比如,用c语言改写一下核心计算模块;改成map-reduce兼容的模式等等。但是无论如何,对计算资源的需求都是一定的。

不同的问题,对于云的需求肯定不同,就我目前的需求而言,亚马逊的弹性云(计算优化)是比较合适的。

华大云计算的项目经理,曾经说过基因数据中心的建设目前遇到的问题,也就是需要云计算去做的事情:

一个是数据的同步,他从一个分支到另外一个分支,他的计算资源可能是在另外一个分支,他的计算可能在深圳,数据怎么同步过去,这是他们遇到最大的关于数据中心的管理问题。第二个是一种自动化的配置,数据中心太多了,管理起来就会非常的麻烦。每个中心会有不同的管理人员,日志怎么同步,这是比较大的问题。第三个是数据中心的虚拟化,在整个数据中心的管理过程中,现在走向一个新的趋势,数据中心要进行虚拟化,才更容易管理,更容易把数据更好的利用起来。多个数据中心分支如何做虚拟化,然后做数据的同步。第四个是建设绿色的数据中心,因为规模越大,他的浪费越严重,会给他带来非常大的运营成本的问题,如何能够建设更加绿色的数据中心,真正的能够按需所取,让数据中心整个的投入能够达到最大的投入产出比。

赞同来自:


快速分析?

赞同来自:


ODPS这个云服务器,除了自己写函数和上传jar文件外。比如我在服务上想跑一个测序数据的tophat,服务器如何进行tophat运算啊?

要回复问题请先登录注册