• [网连中国]赛龙舟 包粽子 办诗会……全国各地品民俗迎端午 2019-06-13
  • 北京市通报5起违反中央八项规定精神案例 2019-05-28
  • 千年学府的世纪乡愁:余光中十八年前雨中演讲 2019-05-17
  • 六月新疆的景色美的不像人间 那都是因为薰衣草 2019-05-15
  • 交警送心梗司机就医不留名 工友抢拍背影照寻人 2019-05-14
  • 葛娴的博客—强国博客—人民网 2019-05-04
  • “国际视野下的华侨华人”学术研讨会在京召开 2019-05-04
  • 网络医疗广告套路太多 消费者讲述就医被坑经历 2019-04-26
  • 一语惊坛(6月8日):友谊勋章是给国际友人的最高荣誉。 2019-04-26
  • 赵薇舒淇加盟《中餐厅2》 开启美食奇缘 2019-04-18
  • 北京市委原常委、市政府原副市长刘坚夫同志逝世 2019-04-10
  • 这是全国精气最为集中的地方 被称为中国丹田所在 ——凤凰网房产 2019-03-27
  • 2018年QS全球毕业生就业竞争力排名 清华全球第十 2019-03-24
  • 在“街角博物馆”中找寻来自唐朝的“雕刻时光” 2019-03-24
  • 《新乌龙院之笑闹江湖》 吴孟达郝劭文时隔24年再聚首 2019-03-20
  • 新疆35选7每周几开奖:做美国生意就上美国华人网:找货源,找投资,找工作,找内推,找项目,找股票,卖产品,分享最IN的美国生意经

    美国华人网FuninUSA|唐人社区-看今日美国新闻,分享华人赚钱商机

     找回密码
     立即注册
    查看: 344|回复: 0
    打印 上一主题 下一主题

    读取DNA甲基化IDAT文件

    [复制链接]
    跳转到指定楼层
    楼主
    发表于 2018-03-22 17:16:03 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    分享到:
    {$content}

    读取DNA甲基化IDAT文件
                
                
    美国新疆福彩35选7机选网综合报道】今天我想要给ChAMP写一个import程序,因为目前大部分DNA Methylation领域的研究软件都是给予minfi程序提供的读取IDAT文件的程序,但是最近minfi似乎崩溃了,整个研究领域都受到了影响,所以最好还是有自己的一条“供应链”。
                
                
    Manifest文件过滤
                
                
    首先,甲基化分析需要对应的注释文件,主流是EPIC和450K的,我先分析450K的Manifest,首先原有的Manifest包含了从BeadChip到最终的文件的对应号,但是有一部分信息应该要提前过滤掉:一部分是开头的Header,另一部分是结尾的ControlProbe。
                
                
    illumina官网下载到对应的450K注释文件,打开是下图的样子(切记不要随便点开,你的电脑可能会挂掉)。
                
                

            
            
    如果把Header,Control Probe和SNP全部删掉,450K数据的行数正好就是:485512。这就是450K甲基化注释的所有Probe数量,每一个Probe对应一个CpG位点。不是说人体的全基因组上只有这写位点,而是说illumina公司决定只将这些位点涉及到芯片中完成测序。
                
                
    值得注意的是,最后的ControlProbe还是挺重要的,主要是用来评估测序质量。
                
                
    上图中有几列是很重要的:
                
                
    AddressA_ID与AddressB_ID是对应的CpG ID和芯片数据位点。
    后边的颜色是针对Type-IProbe的,监狱Type-I Probe是通过两种颜色测量出来的数据。
    Infinium_Design_Type是用来指示Type-I和Type-II Probe的东西。
                
                
    基本上就是需要上述的三列信息,将芯片的颜色数据,转换为可以分析的beta或者M数据。
                
                
    开始写import程序:
                
                
    载入phenotypedata.csv 文件
                
                
    首先需要做的是载入phenotype文件,该文件包含了每一个样本对应的芯片号,需要那个文件,程序才能知道什么样本对应了那两片芯片。
                
                

             
             
    很无语的一点就是,minfi之前强行将“Sentrix_Position”命名为“Array”,将“Sentrix_ID”命名为“Slide”,搞得我只能这样做。
                
                

             
            
    读取完毕以后,应该是这样的。
                
                
    读取IDAT文件
                
                
    IDAT文件是illumina的测序仪直接输出的文件,不能用文本编辑器打开的,所以只能用illumina公司提供的illuminaioR包才能读取,我也没有办法,其实代码很简单:
                
                
    G.idats <- lapply(GrnPath,function(x){ message("Loading:",x);readIDAT(x)})
    R.idats <- lapply(RedPath,function(x){ message("Loading:",x);readIDAT(x)})
                
                
    这样,就把所有的绿色芯片和红色芯片读进来了,完成了这一步,整个DNAMethylation研究领域就完成了从血淋淋地细胞湿实验,到纯数据的干实验的转换,这也是分子生物学和计算生物学结合的地方。
                
                
    提取M矩阵和U矩阵
                
                
    这两个矩阵分别表征着数据中,被甲基化和没有被甲基化的比例,人体内的甲基化数值其实就是一个比例,加入测序了100条序列,其上边有一个CpG位点,如果有90%都有被甲基化,10%没有,那么就是0.9(其实不是,具体计算公式更详细一些,但是大致是这个)。M 矩阵就是表征被甲基化的矩阵,而U矩阵就是表征未被甲基化的矩阵。
                
                
    非常重要的部分就是,CpGID与芯片位置是如何对应的,在研究以后,我才知道,这其中的对应关系极为复杂:
                
                

            
         
    可以看出,M矩阵和U矩阵都包含了三个部分:Type-II的芯片,Type-I的红色芯片,Type-I的绿色芯片,三种芯片对应的数据值位置是不一样的,比如说,Type-II芯片,绿色的Type-II芯片的AddressA就是M,但是对于Type-I的红色芯片,就是红色的Type-I红色芯片的AddressB对应M,而红色的Type-I红色芯片的AddressA对应U。
                
                
    这一过程简直混乱不堪……我不知道各种具体原因是什么,但Type-I和Type-II技术是illumina公司推出过的两种技术,两种技术居然交叉在一张芯片里,实在是让人匪夷所思!
                
                
    得到Beta数据
                
                
    这一部分其实很简单,公式就一行:
            beta.value <- M/ (M + U + offset)
                
                
    那个offset是用来防止当M和U都太小,导致分母是0导致数据不正确。
                
                
    到目前位置,整个从illuminaIDAT文件中提取beta数据的过程就完成了。当然还有很多工作需要做,比如说,需要继续写程序读取detectP value以及intensity等等。
                
                
    (商业转载请联系[email protected],非商业转载请注明转自美国华人网FuninUSA。)
                


    新疆福彩35选7机选
     

    FunInUSA-美国华人网|唐人社区 - 综合信息
    Contact

    关于我们

    免责声明

    联系我们

    站点合作

    隐私条款

    Navigation

    最新热帖

    北美新闻

    创业好项目

    比特币专区

    实验设备市场

    电子备件市场

    亚马逊FBA

    Amazon账户

    Amazon操作

    电子商务支付

    海归论坛

    Links

    面试问题及答案

    情感杂想

    绿卡政策

    电子商务

    赴美生子

    EB5移民

    EB2/EB3

    EB1移民

    美股新手

    谈股论经

    海淘论坛

    FunInUSA-美国华人网|唐人社区:分享华人赚钱商机

    这里聚集了全球各地做生意的华人,队伍里就差你咯,赶紧行动!

    欢迎各会员在社区积极互动,文明用语、理性评论,构造文明社区。

    详情请看:FunInUSA-美国华人网|唐人社区|华人娱乐论坛 社区发帖协议(总版规)

    声明:本站转载或会员发表的言论均不代表FunInUSA-美国华人网|唐人社区的观点。


    微信公众号搜索" FuninUSA "加关注,每日更新美国市场讯息:金融、零售、批发。推荐关注!【微信扫描下图可直接关注

    美国华人网微信公众号


    回复 百度谷歌雅虎搜狗搜搜有道360奇虎

    举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    美国华人网|唐人社区|什么值得买www.umzkw.com发布的读取DNA甲基化IDAT文件帖子由网友提供或转载于网络,若发布的读取DNA甲基化IDAT文件侵犯了您的权益,请联系我们.

    Copyright ©2011 www.umzkw.com All Right Reserved.  Powered by Discuz! X3.0 小黑屋

    本站信息均由会员发表,不代表美国华人网FunInUSA|唐人社区的立场,如侵犯了您的权利请发帖投诉  技术支持: 新疆福彩35选7机选

    安全联盟认证 安全联盟认证

    快速回复 新疆福彩35选7机选 返回列表
  • [网连中国]赛龙舟 包粽子 办诗会……全国各地品民俗迎端午 2019-06-13
  • 北京市通报5起违反中央八项规定精神案例 2019-05-28
  • 千年学府的世纪乡愁:余光中十八年前雨中演讲 2019-05-17
  • 六月新疆的景色美的不像人间 那都是因为薰衣草 2019-05-15
  • 交警送心梗司机就医不留名 工友抢拍背影照寻人 2019-05-14
  • 葛娴的博客—强国博客—人民网 2019-05-04
  • “国际视野下的华侨华人”学术研讨会在京召开 2019-05-04
  • 网络医疗广告套路太多 消费者讲述就医被坑经历 2019-04-26
  • 一语惊坛(6月8日):友谊勋章是给国际友人的最高荣誉。 2019-04-26
  • 赵薇舒淇加盟《中餐厅2》 开启美食奇缘 2019-04-18
  • 北京市委原常委、市政府原副市长刘坚夫同志逝世 2019-04-10
  • 这是全国精气最为集中的地方 被称为中国丹田所在 ——凤凰网房产 2019-03-27
  • 2018年QS全球毕业生就业竞争力排名 清华全球第十 2019-03-24
  • 在“街角博物馆”中找寻来自唐朝的“雕刻时光” 2019-03-24
  • 《新乌龙院之笑闹江湖》 吴孟达郝劭文时隔24年再聚首 2019-03-20