티스토리 뷰
CanDrA는 mis-sense mutation의 효과를 예측해 주는 프로그램이다. TCGA의 데이터의 mis-sense 데이터를 CanDrA가 요구하는 입력 파일 형태로 만들기 위해서는 약간의 가공이 필요하다. 아래는 python의 pandas를 이용하여 TCGA 데이터를 가공하는 예시이다.
Parse the TCGA somatic mutation file for generating CanDrA input file
- I use COAD(colon adenocarcinoma) data here.
- The file format is MAF(mutation annotation format).
In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
In [2]:
print( "pandas: %s"%pd.__version__ )
print( "numpy: %s"%np.__version__ )
In [3]:
df = pd.read_table("hgsc.bcm.edu__Illumina_Genome_Analyzer_DNA_Sequencing_level2.maf")
In [4]:
df.columns
Out[4]:
In [5]:
# A subset of the DataFrame, specified by the necessary columns for CanDrA input file format
sdf = df[ ['Chrom', 'Start_Position', 'Reference_Allele', 'Tumor_Seq_Allele2', 'Strand'] ]
In [6]:
sdf[:5]
Out[6]:
In [7]:
# Rename the columns with short words
sdf.columns = ['chrom', 'pos', 'ref', 'mut', 'strand']
sdf[:5]
Out[7]:
In [8]:
sdf.replace('-', np.nan, inplace=True)
In [9]:
sdf.dropna(how='any', inplace=True)
In [10]:
(sdf == np.nan).any()
Out[10]:
In [11]:
sdf.to_csv("candra_input_tcga_coad.txt", sep='\t', index=False)
'Python > 요리 방법' 카테고리의 다른 글
TCGA mis-sense 돌연변이 데이터를 환자별로 추출하는 방법 (0) | 2015.12.21 |
---|---|
bisect 모듈의 insort 함수 (0) | 2015.06.19 |
Cython 간단한 예제 (0) | 2015.02.28 |
OpenBLAS를 이용하여 numpy와 scipy 설치 (0) | 2014.06.10 |
몬티홀(Monty Hall) 문제 코드 (0) | 2014.02.17 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Python
- GSX 1000 pro
- TensorBoard
- TCGA
- Item 9
- Visual C++
- PyQt
- 볼륨 조절
- pandas
- QPrinter.Letter
- 설치
- structure
- Accelerated C++
- how to solve it
- MSVC++
- matrix multiplication
- GSX 1200 pro
- 볼륨 낮춤
- armadillo c++
- volume dial
- dll
- ctypes
- tensorflow
- cython
- QPrinter.A4
- C++
- 이상한 문자
- QT
- CanDrA
- destructor
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함