Bio.Clustalw.MultipleAlignCL

From Biocourse

Jump to: navigation, search
Bio.Clustalw.MultipleAlignCL


1. 종류
    - class


2. 설명
    - Clustalw 다중서열정렬(Multiple Sequence Alignment) 프로그램의 명령문을 좀 더 편리하게 작성할 수 있게 해주는 기능을 한다.
    - 소개된 Attribute 들 외에도 접근할 수 있는 Attribute 들이 있지만, Validation 의 이유로 다른 Attribute 들은 아래 소개되어 있는 Method 를 통해 접근하는 것이 좋다.


3. Initialize

    - __init__(self, sequence_file, command = 'clustalw')

        - sequence_file
            : string 형식이다. 다중서열정렬을 할 서열이 저장되어 있는 파일을 지정한다.

        - command
            : string 형식이다. Clustalw 프로그램을 실행시킬 명령어를 지정한다.


4. Attribute

    - sequence_file
        : string 형식이다. 다중서열정렬을 할 서열이 저장되어 있는 파일을 지정한다.

    - command
        : string 형식이다. Clustalw 프로그램을 실행시킬 명령어를 지정한다.

    - is_quick
        : Alignment guid tree 를 작성하는데 있어 fast algorithm 을 사용할지 여부를 지정한다.
        : 사용할 경우는 1을 지정한다. 나머지 다른 값에 대해서는 모두 "사용하지 않는다" 이다.

    - allow_negative
        : Alignment matrix 에서 음수(negative number)를 허용할지 여부를 지정한다.
        : 역시 허용할 경우 1을 지정한다. 나머지 다른 값에 대해서는 모두 "허용하지 않는다." 이다.

    - gap_open_pen
        : Gap opening penalty 를 지정한다. 

    - gap_ext_pen
        : Gap extention penalty 를 지정한다.

    - is_no_end_pen

    - gap_sep_range

    - is_no_pgap

    - is_no_hgap

    - h_gap_residues

    - max_div

    - trans_weight


5. Method
 

    - set_output(self, output_file, output_type = None, output_order = None, change_case = None, add_seqnos = None)
        : Output parameter를 설정한다. parameter 들은 소문자로 지정해도 상관없다.

        - output_file
            : 다중서열정렬(Multiple Sequence Alignment ) 결과를 저장할 파일을 지정한다. 파일의 확장자는 output_type 에 맞춰서 지정하는 것이 좋다.

        - output_type
            : 다중서열정렬(Multiple Sequence Alignment ) 결과의 출력형식을 지정한다. 가능한 값은 'GCG', 'GDE', 'PHYLIP', 'PIR', 'NEXUS', 'FASTA' 이다.
            : 기본설정은 'CLUSTAL' 이다. 

        - output_order
            : 다중서열정렬 출력결과의 sequence 순서를 지정한다. 지정 가능한 값은 'INPUT', 'ALIGNED' 이다.
            : 'INPUT'인 경우 input file의 sequence 순서대로 출력하고, 'ALIGNED'의 경우는 다중서열정렬된 결과 순서 그대로 출력한다.
            : 'ALIGNED'의 경우는 유사한 sequence 가 인접하여 배열된다.

        - change_case
            : output_type 이 GDE 포멧의 경우 출력되는 sequence 를 대문자로 기록할지 소문자로 기록할지 지정한다. 설정가능한 값은 'LOWER' 나 'UPPER' 이다.

        - add_seqnos
            : 결과 출력형식중에 clustal 형식일 경우에만 적용된다. output_type 에 아무것도 지정하지 않아야 한다.
            : 출력결과에서 sequence에 sequence number 를 같이 출력할지 지정한다. 지정 가능한 값은 'OFF', 'ON' 이다.

    - set_guide_tree(self, tree_file)
       : 정렬에 사용할 Guid tree 파일을 지정한다. 

        - tree_file
            : string 타입이다. Guid tree 파일의 경로를 지정한다.

    - set_new_guide_tree(self, tree_file)
        
        - tree_file

    - set_protein_matrix(self, protein_matrix)
        : protein matrix 를 지정한다. 

        - protein_matrix
            : string 타입이다. 다중서열정렬에 사용할 protein matrix 를 지정한다.
            : 지정가능한 값은 'BLOSUM', 'PAM', 'GONNET', 'ID' 중에 하나 혹은 prtein matrix 파일 경로이다.

    - set_dna_matrix(self, dna_matrix)
        : dna matrix 를 지정한다.

        - dna_matrix
            : string 타입이다. 다중서열정렬에 사용할 dna matrix 를 지정한다.
            : 지정가능한 값은 'IUB', 'CLUSTALW' 중에 하나 혹은 dna matrix 파일 경로이다.

    - set_type(self, residue_type)
        : sequence 의 종류를 지정한다.

        - residue_type
            : string 타입을 지정한다. 입력한 sequence 의 종류를 지정한다. 
            : 지정가능한 값은 'PROTEIN', 'DNA' 이다.
            : 지정하지 않으면 clustalw 프로그램에서 자동으로 설정한다.