Crossmatch e BLASTclust
O programa crossmatch coloca "X" em bases de vetor em sua seqüência e o programa BLASTclust aglomera as ESTs que foram geradas pelo mesmo mRNA. Execute o seguinte tutorial:
- Vamos analisar as ESTs da placa 2. Entre no diretório PHRED/esd_processado e copie placa2.zip para o diretório PHRED/seunome_phred/chromat_dir
- Primeiro é necessário descompactar o arquivo com "unzip nome_arquivo"
- Depois vamos fazer a nomeação de bases aproveitando para podar as regiões de leitura ruim usando Phred 8, mas vamos, como de costume, rodar o Phred de dentro do diretório PHRED/seunome_phred/edit_dir:
phred -id ../chromat_dir -trim_alt "" -trim_cutoff 0.16 -trim_fasta -st fasta -sa nome_arquivo_saida
- Agora vamos mascarar as regiões de vetor com o crossmatch. O vetor dessa biblioteca está no diretório PHRED/vetores/vetor2.fasta. Para
- A linha de comando do crossmatch é:
cross_match nome_arquivo_saida ../../vetores/vetor2.fasta -minmatch 12
-minscore 20 -penalty -2 -screen > arquivo_de_log
- Agora que as seqüências estão prontas (nome_arquivo_saida.screen), vamos movê-las para o diretório onde rodamos BLAST:
mv nome_arquivo_saida.screen ../../../BLAST/db/seunome_db
- Para gerar os aglomerados, vamos usar o BLASTclust:
blastclust -d nome_arquivo_saida.screen -S 96 -L 0.7 -p F -W 40 -c ../../blastclstrc -o arquivo_saida_cluster
- [-S] indica a porcentagem de identidade mínima para duas moléculas serem consideradas iguais
- [-L] inidica a fração mínima do alinhamento potencial entre duas moléculas que foi coberto pelo BLAST.
- [-p F] indica que não se trata de proteína (F de falso)
- [-W] é o tamanho da palavra, que tem que dar hit perfeito para o alinhamento do BLAST ser iniciado
- [-c] indica um arquivo de configuração para parâmetros adicionais que utilizamos na rede genoma MG para formar aglomerados como os do UniGene.
- [-o] é o nome do arquivo de saída
<./body>