umrf
utopia

Repository

wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
tar -xzf taxdump.tar.gz
loadTaxonomy.pl -names names.dmp -nodes nodes.dmp -struct taxonomyStructure.sql
esearch -db "nucleotide" -query "\"internal transcribed spacer\"[Title] AND \"fungi\"[Porgn] AND \"complete sequence\" [Title]" | efetch -format gb > GB_ITS.gb
perl extract_seq.pl GB_ITS.gb
prinseq-lite.pl -fasta sequences.fna -graph_data sequences.gd -graph_stats ld,gc,ns,pt,ts,de,da,sc,dn
prinseq-graphs.pl -i sequences.gd -html_all -o sequences_prinseq
prinseq-lite.pl -fasta sequences.fna -out_format 1 -out_good sequences_good -noniupac -ns_max_n 1 -min_len 100 -max_len 5000
fasSpliter.pl -dir split -ns 200 sequences.fna

\ls -1d _* | sed 's,^.*$,listPath.pl -d & >> idx,' | bash

sed "s,\(/scratch/umrf/ITSbank/_[0123]000/sequences_\([0-9]*\)\).fas,echo '/home/stheil/soft/ITSx_1.1/ITSx -i & -o \1 -p /home/stheil/soft/ITSx_1.1/ITSx_db/HMMs/ --reset --cpu 8 --multi_thread T --preserve T --only_full T -t F ' | qsub -N itsx_\2 -cwd," | bash
cat _*/*.ITS1.fasta > ITS1.fasta
cat _*/*.ITS2.fasta > ITS2.fasta
echo 'cd-hit -i sequences_good.fasta -o sequences_good.cdhit_c1_s0999 -c 1 -T 8 -s 0.999 -sf 1 -sc 1 -M 4000' | qsub -cwd -pe multithread 8 -N cdhit_c1_s0999
extract_cluster_taxonomy.pl -taxo taxonomy.txt -clstr sequences_good.cdhit.clstr -fasta sequences.fna -dir split_cdhit -mode split -threshold 0.8
Rscript ParseRanks_v1.R -t split_cdhit/cdhit_taxonomy.txt -o split_cdhit/cdhit_taxonomy.taxid
Filetax=split_cdhit/cdhit_taxonomy.taxid
taxo=split_cdhit/cdhit_taxonomy.txt
cut -f2- -d\* $Filetax | sort | uniq -c | sort -h -r | awk '$1!=1' | awk '{print $2}' > split_cdhit/duplicated_taxons.txt
cut -f 2 -d '*' $Filetax | cut -f 1 -d ' ' | sort | uniq -c | awk '$1!=1 && $2 !="unclassified"' | sort -r -h > split_cdhit/problematic_taxons.tsv
cp $taxo tmp
for i in $(awk '{print $2}' split_cdhit/problematic_taxons.tsv);
do
	echo $i
  counts=$(grep -o k__Fungi.*$i $taxo | sort | uniq -c | sort -r -h)
	ftax=$(grep -o k__Fungi.*$i $taxo | sort | uniq -c | sort -r -h | awk '{print $2}' | head -1)
	echo "${counts}"
  echo

	sed -i "s,k__Fungi.*$i,$ftax,g" tmp
done > split_cdhit/log_validation_taxid.txt
mv tmp split_cdhit/sequences_taxonomy_corrected.txt
Rscript ParseRanks_v1.R -t split_cdhit/sequences_taxonomy_corrected.txt -o split_cdhit/sequences_corrected.taxid
Rscript IDtaxa_trainingDB.R -s split_cdhit/cdhit_sequences.fna -t split_cdhit/sequences_taxonomy_corrected.txt -r split_cdhit/sequences_corrected.taxid -o split_cdhit/sequences_corrected.Rdata