将multifasta文件拆分为具有相同数量的加入号的文件

我有一个包含数千个登录号的文件:

看起来像这样..

>NC_033829.1 Kallithea virus isolate DrosEU46_Kharkiv_2014, complete genome
AGTCAGCAACGTCGATGTGGCGTACAATTTCTTGATTACATTTTTGTTCCTAACAAAATGTTGATATACT

>NC_020414.2 Escherichia phage UAB_Phi78, complete genome
TAGGCGTGTGTCAGGTCTCTCGGCCTCGGCCTCGCCGGGATGTCCCCATAGGGTGCCTGTGGGCGCTAGG

如果想将其拆分为多个文件,每个文件都有一个登录号,那么我可以使用以下代码

awk -F '|' '/^>/ {F=sprintf("%s.fasta",$2); print > F;next;} {print >> F;}' < yourfile.fa

我有一个包含数千个登录号(又名 >NC_*)的文件,并希望将其拆分,例如每个文件包含约 5000 个登录号。因为我是 awk/bash/python 的新手,所以我很难找到一个巧妙的解决方案

任何想法或评论表示赞赏

以上是将multifasta文件拆分为具有相同数量的加入号的文件的全部内容。
THE END
分享
二维码
< <上一篇
下一篇>>