Если геном выгрузили в виде контигов значит во что-либо более крупное (например скаффолды) собрать его нельзя, так как требуется дополнительная информация о взаимном расположении контигов. В случае генома человека это были карты рекомбинаций составленные методами классической генетики. И при этом даже спустя 15 лет остаются вопросы о взаимном расположении некоторых генов. В случае бактерий например можно делать пцр с длинными фрагментами (neb'овская полимераза q5 великолепно вытягивает гц-богатые и повторяющиеся последовательности). А часто это и не нужно. С NCBI я лично через фтп качаю при необходимости массовой загрузки.
Ну а как понять, что на фтп - нужный мне файл? Потому что как таковых файлов GenBank я там что-то не вижу. Вижу данные WGS, но тут нужна сборка. В то время как через поиск на NCBI большинство этих геномов доступны уже в собранном виде. Что я пропускаю?
Так, чуток разобрался. Одно не пойму: как понять, контиг + или -, а то попытался собрать для начала чего попроще: плазмиду pXO1 штамма СТИ-1 - и увидел, что часть контигов «ложатся» на референс сами по себе, а часть - только если взять реверс-комплементарную последовательность. И как понять, какой ориентации контиг?