jayrandom: (Default)
jayrandom ([personal profile] jayrandom) wrote2004-10-20 10:49 pm

Вести из Кембриджа, часть 5: чем занимаемся?

Публику интересует, чем тут в Институте Сангера занимаются? Отвечаю: по приемуществу, секвенируют, собирают и аннотируют геномы различных организмов. Наша группа пишет программы, связанные с ручным аннотированием.

Как известно, геномы состоят из хромосом - длинных последовательностей из четырёх видов букв, навроде следующей: ...atggatgtacgatcgcgatcgatcgcccgaaa.... Сначала эти последовательности рубят на кусочки и секвенируют - "читают" с помощью очень дорогой технологии. Потом "сшивают" в длинные куски, стараясь, по возможности, собрать обратно в целые хромосомы. Затем нужно всё осмыслить. Где-то в этих последовательностях записаны гены, кодирующие белки, где-то - сигналы, управляющие экспрессией этих генов. Всё это хозяйство (у человека - порядка 30000..50000 генов) надо на геноме найти и подписать - этой работой и занимаются аннотаторы. Мы же стараемся, чтобы аннотаторам никогда не было скучно привыкать к новым версиям и возможностям.

Для тех, кому приходилось полуавтоматически дезассемблировать машинный код, я смогу привести пример: аннотирование геномов сродни работе с IDA, Interactive Disassembler. Механическую работу там делает программа, но смысл из прочитанного может извлечь только человек. (Большая же разница в том, что в данном случае хакеризм одобряем и поощряем обществом :)

Сайт/браузер VeGA содержит рукотворную аннотацию трёх геномов (человека, мыши и рыбы), выполненяемую нашей группой (работа в процессе). Для сравнения, полностью автоматически аннотированных геномов значительно больше. Но и качество у них ощутимо хуже.

Недавно в автоматической аннотации человеческого генома нашли ошибку, пришлось всё пересчитывать. Пересчёт занял две недели на 1200-процессорном мультикластерном гриде (суперкомпьютере). Ощутимо, но не безумно долго.

Кстати, это неправда, что Проект Генома Человека, который так пиарили на смене веков, в действительности завершился в 2001 году. На самом деле в нём куча ошибок, недосеквенированных "дырок", над ним ещё работать и работать. Так что не будем торопиться искать просветление в клетках. Может, оно всё-таки на небе... :)