jayrandom: (Default)
jayrandom ([personal profile] jayrandom) wrote2004-09-30 02:26 pm

правильные многогранники в природе

Замечательная страничка, где можно посмотреть на "формы тела" разных вирусов. Любопытно построение аденовирусов и вирусов папильомы (вызывающих бородавки). Относительно простые элементы группируются в мини-икосаэдры, которые уже хранят в себе геном вируса. В каком-то смысле, это видимое, т.е. макропроявление валентности. Шестивалентность выражается в построении плоских сотоподобных треугольников, а пятивалентность проявляется на швах - см. схему:


Красиво!

[identity profile] ignat.livejournal.com 2004-09-30 10:09 am (UTC)(link)
Да, действительно, красиво!

[identity profile] suhov.livejournal.com 2004-09-30 12:07 pm (UTC)(link)
Слушай, давно хотел тебя спросить. Вот есть одна ДНК-цепочка, и есть другая, и мы на них кернель строим для двух стрингов. Для простоты - первая версия этого кернеля допускает "расхождения в символах не более к". Вторая же версия не только допускает расхождения, но и например, учитывает каковО пересечение класса "стрингов, отличающихся не более чем в к символах от первого стринга" с аналогичным для второго стринга. Есть ли у такого кернеля какое-нибудь биологическое оправдание?

[identity profile] jayrandom.livejournal.com 2004-09-30 12:34 pm (UTC)(link)
Наверное, обобщённое оправдание - наличие мутаций. А вот какую модель подложить под мутации - это уже отдельная песня. Мне кажется, что все эти построения довольно далеки от реальной картины, потому как в них предполагается статистический закон, генерирующий мутации. А на деле, похоже, существует закон, отфильтровывающий витальные мутации. Это не совсем одно и то же, ибо какие-то буковки выпасть могут, а могут и замениться, а какие-то являются обязательными, без них животное помрёт, не родившись.

Однако часто даже простые методы работают, и даже без особого оверфиттинга...

[identity profile] suhov.livejournal.com 2004-09-30 12:45 pm (UTC)(link)
О! именно
тут мой бывший шеф как раз на семинаре сказал : удивительно что эсвиэмы, вытекающие из теории машинного обучения, как раз именно этой теорией и не описываются так как у них VC размерность бесконечная в случае гауссова кернеля. И вообще теория сильно расходится с практикой. Но.. оно (эсмиэм) работает! Отсюда видимо следует так понимать что подход к теории должен быть снисходительным - хрен с ним, пусть расходится с практикой, лишь бы методы, вытекающие из этой теории, работали:))

всё ж таки я так полагаю для статьи неплохо было бы вставить предложеньице по поводу байолоджикалли инспайэрд мотивэйшн :)

[identity profile] jayrandom.livejournal.com 2004-09-30 01:35 pm (UTC)(link)
А, так это ты пишешь статью и классифицируешь в ней биообъекты?

[identity profile] suhov.livejournal.com 2004-09-30 02:40 pm (UTC)(link)
ну типа:)

[identity profile] suhov.livejournal.com 2004-10-04 01:16 am (UTC)(link)
на самом деле хотел спросить - а если мы положим веса, то есть в кернеле будем брать каждый такой "класс стрингов" с неким весом, который чем чаще этот класс встречается тем меньше вес и наоборот, - может ли такое быть биологически оправданно? то есть грубо говоря есть ли такие стринги и их модификации/мутации которые появляются слишком часто и являются грубо говоря мусором который хотелось бы отфильтровать и наоборот очень важные стринги которые появляются редко и поэтому им хотелось бы придать бОльший вес? Не мог бы ты привести примеры таких стрингов если они существуют?

[identity profile] jayrandom.livejournal.com 2004-10-04 02:06 am (UTC)(link)
Мне кажется, что всё не так просто. На деле веса должны придаваться исходя из семантики мутации, из того, приводит ли она к чему-то более витальному или менее витальному.

На формальном уровне не так уж много искажений, которые можно легко описать. Но они есть. Например, если ты классифицируешь транслируемый материал (ДНК или РНК, которая в дальнейшем превратится в белок), то важным будет соблюдение троичности получаемого кода. Скажем, если где-то выпала одна единственная буква, мы получим т.н. frameshift, и, скорее всего, получится что-то невитальное. Но если тут выпала одна, а чуть подальше - ещё две буквы, в результате чего возникло небольшое локальное искажение, но белок как таковой может продолжать существовать, и даже не потерять свои полезные функции.

Можно пойти ещё дальше. На прошлой неделе один мужик давал тут семинар о том, как можно отметать потенциальный мусор из РНК на базе того, будет ли странслированный белок в дальнейшем хорошо кристаллизовываться. Всё в чистом силиконе - они берут ДНК, находят на ней места потенциального сплайсинга, генерируют все возможные комбинации, а потом каждый транскрипт "мысленно" транслируют, СВОРАЧИВАЮТ (предсказывая 3-мерную форму), а затем смотрят, насколько вероятно, что белок вообще может такую форму принять - это уже исходя из каких-то физико-квантовых моделей.

В результате получается, что чтобы сравнить два стринга, нужно очень глубоко погрузиться в семантику этих самых стрингов. Ужас-ужас... :)

[identity profile] suhov.livejournal.com 2004-10-04 02:36 am (UTC)(link)
ой мама как всё сложно..
ну хорошо допустим никаких frameshift'ов
ну всё равно есть ли "мусорные" и "важные" посл-ти? ты кажется называл мне примеры первых..

[identity profile] jayrandom.livejournal.com 2004-10-04 03:58 am (UTC)(link)
Последовательностей очень много разных. Лучше скажи, над каким материалом ты работаешь - проще будет.

Например, есть:
- белок-кодирующие области (в чистом виде - как, например, бактериальные гены)
- полные гены (в которые входят и некодирующие участки, т.н. интроны, предположительно ни на что не влияющие)
- изначально некодирующие управляющие последовательности (всякие там промотеры, терминаторы, сплайс-сайты, энхансеры, сайленсеры)
- изначально некодирующие белок, но кодирующие РНК-продукт, гены

К ним ко всем немножко разный подход, исходя из их частичной информативности и частичной мусорности.

[identity profile] suhov.livejournal.com 2004-10-04 06:08 am (UTC)(link)
пример

>d1a03a_ 1.41.1.2.1 Calcyclin (S100) {Rabbit (Oryctolagus cuniculus)}
maspldqaiglligifhkysgkegdkhtlskkelkeliqkeltigsklqdaeivklmddldrnkdqevnfqeyitflgalamiynealkg

1.41.1.2.1 - это код семейства/подсемейства гемоглобина которое я предиктю

[identity profile] jayrandom.livejournal.com 2004-10-04 06:23 am (UTC)(link)
Ааа... совсем другая наука :) То есть, ты уже странслированные белки классифицируешь. Тогда мои предыдущие советы можешь пока проигнорировать - тут уже все буквы важны.

Но некоторые - более важны :) Надо где-то надыбать таблицу аминокислот (которые, собственно, этими буквами кодируются) - они тоже распадаются на несколько классов: гидрофильные, гидрофобные, полярные, ... , и внутри каждого класса замена считается менее критичной, чем если буква из одного класса заменяется на букву из другого.

Кстати, можешь попробовать запостить вопрос в [livejournal.com profile] ru_genetics, там встречаются очень толковые спецы.

[identity profile] jayrandom.livejournal.com 2004-10-04 02:10 am (UTC)(link)
Ещё по коду: если взглянуть на таблицу генетического кода, то там видно, что для трансляции наименее важной будет третья буква кодона. То есть, если твой паттерн-матчер нацелен именно на транслируемый материал, и если он будет сравнивать буквы 1,2,4,5,7,8 с большим весом, а 3,6,9 - с меньшим, то получится лучше, чем просто линейное сравнение.

гы

(Anonymous) 2007-03-19 02:28 pm (UTC)(link)
Привет белка и сухов, че у вас за неприличные темы для разговоров. Как то я немного не вьехала в ваш разговор, обьяснити непонтной глупо девочкие

[identity profile] jayrandom.livejournal.com 2007-03-20 10:05 am (UTC)(link)
Сейчас эта тема уже не актуальна, можешь пропустить.