jayrandom | правильные многогранники в природе

правильные многогранники в природе

Замечательная страничка, где можно посмотреть на "формы тела" разных вирусов. Любопытно построение аденовирусов и вирусов папильомы (вызывающих бородавки). Относительно простые элементы группируются в мини-икосаэдры, которые уже хранят в себе геном вируса. В каком-то смысле, это видимое, т.е. макропроявление валентности. Шестивалентность выражается в построении плоских сотоподобных треугольников, а пятивалентность проявляется на швах - см. схему:

Красиво!

Flat | Top-Level Comments Only

Да, действительно, красиво!

Слушай, давно хотел тебя спросить. Вот есть одна ДНК-цепочка, и есть другая, и мы на них кернель строим для двух стрингов. Для простоты - первая версия этого кернеля допускает "расхождения в символах не более к". Вторая же версия не только допускает расхождения, но и например, учитывает каковО пересечение класса "стрингов, отличающихся не более чем в к символах от первого стринга" с аналогичным для второго стринга. Есть ли у такого кернеля какое-нибудь биологическое оправдание?

Наверное, обобщённое оправдание - наличие мутаций. А вот какую модель подложить под мутации - это уже отдельная песня. Мне кажется, что все эти построения довольно далеки от реальной картины, потому как в них предполагается статистический закон, генерирующий мутации. А на деле, похоже, существует закон, отфильтровывающий витальные мутации. Это не совсем одно и то же, ибо какие-то буковки выпасть могут, а могут и замениться, а какие-то являются обязательными, без них животное помрёт, не родившись.

Однако часто даже простые методы работают, и даже без особого оверфиттинга...

О! именно
тут мой бывший шеф как раз на семинаре сказал : удивительно что эсвиэмы, вытекающие из теории машинного обучения, как раз именно этой теорией и не описываются так как у них VC размерность бесконечная в случае гауссова кернеля. И вообще теория сильно расходится с практикой. Но.. оно (эсмиэм) работает! Отсюда видимо следует так понимать что подход к теории должен быть снисходительным - хрен с ним, пусть расходится с практикой, лишь бы методы, вытекающие из этой теории, работали:))

всё ж таки я так полагаю для статьи неплохо было бы вставить предложеньице по поводу байолоджикалли инспайэрд мотивэйшн :)

А, так это ты пишешь статью и классифицируешь в ней биообъекты?

ну типа:)

на самом деле хотел спросить - а если мы положим веса, то есть в кернеле будем брать каждый такой "класс стрингов" с неким весом, который чем чаще этот класс встречается тем меньше вес и наоборот, - может ли такое быть биологически оправданно? то есть грубо говоря есть ли такие стринги и их модификации/мутации которые появляются слишком часто и являются грубо говоря мусором который хотелось бы отфильтровать и наоборот очень важные стринги которые появляются редко и поэтому им хотелось бы придать бОльший вес? Не мог бы ты привести примеры таких стрингов если они существуют?

Мне кажется, что всё не так просто. На деле веса должны придаваться исходя из семантики мутации, из того, приводит ли она к чему-то более витальному или менее витальному.

На формальном уровне не так уж много искажений, которые можно легко описать. Но они есть. Например, если ты классифицируешь транслируемый материал (ДНК или РНК, которая в дальнейшем превратится в белок), то важным будет соблюдение троичности получаемого кода. Скажем, если где-то выпала одна единственная буква, мы получим т.н. frameshift, и, скорее всего, получится что-то невитальное. Но если тут выпала одна, а чуть подальше - ещё две буквы, в результате чего возникло небольшое локальное искажение, но белок как таковой может продолжать существовать, и даже не потерять свои полезные функции.

Можно пойти ещё дальше. На прошлой неделе один мужик давал тут семинар о том, как можно отметать потенциальный мусор из РНК на базе того, будет ли странслированный белок в дальнейшем хорошо кристаллизовываться. Всё в чистом силиконе - они берут ДНК, находят на ней места потенциального сплайсинга, генерируют все возможные комбинации, а потом каждый транскрипт "мысленно" транслируют, СВОРАЧИВАЮТ (предсказывая 3-мерную форму), а затем смотрят, насколько вероятно, что белок вообще может такую форму принять - это уже исходя из каких-то физико-квантовых моделей.

В результате получается, что чтобы сравнить два стринга, нужно очень глубоко погрузиться в семантику этих самых стрингов. Ужас-ужас... :)

ой мама как всё сложно..
ну хорошо допустим никаких frameshift'ов
ну всё равно есть ли "мусорные" и "важные" посл-ти? ты кажется называл мне примеры первых..

Последовательностей очень много разных. Лучше скажи, над каким материалом ты работаешь - проще будет.

Например, есть:
- белок-кодирующие области (в чистом виде - как, например, бактериальные гены)
- полные гены (в которые входят и некодирующие участки, т.н. интроны, предположительно ни на что не влияющие)
- изначально некодирующие управляющие последовательности (всякие там промотеры, терминаторы, сплайс-сайты, энхансеры, сайленсеры)
- изначально некодирующие белок, но кодирующие РНК-продукт, гены

К ним ко всем немножко разный подход, исходя из их частичной информативности и частичной мусорности.

пример

>d1a03a_ 1.41.1.2.1 Calcyclin (S100) {Rabbit (Oryctolagus cuniculus)}
maspldqaiglligifhkysgkegdkhtlskkelkeliqkeltigsklqdaeivklmddldrnkdqevnfqeyitflgalamiynealkg

1.41.1.2.1 - это код семейства/подсемейства гемоглобина которое я предиктю

Ааа... совсем другая наука :) То есть, ты уже странслированные белки классифицируешь. Тогда мои предыдущие советы можешь пока проигнорировать - тут уже все буквы важны.

Но некоторые - более важны :) Надо где-то надыбать таблицу аминокислот (которые, собственно, этими буквами кодируются) - они тоже распадаются на несколько классов: гидрофильные, гидрофобные, полярные, ... , и внутри каждого класса замена считается менее критичной, чем если буква из одного класса заменяется на букву из другого.

Кстати, можешь попробовать запостить вопрос в

ru_genetics, там встречаются очень толковые спецы.

Ещё по коду: если взглянуть на таблицу генетического кода, то там видно, что для трансляции наименее важной будет третья буква кодона. То есть, если твой паттерн-матчер нацелен именно на транслируемый материал, и если он будет сравнивать буквы 1,2,4,5,7,8 с большим весом, а 3,6,9 - с меньшим, то получится лучше, чем просто линейное сравнение.

Привет белка и сухов, че у вас за неприличные темы для разговоров. Как то я немного не вьехала в ваш разговор, обьяснити непонтной глупо девочкие

Сейчас эта тема уже не актуальна, можешь пропустить.

Flat | Top-Level Comments Only

правильные многогранники в природе

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

гы

no subject