правильные многогранники в природе
Замечательная страничка, где можно посмотреть на "формы тела" разных вирусов. Любопытно построение аденовирусов и вирусов папильомы (вызывающих бородавки). Относительно простые элементы группируются в мини-икосаэдры, которые уже хранят в себе геном вируса. В каком-то смысле, это видимое, т.е. макропроявление валентности. Шестивалентность выражается в построении плоских сотоподобных треугольников, а пятивалентность проявляется на швах - см. схему:

Красиво!

Красиво!
no subject
no subject
no subject
Однако часто даже простые методы работают, и даже без особого оверфиттинга...
no subject
тут мой бывший шеф как раз на семинаре сказал : удивительно что эсвиэмы, вытекающие из теории машинного обучения, как раз именно этой теорией и не описываются так как у них VC размерность бесконечная в случае гауссова кернеля. И вообще теория сильно расходится с практикой. Но.. оно (эсмиэм) работает! Отсюда видимо следует так понимать что подход к теории должен быть снисходительным - хрен с ним, пусть расходится с практикой, лишь бы методы, вытекающие из этой теории, работали:))
всё ж таки я так полагаю для статьи неплохо было бы вставить предложеньице по поводу байолоджикалли инспайэрд мотивэйшн :)
no subject
no subject
no subject
no subject
На формальном уровне не так уж много искажений, которые можно легко описать. Но они есть. Например, если ты классифицируешь транслируемый материал (ДНК или РНК, которая в дальнейшем превратится в белок), то важным будет соблюдение троичности получаемого кода. Скажем, если где-то выпала одна единственная буква, мы получим т.н. frameshift, и, скорее всего, получится что-то невитальное. Но если тут выпала одна, а чуть подальше - ещё две буквы, в результате чего возникло небольшое локальное искажение, но белок как таковой может продолжать существовать, и даже не потерять свои полезные функции.
Можно пойти ещё дальше. На прошлой неделе один мужик давал тут семинар о том, как можно отметать потенциальный мусор из РНК на базе того, будет ли странслированный белок в дальнейшем хорошо кристаллизовываться. Всё в чистом силиконе - они берут ДНК, находят на ней места потенциального сплайсинга, генерируют все возможные комбинации, а потом каждый транскрипт "мысленно" транслируют, СВОРАЧИВАЮТ (предсказывая 3-мерную форму), а затем смотрят, насколько вероятно, что белок вообще может такую форму принять - это уже исходя из каких-то физико-квантовых моделей.
В результате получается, что чтобы сравнить два стринга, нужно очень глубоко погрузиться в семантику этих самых стрингов. Ужас-ужас... :)
no subject
ну хорошо допустим никаких frameshift'ов
ну всё равно есть ли "мусорные" и "важные" посл-ти? ты кажется называл мне примеры первых..
no subject
Например, есть:
- белок-кодирующие области (в чистом виде - как, например, бактериальные гены)
- полные гены (в которые входят и некодирующие участки, т.н. интроны, предположительно ни на что не влияющие)
- изначально некодирующие управляющие последовательности (всякие там промотеры, терминаторы, сплайс-сайты, энхансеры, сайленсеры)
- изначально некодирующие белок, но кодирующие РНК-продукт, гены
К ним ко всем немножко разный подход, исходя из их частичной информативности и частичной мусорности.
no subject
>d1a03a_ 1.41.1.2.1 Calcyclin (S100) {Rabbit (Oryctolagus cuniculus)}
maspldqaiglligifhkysgkegdkhtlskkelkeliqkeltigsklqdaeivklmddldrnkdqevnfqeyitflgalamiynealkg
1.41.1.2.1 - это код семейства/подсемейства гемоглобина которое я предиктю
no subject
Но некоторые - более важны :) Надо где-то надыбать таблицу аминокислот (которые, собственно, этими буквами кодируются) - они тоже распадаются на несколько классов: гидрофильные, гидрофобные, полярные, ... , и внутри каждого класса замена считается менее критичной, чем если буква из одного класса заменяется на букву из другого.
Кстати, можешь попробовать запостить вопрос в
no subject
гы
no subject