jayrandom: (Default)
[personal profile] jayrandom
Замечательная страничка, где можно посмотреть на "формы тела" разных вирусов. Любопытно построение аденовирусов и вирусов папильомы (вызывающих бородавки). Относительно простые элементы группируются в мини-икосаэдры, которые уже хранят в себе геном вируса. В каком-то смысле, это видимое, т.е. макропроявление валентности. Шестивалентность выражается в построении плоских сотоподобных треугольников, а пятивалентность проявляется на швах - см. схему:


Красиво!

Date: 2004-09-30 10:09 am (UTC)
From: [identity profile] ignat.livejournal.com
Да, действительно, красиво!

Date: 2004-09-30 12:07 pm (UTC)
From: [identity profile] suhov.livejournal.com
Слушай, давно хотел тебя спросить. Вот есть одна ДНК-цепочка, и есть другая, и мы на них кернель строим для двух стрингов. Для простоты - первая версия этого кернеля допускает "расхождения в символах не более к". Вторая же версия не только допускает расхождения, но и например, учитывает каковО пересечение класса "стрингов, отличающихся не более чем в к символах от первого стринга" с аналогичным для второго стринга. Есть ли у такого кернеля какое-нибудь биологическое оправдание?

Date: 2004-09-30 12:34 pm (UTC)
From: [identity profile] jayrandom.livejournal.com
Наверное, обобщённое оправдание - наличие мутаций. А вот какую модель подложить под мутации - это уже отдельная песня. Мне кажется, что все эти построения довольно далеки от реальной картины, потому как в них предполагается статистический закон, генерирующий мутации. А на деле, похоже, существует закон, отфильтровывающий витальные мутации. Это не совсем одно и то же, ибо какие-то буковки выпасть могут, а могут и замениться, а какие-то являются обязательными, без них животное помрёт, не родившись.

Однако часто даже простые методы работают, и даже без особого оверфиттинга...

Date: 2004-09-30 12:45 pm (UTC)
From: [identity profile] suhov.livejournal.com
О! именно
тут мой бывший шеф как раз на семинаре сказал : удивительно что эсвиэмы, вытекающие из теории машинного обучения, как раз именно этой теорией и не описываются так как у них VC размерность бесконечная в случае гауссова кернеля. И вообще теория сильно расходится с практикой. Но.. оно (эсмиэм) работает! Отсюда видимо следует так понимать что подход к теории должен быть снисходительным - хрен с ним, пусть расходится с практикой, лишь бы методы, вытекающие из этой теории, работали:))

всё ж таки я так полагаю для статьи неплохо было бы вставить предложеньице по поводу байолоджикалли инспайэрд мотивэйшн :)

Date: 2004-09-30 01:35 pm (UTC)
From: [identity profile] jayrandom.livejournal.com
А, так это ты пишешь статью и классифицируешь в ней биообъекты?

Date: 2004-09-30 02:40 pm (UTC)
From: [identity profile] suhov.livejournal.com
ну типа:)

Date: 2004-10-04 01:16 am (UTC)
From: [identity profile] suhov.livejournal.com
на самом деле хотел спросить - а если мы положим веса, то есть в кернеле будем брать каждый такой "класс стрингов" с неким весом, который чем чаще этот класс встречается тем меньше вес и наоборот, - может ли такое быть биологически оправданно? то есть грубо говоря есть ли такие стринги и их модификации/мутации которые появляются слишком часто и являются грубо говоря мусором который хотелось бы отфильтровать и наоборот очень важные стринги которые появляются редко и поэтому им хотелось бы придать бОльший вес? Не мог бы ты привести примеры таких стрингов если они существуют?

Date: 2004-10-04 02:06 am (UTC)
From: [identity profile] jayrandom.livejournal.com
Мне кажется, что всё не так просто. На деле веса должны придаваться исходя из семантики мутации, из того, приводит ли она к чему-то более витальному или менее витальному.

На формальном уровне не так уж много искажений, которые можно легко описать. Но они есть. Например, если ты классифицируешь транслируемый материал (ДНК или РНК, которая в дальнейшем превратится в белок), то важным будет соблюдение троичности получаемого кода. Скажем, если где-то выпала одна единственная буква, мы получим т.н. frameshift, и, скорее всего, получится что-то невитальное. Но если тут выпала одна, а чуть подальше - ещё две буквы, в результате чего возникло небольшое локальное искажение, но белок как таковой может продолжать существовать, и даже не потерять свои полезные функции.

Можно пойти ещё дальше. На прошлой неделе один мужик давал тут семинар о том, как можно отметать потенциальный мусор из РНК на базе того, будет ли странслированный белок в дальнейшем хорошо кристаллизовываться. Всё в чистом силиконе - они берут ДНК, находят на ней места потенциального сплайсинга, генерируют все возможные комбинации, а потом каждый транскрипт "мысленно" транслируют, СВОРАЧИВАЮТ (предсказывая 3-мерную форму), а затем смотрят, насколько вероятно, что белок вообще может такую форму принять - это уже исходя из каких-то физико-квантовых моделей.

В результате получается, что чтобы сравнить два стринга, нужно очень глубоко погрузиться в семантику этих самых стрингов. Ужас-ужас... :)

Date: 2004-10-04 02:36 am (UTC)
From: [identity profile] suhov.livejournal.com
ой мама как всё сложно..
ну хорошо допустим никаких frameshift'ов
ну всё равно есть ли "мусорные" и "важные" посл-ти? ты кажется называл мне примеры первых..

Date: 2004-10-04 03:58 am (UTC)
From: [identity profile] jayrandom.livejournal.com
Последовательностей очень много разных. Лучше скажи, над каким материалом ты работаешь - проще будет.

Например, есть:
- белок-кодирующие области (в чистом виде - как, например, бактериальные гены)
- полные гены (в которые входят и некодирующие участки, т.н. интроны, предположительно ни на что не влияющие)
- изначально некодирующие управляющие последовательности (всякие там промотеры, терминаторы, сплайс-сайты, энхансеры, сайленсеры)
- изначально некодирующие белок, но кодирующие РНК-продукт, гены

К ним ко всем немножко разный подход, исходя из их частичной информативности и частичной мусорности.

Date: 2004-10-04 06:08 am (UTC)
From: [identity profile] suhov.livejournal.com
пример

>d1a03a_ 1.41.1.2.1 Calcyclin (S100) {Rabbit (Oryctolagus cuniculus)}
maspldqaiglligifhkysgkegdkhtlskkelkeliqkeltigsklqdaeivklmddldrnkdqevnfqeyitflgalamiynealkg

1.41.1.2.1 - это код семейства/подсемейства гемоглобина которое я предиктю

Date: 2004-10-04 06:23 am (UTC)
From: [identity profile] jayrandom.livejournal.com
Ааа... совсем другая наука :) То есть, ты уже странслированные белки классифицируешь. Тогда мои предыдущие советы можешь пока проигнорировать - тут уже все буквы важны.

Но некоторые - более важны :) Надо где-то надыбать таблицу аминокислот (которые, собственно, этими буквами кодируются) - они тоже распадаются на несколько классов: гидрофильные, гидрофобные, полярные, ... , и внутри каждого класса замена считается менее критичной, чем если буква из одного класса заменяется на букву из другого.

Кстати, можешь попробовать запостить вопрос в [livejournal.com profile] ru_genetics, там встречаются очень толковые спецы.

Date: 2004-10-04 02:10 am (UTC)
From: [identity profile] jayrandom.livejournal.com
Ещё по коду: если взглянуть на таблицу генетического кода, то там видно, что для трансляции наименее важной будет третья буква кодона. То есть, если твой паттерн-матчер нацелен именно на транслируемый материал, и если он будет сравнивать буквы 1,2,4,5,7,8 с большим весом, а 3,6,9 - с меньшим, то получится лучше, чем просто линейное сравнение.

гы

Date: 2007-03-19 02:28 pm (UTC)
From: (Anonymous)
Привет белка и сухов, че у вас за неприличные темы для разговоров. Как то я немного не вьехала в ваш разговор, обьяснити непонтной глупо девочкие

Date: 2007-03-20 10:05 am (UTC)
From: [identity profile] jayrandom.livejournal.com
Сейчас эта тема уже не актуальна, можешь пропустить.

Profile

jayrandom: (Default)
jayrandom

January 2026

S M T W T F S
    1 23
45678910
111213141516 17
18192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 19th, 2026 05:02 pm
Powered by Dreamwidth Studios