Вот, я не ошибся, когда предположил, что ты на мне потопчешься :)
Спасибо, фиНский исправил. Теперь тянет везде эти буквы выделять :)
С языками я имел в виду именно длину произношения во времени, абстрактный "битрейт" устной передачи. Поскольку китайцы изобрели тоны (т.е. как бы расширили базу гласных в 4 раза (а в кантонийском диалекте - вообще в 16) ), то информация естественным образом скомпрессовалась во времени. В этом смысле его, конечно, не совсем корректно сравнивать с европейскими языками.
А вот иврит с фиНским сравнивать по слогам - должно быть корректно. Потому что там, где фиНский недобирает до иврита по глухоте-звонкости согласных, он компенсирует введением дополнительных умляутных гласных. Разница может быть, но не на порядки. При этом если "те-ле-ви-зи-я" (5сл) одно из наиболее длинных слов в иврите, да и то потому, что заимствованное, то для фиНского это примерно соответствует средней длине (благодаря приставкам, составным корням, падежным окончаниям). И для повышения аудио-битрейта фиННам ничего не остаётся, как быстро лопотайнен :)
Поэтому только длиной слов нельзя ограничится, без семантики и этимологии анализ будет неверным.
Да. Собственно, введение в частотный анализ длин слов было именно предложением к апгрейду чистого частотного анализа. Естественно, чем больше добавить, тем точнее будет. Но... с семантикой придётся строить сложные смысловые сети конкретного подмножества/диалекта/арго языка, причём чуть ли не вручную (идея Виттенштейна о том, что если слово выдрать из предложения, то "форма" образовавшейся дырки определит смысл слова, безусловно, красива, но мне пока не попадалось ни одного нормального семантик-маппера на этом принципе).
no subject
Date: 2005-02-23 07:48 am (UTC)Спасибо, фиНский исправил. Теперь тянет везде эти буквы выделять :)
С языками я имел в виду именно длину произношения во времени, абстрактный "битрейт" устной передачи. Поскольку китайцы изобрели тоны (т.е. как бы расширили базу гласных в 4 раза (а в кантонийском диалекте - вообще в 16) ), то информация естественным образом скомпрессовалась во времени. В этом смысле его, конечно, не совсем корректно сравнивать с европейскими языками.
А вот иврит с фиНским сравнивать по слогам - должно быть корректно. Потому что там, где фиНский недобирает до иврита по глухоте-звонкости согласных, он компенсирует введением дополнительных умляутных гласных. Разница может быть, но не на порядки. При этом если "те-ле-ви-зи-я" (5сл) одно из наиболее длинных слов в иврите, да и то потому, что заимствованное, то для фиНского это примерно соответствует средней длине (благодаря приставкам, составным корням, падежным окончаниям). И для повышения аудио-битрейта фиННам ничего не остаётся, как быстро лопотайнен :)
Поэтому только длиной слов нельзя ограничится, без семантики и этимологии анализ будет неверным.
Да. Собственно, введение в частотный анализ длин слов было именно предложением к апгрейду чистого частотного анализа. Естественно, чем больше добавить, тем точнее будет. Но... с семантикой придётся строить сложные смысловые сети конкретного подмножества/диалекта/арго языка, причём чуть ли не вручную (идея Виттенштейна о том, что если слово выдрать из предложения, то "форма" образовавшейся дырки определит смысл слова, безусловно, красива, но мне пока не попадалось ни одного нормального семантик-маппера на этом принципе).