об анализе длин слов
Feb. 20th, 2005 06:19 pmФилологи наверняка в этой области имеют разработанную терминологию. Для меня это просто любопытное замечание.
Слова сокращаются от использования - это следствие общего закона отбора. На уровне целого языка явление общеизвестно - чем древнее язык, тем короче слова. Примеры - китайский, египетский, иврит с одной стороны, и финский, эстонский - с другой.
Но это в общем по языкам. А интересно рассмотреть процесс на диалектах/арго в пределах одного и того же языка. Выделяется группа индивидов с группой интересов. И они начинают (буквально!) шлифовать терминологию этих самых интересов. Некоторые понятия, для которых существовало только сложное описание ("программисты, предпочитающие Линукс", "пользователи визуальных оконных интерфейсов", "материнская плата", "духовые музыкальные инструменты", "лицо кавказской национальности") получают свои слова (линуксоид, мышевоз, мать, дудки, заГОРелый ) - длинные выражения сокращаются до слов. Длинные слова, в свою очередь, сокращаются до коротких (компьютер->комп, телевизор->ящик, микросхема->микруха). При этом, если словообразование уже не даёт сокращать, а в общеупотребимом иностранном языке такое слово есть, то можно и позаимствовать (микруха->чип, качалка->джим, еврей->жид).
Это я всё к чему - более точную и наглядную карту интересов человека/группы, своего рода mind-map, должно быть возможно построить, комбинируя частотный словарь с анализом длин слов. Разумеется, всё нужно делать относительно некоторой контрольной выборки (вокабулярия Пушкина в нашем случае).
Интересно, что я до сих пор ощущаю необходимость в старомодном слове "автомобиль". Для меня это сравнительно редкий вид "машины" :) При этом я нахожу крайне неудовлетворительной длину словосочетаний "малая терция" и "большая септима". Где прогресс?
Слова сокращаются от использования - это следствие общего закона отбора. На уровне целого языка явление общеизвестно - чем древнее язык, тем короче слова. Примеры - китайский, египетский, иврит с одной стороны, и финский, эстонский - с другой.
Но это в общем по языкам. А интересно рассмотреть процесс на диалектах/арго в пределах одного и того же языка. Выделяется группа индивидов с группой интересов. И они начинают (буквально!) шлифовать терминологию этих самых интересов. Некоторые понятия, для которых существовало только сложное описание ("программисты, предпочитающие Линукс", "пользователи визуальных оконных интерфейсов", "материнская плата", "духовые музыкальные инструменты", "лицо кавказской национальности") получают свои слова (линуксоид, мышевоз, мать, дудки, заГОРелый ) - длинные выражения сокращаются до слов. Длинные слова, в свою очередь, сокращаются до коротких (компьютер->комп, телевизор->ящик, микросхема->микруха). При этом, если словообразование уже не даёт сокращать, а в общеупотребимом иностранном языке такое слово есть, то можно и позаимствовать (микруха->чип, качалка->джим, еврей->жид).
Это я всё к чему - более точную и наглядную карту интересов человека/группы, своего рода mind-map, должно быть возможно построить, комбинируя частотный словарь с анализом длин слов. Разумеется, всё нужно делать относительно некоторой контрольной выборки (вокабулярия Пушкина в нашем случае).
Интересно, что я до сих пор ощущаю необходимость в старомодном слове "автомобиль". Для меня это сравнительно редкий вид "машины" :) При этом я нахожу крайне неудовлетворительной длину словосочетаний "малая терция" и "большая септима". Где прогресс?
no subject
Date: 2005-02-21 02:50 pm (UTC)"Тачка" в смысле компьютер. Через связку тачка-автомобиль-машина.
И ещё меня Blacky когда-то совершенно дезориентировал словом "компас". Я долго не мог понять, при чём тут компас. Оказалось, это тоже обозначение компутера.
no subject
Date: 2005-02-21 03:14 pm (UTC)ком-пью-тер (3 слога) -> ком-пас (2 слога) -> комп (1 слог), тач-ка (2 слога).
"Компас", да, я тоже от Блэки в первый раз услышал. А "тачка", как ни удивительно, уже в Англии, причём от
no subject
Date: 2005-02-23 06:48 am (UTC)Во-первых, с бухты-барахты заявлять "чем древнее язык, тем короче слова" — мягко говоря, опрометчиво. Получается, что китайцы когда-то говорили длиннющими словами, а финны через несколько тысяч лет, должны будут тоже говорить что-то вроде "mi pu lä it!". Хотя дело тут в другом: китайцы всегда говорили "как китайцы", потому что в их языке существует такой способ словоразличения, как тон, например. И так далее. В каждом языке средняя длина слов разная, и обусловлено это отнюдь не его древностью. Иврит "слогово" ни фига не "короткий" язык, равно как и древнеегипетский. Или ты имеешь в виду только написание? Тогда их вообще нельзя сравнивать, потому что логика написаний египетских и китайских иероглифов различна, и их нельзя сравнивать с "алфавитными" языками. Опять же, на слоги в словах это не влияет никак.
Что касается эффекта аббревиации слов, то совершенно верно: разговорный язык тяготеет к "упрощению" широко распространенных терминов (телек, инет, универ), особенно если это касается арготизмов, так как любое "профессиональное" сообщество тяготеет к выработке своего особого языка. Во-первых, это удобно, во-вторых, это замечательно служит как система распознавания "свой-чужой". Однако в случае с арго аббревиация не всегда единственный механизм словообразования. Могут быть придуманы или позаимствованы совсем другие слова, и их длина не будет иметь значение (напр., albatross или molar masher в мед. сленге).
Поэтому только длиной слов нельзя ограничится, без семантики и этимологии анализ будет неверным.
no subject
Date: 2005-02-23 07:48 am (UTC)Спасибо, фиНский исправил. Теперь тянет везде эти буквы выделять :)
С языками я имел в виду именно длину произношения во времени, абстрактный "битрейт" устной передачи. Поскольку китайцы изобрели тоны (т.е. как бы расширили базу гласных в 4 раза (а в кантонийском диалекте - вообще в 16) ), то информация естественным образом скомпрессовалась во времени. В этом смысле его, конечно, не совсем корректно сравнивать с европейскими языками.
А вот иврит с фиНским сравнивать по слогам - должно быть корректно. Потому что там, где фиНский недобирает до иврита по глухоте-звонкости согласных, он компенсирует введением дополнительных умляутных гласных. Разница может быть, но не на порядки. При этом если "те-ле-ви-зи-я" (5сл) одно из наиболее длинных слов в иврите, да и то потому, что заимствованное, то для фиНского это примерно соответствует средней длине (благодаря приставкам, составным корням, падежным окончаниям). И для повышения аудио-битрейта фиННам ничего не остаётся, как быстро лопотайнен :)
Поэтому только длиной слов нельзя ограничится, без семантики и этимологии анализ будет неверным.
Да. Собственно, введение в частотный анализ длин слов было именно предложением к апгрейду чистого частотного анализа. Естественно, чем больше добавить, тем точнее будет. Но... с семантикой придётся строить сложные смысловые сети конкретного подмножества/диалекта/арго языка, причём чуть ли не вручную (идея Виттенштейна о том, что если слово выдрать из предложения, то "форма" образовавшейся дырки определит смысл слова, безусловно, красива, но мне пока не попадалось ни одного нормального семантик-маппера на этом принципе).
no subject
Date: 2005-02-23 08:15 am (UTC)OFF: Ты письмо мое получил или как?
no subject
Date: 2005-02-23 09:48 am (UTC)no subject
Date: 2005-02-23 09:51 am (UTC)PS: в кои-то веки хотел сказать что-то умное, да и тут в фамилии Виттгенштейна опечатался. Тьфу :)
no subject
Date: 2005-02-23 09:55 am (UTC)Да ладно тебе :) Ты и так слишком много умного пишешь :)