Иосиф Ольшаницкий



 

ремонт кровли, металлочерепица, Ондулин
Изготовление значков
реклама pr Хорошое рекламное агентство. Рекламные агентства агентства горящих путевок
метанол изготовление бензина скачать
топ сервис топ модели агентство моделей

 

 

 

 

 

.

«6 букв…» и закон Зипфа

Не днях я прочёл подвернувшуюся в руки газетную статью ''Происхождение языка и закон Зипфа''.  

 Этот закон, конечно же, имеет отношение и к моей теме.

 

 Составитель и переводчик   Рафаил НУДЕЛЬМАН.

Израильская газета ''Окна'' в приложении к газете ''ВЕСТИ'', от 29 сентября 2005 года. Рубрика:  4-е измерение.  

 

Цитирую эту публикацию полностью. Она мне особо интересна в связи с моей серией «6 букв вместо 34-х», где я предлагаю, используя возможности персонального компьютера, графически  существенно упростить пока только русское письмо и его чтение заменой в нём каждой буквы русского алфавита лишь одной или иногда двумя точками в строках, состоящих из двух рядов этих точек.

 

«ЯЗЫК. Происхождение языка отделено от нас завесой веков, и заглянуть за неё науке, видимо, никогда не удастся. Поэтому споры о том, как возник язык, будут, надо думать, продолжаться вечно. Острые умы будут придумывать всё новые и новые гипотезы, а популяризаторы науки – всё новые и новые способы доносить их до широких интересующихся читательских масс.

 

     На нынешний день таких гипотез предложено уже несколько. Одни говорят, что язык произошёл из жестов; другие, – что из призывных и остерегающих возгласов; третьи, – что из примитивных ритмических напевов; четвёртые, – что из щёлканья; и так далее, и так далее. Вы и сами можете на досуге поупражняться в таких догадках, разве что вам не так легко будет подкрепить их фактическим материалом, как то в ходу у учёных.

     Обо всём этом говорено уже не раз, в том числе и на этих страницах, и потому сегодня мы не будем множить сущности без надобности, а, взяв быка за хвост и смело глянув ему в глаза, спросим: как произошло становление языка? Одну из гипотез на сей счёт предложили недавно барселонские учёные Канчо и Соле. Она резко порывает с тем, что обычно думают по данному вопросу. Обычно по данному вопросу думают, что становление языка происходило постепенно. А Канчо и Соле думают иначе. Вот ход их размышлений.

     Самый точный, однозначный язык, говорят барселонские авторы, должен был бы иметь по одному слову на каждое понятие, каждую вещь или каждое действие. Это был бы идеальный язык, но число слов в нём было бы огромно. Подумайте сами, – сколько оттенков есть у каждого цвета, сколько нюансов у каждого действия, сколькими тончайшими признаками отличается одна вещь от другой такой же?! Идеальным такой язык был бы разве что для слушателя, но говорящему пришлось бы прилагать колоссальные усилия, каждый раз выискивая единственное, точное слово из миллионов. Для говорящего выгоднее был бы язык противоположного типа, – состоящий из немногих слов, даже отдельных простых звуков, каждый из которых мог бы одновременно выполнять много разных функций. А в идеале он бы, наверно, предпочёл бы говорить на языке, состоящем из одного-единственного звука, который означал бы всё, что потребуется впредь. (Примерно так говорят наши младенцы, – кряхтят или вопят, выражая этим всю гамму своих эмоций и пожеланий. Иными словами, соображения экономии сил толкают говорящего и слушателя в противоположные стороны: одному подай язык из минимального количества разных слов, другому – из максимального. А всё потому, что говорящий знает, что он хочет сообщить, его задача – выразить это словами, и его интерес – как это сделать, затратив как можно меньше усилий. А задача слушателя – понять сказанное, и его интересует, как это сделать, тоже приложив как можно меньше усилий. Интересы у каждого, как видим, разные, но принцип, из которого они исходят, - одинаковый, в науке он издавна называется принципом наименьшего действия.

     То же самое можно выразить и иначе: при пользовании языком сталкиваются силы, толкающие к однообразию, и силы, толкающие к многообразию. Легко понять, что язык, формируясь под давлением этих разнонаправленных сил, обретает в результате признаки компромисса, некой равнодействующей. Наши барселонцы придумали, как выразить эти конфликтные предпочтения говорящего и слушающего на языке математики – так, чтобы пользование языком (усилия, необходимые для языкового общения) было максимально выгодным (и минимально невыгодным) обеим сторонам. И эта математика показала, что при постепенном переходе от одной крайности к другой, т. е. от языка, состоящего из одного слова, к языку, состоящему из мириад слов, имеет место любопытное явление, – при каком-то определённом количестве слов в языке и определённых частотах появления тех или иных слов затраты на общение резко уменьшаются. Человеческие языки имеют как раз такие частоты для различных слов, которые соответствуют этому пику взаимовыгодности. По обе стороны от этого пика свойства языка таковы, что кому-то невыгодно им пользоваться. А поскольку каждому общающемуся приходится быть то слушателем, то говорящим, то невыгодно становится всем. И такой язык попросту не возникает.  «Языки, промежуточные между сигнальными жестами животных и современными человеческими языками, попросту не могли существовать» – к такому радикальному выводу приходят барселонские авторы. Иными словами, язык формировался не постепенно, не путём медленного накопления всё новых слов, а каким-то иным, более похожим на взрыв, путём. Каким в точности – на этот вопрос Канчо и Соле не отвечают. Тем более не можем ответить и мы. То есть мы, конечно, можем напомнить, что дети, бывает, не говорят лет до 3-4, чем страшно пугают родителей, а потом вдруг открывают рот, и оказывается, что он у них полон слов, правильных и разных. Но дети растут в уже существующей языковой среде, а вот представить себе в их роли наших древних предков как-то затруднительно.

     Однако вот что любопытно (и отчасти подтверждает, что в гипотезе Канчо-Сале есть рациональное зерно) – в этом своём математическом анализе свойств воображаемого языка испанские исследователи наткнулись на вполне реальное свойство языков реальных, современных. Как мы уже мельком отметили выше, то (самое взаимовыгодное) распределение частоты употребления разных слов, которое они нашли в результате математических расчётов, действительно характерно для многих существующих человеческих языков. В лингвистике оно называется степенным законом, или ещё законом Зипфа. Мало кто, кроме узких специалистов, знает об этом законе, наверняка ещё меньше – о его авторе, поэтому тут будет уместно сделать небольшое отступление и сказать несколько слов. Тем более что это любопытная история сама по себе.

     Джорж Кингсли Зипф прожил короткую жизнь – с 1902 по 1950 год. Он был лингвистом и филологом и 20 лет преподавал немецкий язык в Гарвардском университете, параллельно увлекаясь китайским. Как пишет о нём знаменитый математик Бенуа Мандельброт (о котором ниже), Зипф называл себя специалистом по статистической социальной экологии. Он искал общие законы социологии, прилагая физические идеи и статистические методы к социальным явлениям. Он был убеждён, что все социальные явления определяются двумя противоборствующими силами – выше мы назвали их силой, толкающей к однообразию, и силой, толкающей к многообразию, и это как раз были термины Зипфа, - а результат такого противоборства диктуется принципом наименьшего действия. Эти свои идеи он изложил в книге, которую так и назвал: «Человеческое поведение и принцип наименьшего действия» – и которую издал незадолго до смерти, кажется, на собственные деньги.

     Миндельброт так пишет об этой книге: «То было одно из тех сочинений, в которых проблески гениальности, вспыхивающие в самых разных направлениях, почти заслоняются кучей совершенно взболмошенных и экстравагантных идей. С одной стороны, автор обсуждает форму половых органов с точки зрения экономии затрат и оправдывает включение (аншлюс) Австрии в нацистскую Германию тем, что улучшает приложимость некой математической формулы. С другой стороны, он наполняет страницы графиками и таблицами, которые неутомимо бьют в одну точку, доказывая, что социальная статистика лучше всего объясняется одними и теми же степенными законами. Физики и астрономы легко могут узнать в этих формулах Зипфа некоторые хорошо известные им законы своих наук. Поэтому им трудно будет понять, чем было продиктовано то яростное сопротивление, с которым было встречено применение Зипфом тех же законов к наукам социальным.

 

     А вот как лауреат Нобелевской премии физик Гелл-Манн объясняет простейший закон Зипфа: “Положим, ма откроем статистический справочник и найдём там список крупнейших городов США, расположенных по порядку убывания населения, причём каждому городу будет приписан его ранг: первый – для самого большого, второй – для следующего и так далее.  Существует ли какой-нибудь общий закон, показывающий, как убывает население города по мере увеличения его ранга? Грубо говоря, да. С достаточной точностью население города обратно пропорционально его рангу: если население первого принять за единицу, то население второго – 1/2, третьего – 1/3 и так далее. Глянем теперь на список фирм, расположенных в порядке убывания их оборота. Существует ли здесь какой-либо приблизительный закон, свяхывающий объём оборота с рангом фирмы? Да, и это тот же закон, что для населения: оборот фирмы обратно пропорционален его рангу. А как насчёт экспорта из данной страны в порядке его убывания? Оказывается, и тут ситуация хорошо описывается тем же законом.  Тогда отложим в сторону статистический справочник и возьмём в руки руководство по кодам, в котором имеется список самых распространённых английских слов в порядке убывания частоты их встречаемости в произвольном английском тексте. Мы опять увидим тот же закон обратной пропорциональности – он так же хорошо работает в языке, причём не только в английском».

     Это последнее применение степенного закона – к языку – как раз и имеют чаще всего в виду, когда говорят о законе Зипфа. На графике он изображается известной школьной кривой – гиперболой. Эта кривая отражает тот общепонятный факт, что некоторые немногие английские слова (в первую очередь THE, OF, TU, A, AND, IN, THAT, FOR, WAS, WITH, HIS, IS) встречаются очень часто (левая часть графика), подавляющее большинство слов встречается со средней частотой (средняя часть графика) и есть небольшое количество слов (очень длинных – например, эксгибиционизм), которые встречаются очень редко. Что гораздо менее очевидно – так это то, что если расположить их по частоте встречаемости (что и будет их рангом), то частота встречаемости слова с рангом n будет 1/n.  Таково математическое выражение того же закона, и именно эту особенность нашли Канчо и Соле. Поэтому множество слов, появившееся из их компьютера, как Афина из головы Зевса, действительно заслуживает звание языка. Вообще, всё, что является осмысленным языком, скорее всего, должно подчиняться закону Зипфа: например, известный современный исследователь Руссо вместе со своими китайскими коллегами показал применимость этого закона к языку «мандарин»; существуют работы, доказывающие его применимость к польскому и чешскому; русские исследователи подтвердили его применимость к «великому и могучему», который оказался таким же несвободным от закономерностей, как его иноязычные коллеги ( в русском языке первую по рангу ширенгу образуют слова: И, В, НЕ, НА, ЧТО, Я, С, МЫ, У, ОН, ПО, БЫЛО), - и из всего этого следует, что при встрече с каким-то закодированным текстом простейший способ выяснить, осмысленный это текст или просто набор случайно используемых значков, - это проверить частотность знаков этого текста на закон Зипфа.

     Итак, всё, что язык, подчиняется закону Зипфа – но обратное неверно: не всякое множество, в котором выполняется закон Зипфа, - это язык. Дело в том, что открытие Зипфа имело массу продолжений в самых неожиданных  направлениях, и, например, уже в наше время показано, что то же (обратно пропорциональное) соотношение между частотой и рангом выполняется при поиске сайтов в Интернете (число запросов для второго по популярности сайта вдвое меньше числа запросов для первого и т. д.), в области цитирования научных трудов, по отношению к запросу самых ходовых книг в публичной библиотеке и во многих других неожиданных областях социальной деятельности людей. Но выполняется он с   отклонениями, порой даже значительными, и анализ этих отклонений привёл уже упомянутого Бенуа Мандельброта к открытию чего-то вроде обобщённого закона Зипфа.

     Мандельброт показал, что формула Зипфа будет лучше согласовываться с реальными данными, если внести в неё два исправления: частота обратно пропорциональна не просто рангу, а рангу плюс некоторая постоянная, причём для одних явлений это будет ранг плюс постоянная в первой степени, как у самого Зипфа, для других – ранг плюс постоянная в квадрате или в кубе. А развивая это направление исследований, Мандельброт в конечном счёте пришёл к одному из самых громких открытий второй половины двадцатого века – к открытию так называемых фракталов, ещё более, быть может, вездесущих в природе, нежели закон Зипфа. Вот такая история.

Михаил ВАРТБУРГ»

 

*     *     *

     Иностранный язык, очевидно, стоит учить по частотному словарю. 

 

     К моей теме с уже давно устаревшим названием: «6 букв вместо 34-х» закон Зипфа имеет отношение самое непосредственное. 

 

     То, что относится к словам и буквам, относится и к частоте встречаемых обозначений букв в «ольшанице», и к типичным сочетаниям этих обозначений, - причём как вплотную друг к другу, так и в грамматических взаимосвязях слов. 

    

     Закон Зипфа хорошо иллюстрирует то, как совсем не сложно научиться ''точечному письму''.

     Самые короткие слова относятся к первой по рангу шеренге слов, чуть более длинные – ко второй по рангу шеренге слов, ещё чуть более длинные слова – к третьей по рангу шеренге слов и так далее. Очень длинные слова соответственно шеренге своего ранга встречаются очень редко. Слишком длинные слова в обычном шрифте читаются с трудом, но зашифрованные ''ольшаницей'' такие слова, обязательно упомянутые сначала в явных буквах обычного шрифта, в дальнейшем легко угадываются всего лишь по двум-трем точкам, расположенным в местах, характерных именно для данного слова.

     В русском языке имеется много разных приставок, суффиксов и окончаний, и не так уж много корней. Но лексика русского языка богаче других, например, европейских языков. Ведь из одного короткого корня за счет комбинаций его со всякими приставками, суффиксами и окончаниями можно произвести почти неограниченное число слов с разными смысловыми оттенками. Во сколько раз сожмётся орфографический словарь русского языка, если оставить в нём только корни слов, а потом еще отбросить корни слов, этимологически производные от корней исходных. Ядро основного фонда словарного состава русского языка ничтожно мало. Но весь словарный состав русского языка, производный от этого ядра, пожалуй, богаче, чем словарный состав любого другого языка в мире.

Не так уж много имеется в русском языке таких сочетаний из букв его алфавита, которые являются существующими в русском языке корнями, приставками, суффиксами и окончаниями. Эти сочетания букв, зашифрованные неявными их обозначениями в ''ольшанице'', дают во много раз меньше сочетаний таких обозначений. Расшифровка сочетаний этих обозначений в сочетания букв алфавита связана со свойствами русского языка, которые позволяют с помощью компьютера мгновенно зашифровать, расшифровать и перешифровать русский текст, используя не 33 буквенных знака, а значительно меньшее число знаков, желательно не таких, как в обычном шрифте. В английском языке букв значительно меньше, чем в русском, а звуков значительно больше. Комбинацией букв обозначают часть английских или иноязычных звуков. При этом используются специфические обстоятельства и особенности английского языка. Одни и те же буквы, особенно в комбинациях с другими буквами, читаются по-разному в разных обстоятельствах. Иногда требуется просто запоминание, и объяснить написание слова вообще невозможно.

 

     Шифрование ''ольшаницей'' позволяет сократить разнообразие буквенных знаков письма вплоть до двух. Один из них является всего лишь точкой на верхнем уровне строки, другой – точкой на нижнем уровне строки. Между этими уровнями достаточно лишь такое расстояние, чтобы можно было отличить верхнюю точку от точки нижней. Иначе говоря, точки в строке достаточно располагать с едва различимым отклонением этих точек от оси строки. Почти на каждую букву алфавита в таком письме достаточно лишь одной точки, верхней или нижней. Лишь нескольким из букв алфавита потребуется в обозначении и верхняя, и нижняя точка. Эти точки должны отличаться чем-нибудь от точек знаков препинания, например, высотой расположения в строке или тем, что они у нас будут подчеркнуты.

 

     Как же читать такое письмо, где «в каждой строчке только точки»? Вникнем, зачем это нужно.

     Длинные слова читать утомительно. Когда сокращают некоторые хорошо знакомые слова до одной-двух букв (и т. д., и т. п.), то это не затрудняет чтение, а наоборот, облегчает. Отгадывать некоторые слова менее утомительно, чем вглядываться во все их буквы. В энциклопедическом словаре применяют очень много сокращений. До каких пределов удобно сокращение всё большей части слов?

     Прополку строк мы начали с повторения пройденного. Мы, как и большевики, заменили твёрдый знак – Ъ – маленьким, но более заметным в строке значком ', называемым словом «апостроф». Сразу стало понятно всегда известное, - что и мягкий знак – Ь