Знакомое и незнакомое
Знакомое и незнакомое
Советом Холодовича «переключиться» я не воспользовалась — очень уж неуютно я себя чувствовала. Мои дальнейшие поиски отчасти шли, как я сейчас склонна думать, под (неявным) влиянием упомянутой выше работы Л. А. Чистович. Поскольку именно тогдашние сомнения и усилия изменили весь мой дальнейший путь в науке, придется рассказать, в чем же заключалась собственно научная проблема.
Обычный текст на любом языке устроен так, что в нем некоторые слова очень часто повторяются, а другие встречаются достаточно редко. В тексте длиной в тысячу слов на самые частые слова приходится около пятидесяти процентов словоупотреблений. Это так называемые «служебные» слова — союзы, предлоги, местоимения, артикли. Остальные пятьдесят процентов словоупотреблений (книга и книги считаются разными словоупотреблениями), как правило, распадаются так: примерно тридцать процентов приходится на две тысячи самых частых слов, а остальные двадцать — это слова из разных частотных «слоев».
Отсюда следуют нетривиальные выводы. Некоторые из них весьма важны для практики.
В любой системе, передающей информацию, заведомо выгодно самые частые сигналы кодировать как можно короче. Это было известно задолго до того, как слово «информация» стало термином: скорее всего, в любой системе письма можно найти тому примеры. Поскольку я занималась именно частотами слов, то понятно, что интересующий меня материал некогда появился в связи с попытками улучшить системы стенографии. Так, еще в конце прошлого века некто Ф. Кединг издал для нужд немецких стенографов частотный словарь слов немецкого языка.
Другая линия была связана с задачами изучения иностранных языков. То, что очень важно выучить именно самые частые слова, — довольно очевидно. Еще в 1911 году вышел словарь Элдриджа «Шесть тысяч общеупотребительных английских слов», рассчитанный на новых иммигрантов в США В последующие годы составлялись словари наиболее частых слов для основных европейских языков. В 50-е годы настал черед и русского языка: здесь первые частотные словари были созданы двумя американцами — Г. Джоссельсоном и Н. П. Вакаром (о Н. П. Вакаре я уже упоминала).
Именно наличие частотных словарей в дальнейшем позволило ученым (мне в том числе) заняться анализом статистической структуры текста на уровне слов и словоформ.
Здесь и обнаружились любопытные количественные закономерности, о которых сказано выше.
В конце 50-х годов мы с эстонским педагогом Эви Штейнфельдт сделали частотный словарь двух тысяч пятисот самых частых русских слов. Словарь этот предназначался школьникам, изучающим русский язык. В этой работе мне принадлежало обоснование достоверности оценок, на основе которых слова могли считаться частыми или редкими.
Поскольку словарь Штейнфельдт долгое время оставался единственным общедоступным частотным словарем русского языка, он стал очень популярен. Им пользовались не только педагоги, но и исследователи. Его даже специально переиздали с комментариями на английском. Нам обеим, ей — в Таллинн, а мне — в Москву, писали со всего мира. Это все было, разумеется, лестно: я всего-то работала в науке пять лет. Но в 1963 году доминантой для меня стали серьезные сомнения в обоснованности многих выводов и вообще перспектив работы в рамках использованного мною метода. На этом фоне и происходили мои разговоры с Холодовичем.
Главная «закавыка» была вот в чем. Чтобы решить, какие слова считать частыми, хорошо знакомыми, а какие — редкими, мы со Штейнфельдт, как и все наши предшественники, обследовали письменные тексты — книги, газеты, журналы. Но ведь знакомство со словом едва ли основано только на том, сколь часто мы это слово читаем. Мы его еще и слышим, и сами произносим. А что происходит тогда, когда мы видим соответствующие объекты?
Пусть я, например, десять раз в день беру в руки чашку, сто раз смотрю на часы, пятнадцать раз снимаю телефонную трубку. Или пусть я десять раз в день думаю о таком свойстве разных объектов, как «вредный». Влияет ли это на «вес» соответствующих слов в моей памяти? Или только на «вес» объектов? Предположим, что «вес» слова — это некоторая функция от суммы всех подобных встреч, то есть от встреч со словом как таковым плюс встречи с объектом или свойством, этим словом именуемым. Тогда любой частотный словарь дает смещенные оценки частот, так как учитывает только тексты, т. е. встречи с написанным словом.
Точнее говоря, частотный словарь будет давать близкие к истинным оценки для тех слов, для которых частота встреч с соответствующими им объектами мало что меняет. Например, мы не встречаем объект, соответствующий слову через. (Впрочем, мы переходим через улицу.)
Но, как я выяснила (одновременно с французским ученым Гуженемом), некоторые объекты попадаются нам на каждом шагу, а вот соответствующие им слова — отнюдь нет. Например, слова ножницы и туфли, согласно частотным словарям, вовсе не относятся к частым в текстах. А тогда что же такое вообще частота слова? Не та, которая в частотном словаре, а та, которая фиксируется в нашей памяти?
Впрочем, откуда я знаю, что «там», т. е. в нашей психике, вообще фиксируется? В каком смысле «фиксируется»? Дерево задач разрасталось. Я запутывалась все больше. Мои проблемы явно выходили за пределы лингвистики, как ее тогда понимали. Игорь Мельчук в очередной раз сказал, что я занимаюсь черт знает чем, с раздражением добавив: «С твоими мозгами!» Я не находила никого, с кем могла бы посоветоваться. Однако надо было с чего-то начинать.
Случай привел к тому, что я остановилась на ссылке, попавшейся мне в работе по теории кодирования. Оказалось, что двое американских ученых, Хауэс и Соломон, в 1951 году обнаружили следующее. Если с помощью специального прибора (он называется тахистоскоп) предъявлять слова для зрительного восприятия на очень короткие промежутки времени, порядка долей секунды, то время распознавания слова оказывается обратно пропорциональным частоте встречаемости этого слова в текстах.
Получалось, что помимо текстов, позволяющих оценить частоту встречаемости слова, для частоты есть еще и некая независимая, хотя и косвенная мерка — время распознавания слова. Обратно пропорциональная зависимость между частотой и временем распознавания слова подтверждала бы то, что зрительная система человека работает как хорошее декодирующее устройство. Хорошее в смысле эффективности: как и положено, знакомое для него проще, а незнакомое — сложнее.
И все-таки что значит «знакомое», «незнакомое»? Например, всякий раз, как я смотрю на свои часы, я вижу их в разном ракурсе, но считаю их одними и теми же часами. Чашки могут различаться цветом, формой, размером, но все их я называю чашками. Со словами тоже не все так просто. Откуда я знаю, что «апельсин» и «АПЕЛЬСИН» — одно и то же слово? Кстати, тут же обнаружились люди, для которых это разные слова! Это — больные с очаговыми поражениями мозга (не глаза!). Выходит, в некотором смысле мы вообще видим не глазом, а мозгом!
Смятение, которое теперь мне представляется необходимым этапом в формировании познающей личности, тогда переживалось мною весьма драматически. Я не только не знала, что я ищу (сегодня я называю это чувство «потерей задачи» и уверена, что оно составляет нормальный этап любой серьезной работы). Я не знала, как вообще искать «такое»: я, конечно, могла хотеть работать как Чистович, но она-то занималась совершенно другим!
И я сделала первый шаг, естественный для человека, который вторгается в новую для себя область. Я попыталась воспроизвести тот эксперимент, о котором читала. Можно считать, что с этого момента я решила стать экспериментатором.