Закономерность С. Бредфорда (S. Bredford), известного документали-ста, одного из авторов универсальной десятичной классификации — УДК, состоит в следующем: если научные журналы расположить в порядке убы-вания числа помещенных в них статей по конкретному предмету, то полу-ченный список можно разбить на три зоны таким образом, чтобы количе-ство статей в каждой зоне по заданному предмету была одинаковой. Эти три зоны представляют: ядро — профильные журналы, непосредственно посвященные рассмотренной тематике, журналы , частично посвященные заданной области и журналы, тематика которых довольно далека от рас-смотренного предмета. С. Бредфорд в 1934 г. установил следующее соот-ношение для количества журналов в разных зонах [79]:
где количество журналов в первой зоне — N1 , во второй — N2 , в третьей
Бредфорд вначале рассматривал найденную закономерность только как специфический случай распределения Ципфа для системы периодических изданий по науке и технике. Однако в дальнейшем оказалось, что эта же закономерность справедлива и для периодических изданий из многих других предметных областей, а также для наборов веб-сайтов, относя-щихся к некоторой выбранной тематике.
В компьютерной лингвистике эмпирический закон Г. С. Хипса (H. S. Heaps) связывает объем документа с объемом словаря уникальных слов, которые входят в этот документ [98]. Казалось бы, словарь уникальных слов должен насыщаться, а его объем стабилизироваться при увеличении объемов текста. Оказывается, это не так! Для всех известных сегодня текстов в соответствии с законом Хипса, эти значения связаны соотношением (рис. 27):
v
(n ) = αnβ ,где
v — это объем словаря уникальных слов, составленный из текста, который состоит из n уникальных слов, α и β — определенные эмпирически параметры. Для европейских языков α принимает значение от 10 до100, а
β — от 0.4 до 0.6.