INTRODUCCION
Alrededor de 1920, con la idea de
aplicar los modelos matemáticos al estudio de "las propiedades psicológicas
de las poblaciones y utilizando las técnicas experimentales basadas
en métodos cuantitativos, mostrar los resultados obtenidos en sus
aplicaciones, y de esa, manera desarrollar los estudios sobre la evolución,
organización, y posición ocupada por los individuos en esos
grupos", Moreno (1962), un representante de la formulación matemática
de la sociología, desarrolló la Sociometría. Aparentemente,
esta proposición ejerció gran fascinación sobre los
académicos en muchas áreas del conocimiento: la Psicología
(Psicometría), la Biología (Biometría), la Economía
(econometría), la Antropología (antropometría), y
otras. Sin embargo, alrededor de 1960 fue revisado, criticado y poco después
en algunas áreas cayó en desuso. Como es natural, su influencia
llegó también a la Bibliotecología cuando en otras
áreas era fuertemente criticada básicamente por el hecho
de que la conducta humana no podría ser explicada únicamente
a través del uso de modelos matemáticos.
A pesar de que la aplicación
de modelos matemáticos a la literatura y sus productores, ya habian
sido hechos por pioneros como LOTKA (1926), GROOS & GROOS (1927), BRADFORD
(1934), y ZIPF (1949), quienes desarrollaron sus trabajos en el período
en que la sociometría ejerció fuerte influencia sobre intelectuales
y académicos, fue PRITCHARD (1969) quien acuñó el
término Bibliometría para significar “la aplicación
de modelos matemáticos y estadísticos a libros y otros medios
de comunicación escrita”.
Siguiendo los trabajo de éstos
pioneros y tienendo como centro a los Estados Unidos e Inglaterra, en los
60 años pasados ha sido producida una extensa literatura tratando
con modelos matemáticos. Uno de esos modelos es la Ley de Zipf,
que se denomina asi como un homenaje a su formulator George Kinsley Zipf
(1902-1950), un profesor de Filología en la Universidad de Harvard,
quien afirmó que en relación al esfuerzo medio necesario
para lograr sus objetivos, el ser humano trata de minimizar la pérdida
de energía, y en determinadas circunstancias donde le es permitido
escoger alternativas, el ser humano escoje aquellos procesos que resultan
en el “menor esfuerzo” posible. Esto supone que en la conducta humana existiría
el principio del menor esfuerzo, implicando que los seres humanos siempre
actuan racionalmente, y que sus padrones de conducta pueden ser analizados
de acuerdo con este principio. Si la distancia mas corta entre dos puntos
es una recta, se supone que los seres humanos construirán edificios
con el mínimo esfuerzo posible, construirán puentes con el
mínimo esfuerzo posible, y por eso también escribirán
un libro, una tesis, un articulo de revista, etc. con el mínimo
esfuerzo posible; esto es, con una economía de palabras (Zipf, 1949).
Basado en estas observaciones Zipf
formuló la ley de la frecuencia de palabras en un texto, que expresa
que si uno cuenta el número de ocurrencias de cada palabra diferente
en un texto, y que si las palabras encontradas en ese texto son ordenadas
en una tabla de modo que la primera palabra sea la mas frecuente, la segunda
palabra la segunda mas frecuente, y asi por adelante, obtenemos una ecuación
del tipo:
R X F = C (1)
Donde,
R = es el orden de la palabra en
la lista
F = es la Frecuencia o el número
de ocurrencias de esa palabra
C = es la constante para el texto
Esto significa que si tenemos un
texto escrito en Inglés y si hacemos un conteo de la frecuencia
de las palabras usadas en el cuerpo de ese texto, por ejemplo, contamos
el número de ocurrencias de palabras como the, and, of, be, etc.
y si ordenamos esas palabras en orden de frecuencia descendiente de modo
que la primera palabra mas frecuente tenga el orden 1, la segunda palabra
mas frecuente tenga el orden 2, y asi sucesivamente, podemos identificar
ciertos términos que pueden tipificar el asunto del texto. En otras
palabras, podemos identificar algunos términos de indización
para cualificar el contenido del texto; es decir, podemos indizar el libro,
artículo, tesis, disertación, etc. y lo que es mas importante,
esto se puede hacer usando procesamiento automático, siempre y cuando
se apliquen y respeten ciertas reglas.
Desde que el proceso de indización
consiste en el análisis del contenido del documento y la caracterización
de ese contenido a través del uso de ciertos términos descriptivos,
la automatización de este proceso puede reducir la complejidad del
análisis y la selección de términos a un conjunto
de algoritmos, facilitando la operación y haciéndolo más
rápido y también más fácil. Algúnos
esfuerzos pioneros en esa dirección incluyen los trabajos de STEVENS
(1965), SPARCK (1974), SALTON (1975), PAO (1975) y otros, que indicaron
algunos resultados positivos. Siguiendo estos ejemplos, el objetivo de
este artículo es aplicar la Ley de Zipf a un artículo de
revista de corta extensión para identificar los términos
de indización o palabras claves que describan adecuadamente su contenido.
MATERIAL Y METODO
Como unidades de análisis
fueron tomadas las palabras que aparecieron en un artículo de la
revista The Chronicle of Higher Educaction, 36:B1, de agosto de 1990, publicado
por MARCUM (1990) bajo el título de For university librarians of
the future, the degree in Library science, by itself, will not be sufficient
(Para los bibliotecarios universitarios del futuro, el título de
bibliotecario por si mismo no será suficiente). Fueron contadas
la frecuencia de cada palabra que aparecieron en el texto del artículo
pero para asegurar homogeneidad en la distribución de la frecuencia
resultante, se adoptaron las convenciones siguientes:
. Una palabra es expresada como una
serie de caracteres tipográficos precedida y seguida de espacios
en blanco.
. Las palabras unidas por guión
fueron tratadas como una sola palabra.
. Las palabras que expresaban formas
singulares o plurales fueron contadas como una sola.
. Las palabras fonéticamente
diferentes fueron contadas como diferentes.
. Se omitieron, los nombres de autores,
nombres de instituciones, y los posesivos incluídos en el texto.
RESULTADOS
Se encontraron un total de 1025 palabras
en el texto, pero sólo estaban presentes 396 palabras diferentes,
que de acuerdo al orden de frecuencia descendiente estan listados en el
Anexo 1, donde se muestran las palabras rankeadas desde la primera palabra
con 56 ocurrencias hasta las últimas con sólo una ocurrencia
cada una al final de la lista.
La Tabla 1 muestra los órdenes
de una manera diferente, tomándose primero aquellas palabras con
alta frecuencia hasta aquellas con solamente una ocurrencia (262 palabras).
Es evidente que los artículos y las conjunciones son las mas frecuentes
en el texto y se situaron en el tope de la escala. Pero también
es obvio que algunas palabras de gran significado para el texto están
situadas siguiendo a, o entre los artículos y/o conjunciones. Términos
tales como Library/Libraries, information, School/Schools, Librarian/Librarians,
Technology, Degree/Degrees son tópicos en el texto y pueden ser
usados apropiadamente como términos de indización del artículo.
Talvez esas palabras aparecerán más claramente si usamos
los conectores, los adjetivos, etc. como palabras de contencion, es decir,
si las ignoramos. Con la intención de explorar esta ideia, fue construida
la Tabla 2 que muestra el efecto de la omisión de los artículos,
las conjunciónes, disyunciones, conectores, y otras palabras sin
significado semántico, es decir aquellas palabras de contención.
Ahora la tabla muestra claramente en el tope de la lista las palabras que
pueden ser usadas como términos de indización en un proceso
de indización automática del texto, especialmente aquellas
colocadas hasta el quinto lugar. Estas palabras claves son: Library/Libraries,
Information, School/Schools, Librarian/Librarians, y Students.
Sin embargo, una cuestión
parece ser difícil y se relaciona al punto de corte. ¿De
las n palabras situadas en el tope de la lista cuales de ellas podrían
ser escogidas: sólo la primera? las dos, tres, cuatro o cinco situadas
en primer lugar? Cómo determinar el punto de corte?
Algunos autores como GOFFMAN (1975)
han afirmado que la Ley de Zipf considera solamente las palabras de alta
frecuencia de ocurrencia y que esas palabras tienen la tendencia a ocupar
posiciones de órden única en la distribución de palabras;
en otras palabras, en un determinado texto, dos palabras no pueden tener
la misma frecuencia. Esta misma idea es indicada por PAO (1976) quien sugiere
también que ya que Zipf desarrolló dos leyes diferentes -uno
para palabras de alta frecuencia y otro para palabras de baja frecuencia-
esta ley predice y describe los dos extremos de la distribución
de palabras en un determinado texto.
Desde que la distribución
de las palabras estan ahora posicionadas en dos extremos, talvez sería
posible identificar una región crítica en la que ocurra la
transición de las palabras de alta frecuencia para las palabras
de baja frecuencia. Para llegar a este punto de transición, PAO
(1975) comenzó de la Ecuación siguiente para las palabras
de baja frecuencia propuesto por BOOTH (1967):
(3)
Substituyendo In por 1, en la Ecuación
(3) tenemos:
(4)
Reordenando la Ecuación (4)
tenemos:
n2 + n - 2 I1 = 0 (5)
La Ecuación (5) es una ecuación
cuadrátrica general, y resolviendo por la raíz tenemos:
(6)
Pero como solamente estamos interesados
en los valores positivos de n, podemos considerar solamente,
(7)
Con esta Ecuación (7) sería
posible calcular e identificar las palabras alrededor de la región
crítica, i.e. calcular el punto de transición en el texto
conforme a lo propuesto por PAO (1975). Se encontró que el punto
de transición era más o menos igual a 22.4; esto significa
que el punto donde las palabras de alta frecuencia comienzan a transformarse
en baja frecuencia debe ocurrir alrededor de las palabras que ocurren 22
veces en el texto, pero ninguna palabra ocurrió 22 veces; las palabras
mas cercanas fueron be y a/an que ocurrieron 21 veces cada una. Pero alrededor
de ellas estaban nucleadas palabras tales como Library/Libraries (33 veces),
Information (16 veces), School/Schools (15 veces), y Librarian/Librarians
(13 veces), que son significativas para el texto y pueden ser usadas como
palabras claves, términos de indización e identificar el
documento. Esto llega a ser más evidente si se eliminan las palabras
sin contenido semántico, a pesar de que son importantes para la
estructura gramatical del texto.
Es claro que el texto discute problemas
relacionados a las Escuelas de Bibliotecología, a las Bibliotecas,
los Bibliotecarios, la Información y la Educación Bibliotecologíca
en general. Desgraciadamente este artículo no ha sido indizado todavía
en Library Literature (LL) o en Library and Information Science Abstracts
(LISA) y no fue posible hacer ninguna comparación de los términos
de indización usados para cualificar el artículo. Pero otra
vez, con la idea de clarificar esta situación, se eliminaron las
palabras sin significado: artículos, conjunciones, disyunciones,
conectores, adverbios, adjetivos, preposiciones, pronombres, etc. que fueron
considerados como palabras de contención. Con las palabras restantes,
que tenían algún significado semántico se elaboró
una nueva tabla y estan mostradas en la Tabla 2, listando solamente 263
palabras diferentes. El punto de transición fue calculado como siendo
igual a 15.75; esto significa que la transición de las palabras
de alta frecuencia para baja frecuencia ocurre alrededor de la palabra
o las palabras que ocurren 15 o 16 veces en el texto. Estas palabras estaban
claramente dedicadas al contenido del documento y se podrían usar
realmente como términos de indización. Nos referimos a las
palabras Information, School/Schools, y Librarian/Librarians.
CONCLUSION
A pesar de su sencillez, la ley de
Zipf predice con notable precisión la ocurrencia de las palabras
en un texto. Sin embargo, hasta 1998 pocos trabajos han sido desarrollados
como aplicación práctica en el proceso de indización.
La mayor parte de los artículos publicados son ejercicios académicos
y estan preocupados con su validéz matemática pero no con
comprovar su practibilidad en una situación empírica concreta.
Para obtener mayor comprensión del fenómeno de la ocurrencias
de palabras, su aplicación, y utilidad para el proceso de indización,
se necesita mayor investigación. Los términos de indización
identificados usando la Ley de Zipf en este artículo parecen indicar
que la selección automática de palabras claves es una promesa
que puede ser alcanzada.
BIBLIOGRAFIA
BOOTH, A. A law of occurrences
for words of low frequency. Information and control, 10(4):3386-93,
April 1967.
BRADFORD, S. C. Documentação.
Rio de Janeiro : Fundo de Cultura, 1961.
GOFFMAN, W. cited by MIRANDA
LEE PAO.
GROOS, P.K. & GROOS, E.M.
College libraries and chemical education. Science, 385-89, 1927.
LOTKA, A. J. The frequency
distribution of scientific productivity. Journal of Washington Academy
of Sciences, 16;317-23, 1926.
MARCUM, D.B. For university
librarians of the future, the degree in Library science, by itself, will
not be sufficient. The Chronicle of higher education, 36: B1, Aug.
1990.
MORENO, S.L. Fundamentos de
la sociometría. Buenos Aires., Ed. Universitaria, 1962.
PAO, M.L. Automatic indexing
based on Goffman's transition of word occurrences. In: American Society
for Information Science. Meeting (40th : 1977 : Chicago, Ill.). Information
management in the 1980's : proceedings of the ASIS annual meeting 1977.
Volume 14 : 40th annual meeting, Chicago, Illinois, September 26-October
1, 1977 / Bernard M. Fry, compiler, Clayton A. White Plains, N.Y. : Knowledge
Industry Publications for American Society for Information Science, c1977.
PRITCHARD, A. Statistical
bibliography or bibliometrics? Journal of documentation, 25(4):348-89,
Dec. 1969.
SALTON, G. Dynamic information
and library processing. Englewood Cliffs, N.J. : Prentice-Hall, 1975.
SPARCK, J.K. Automatic indexing.
Journal of documentation, 30(40):393-432, 1974.
STEVENS, M.E. Automatic indexing
: a state-of-the-art report. Washington, D.C., 1970.
URBIZAGASTEGUI, Ruben A. A
Bibliometria no Brasil. Ciencia da Informação, Brasilia,
13(2):91-105, Jul.-Dez. 1984.
ZIPF, G. K. The human behavior
and the principle of least effort. Boston : Addison-Wesley, 1949.
TABLE 1 : FRECUENCIA DE DISTRIBUCION
DE PALABRAS
______________________________________________
Rank (r) Frecuencia (f) r X f Palabras
______________________________________________
1 56 56 the
2 47 94 to
3 42 126 and
4 36 144 of
5 33 165 Library/Libraries
6 30 180 in
7 21 147 be
8 21 168 a/an
9 16 144 is/are
16 144 information
10 15 150 School/Schools
11 14 154 for
12 13 156 Librarian/Librarians
13 12 15 that
12 156 will
14 11 154 Students
15 9 135 must
16 8 128 I
8 128 not
8 128 Technology
17 7 119 have
18 6 108 as
6 108 Degree/Degrees
6 108 it
6 108 they
6 108 Science
6 108 System/Systems
6 108 University
6 108 we
19 5 95 (9 diff. words)
20 4 80 (10 diff. words)
21 3 63 (25 diff. words)
22 2 44 (60 diff. words)
23 1 23 (262 diff. words)
______________________________________________
Total de palabras = 1025
Total de palabras diferentes = 395
Punto de Trancision = 22.4
TABLE 2 : ORDEN DE LA PALABRAS
SIN PALABRAS DE CONTENCION
______________________________________________
Rank (r) Frecuencia (f) r X f Palabras
______________________________________________
1 33 33 Library/Libraries
2 16 32 Information
?
3 15 45 School/Schools
4 13 52 Librarian/Librarians
5 11 55 Students
6 8 48 Technology
7 6 42 Degree/Degrees
6 42 Science
6 42 System/Systems
6 42 University
8 5 40 Important
5 40 Research
5 40 Working
9 4 36 Collections
4 36 Courses
4 36 Education
4 36 Future
4 36 Needs
4 36 People
4 36 Training
4 36 Work
10 3 33 (14 words)
11 2 22 (41 words)
12 1 12 (132 words)
__________________________________________
Total =
263 palabras diferentes
Punto de Transición
= 15.75
ANEXO 1: Orden de las palabras presentes
en el texto
Palabras Frecuencia
The 56
To 47
And 42
Of 36
Library/Libraries 33
In 30
A/An 21
Be 21
A 19
Is/Are 16
Information 16
School/Schools 15
For 14
Librarian/Librarians 13
That 12
Will 12
Students 11
Must 9
I 8
Not 8
Technology 8
Have 7
As 6
Degree/Degrees 6
It 6
They 6
Science 6
System/systems 6
University 6
We 6
By 5
If 5
How 5
Important 5
More 5
On 5
Research 5
What 5
Working 5
Collections 4
Courses 4
Education 4
Future 4
Has 4
Needs 4
One 4
People 4
Training 4
Work 4
About 3
All 3
Belie 3
Century 3
Colleges 3
Do 3
Financial 3
Itself 3
Know 3
Large 3
Learn 3
Most 3
Needed 3
Now 3
Offer 3
Processes 3
Salaries 3
Settings 3
Simple 3
Specialized 3
Structure 3
Understand 3
Who 3
With 3
Would 3
Advanced 2
Also 2
Available 2
Additional 2
But 2
Can 2
Certain 2
CD-rom 2
Change 2
Curriculum 2
Data 2
Decision 2
Delivery 2
Different 2
Enough 2
Enrollments 2
Examples 2
Face/Faces 2
Far 2
Form 2
Fundamental/Fundamentals 2
Identify 2
Increasingly 2
Individual 2
Institution/Institutions 2
Its 2
Less 2
Make 2
Master 2
Material 2
Microcomputer/Microcomputers
2
Or 2
Other 2
Partner 2
Profession 2
Programs 2
Reference 2
Relevant 2
Resources 2
Scholars 2
Setting 2
Seek 2
Small 2
So 2
Sophisticated 2
Specific 2
Solution 2
Such 2
Teach 2
Than 2
Their 2
This 2
Those 2
Time 2
Today 2
Universities 2
Users 2
Was 2
Well 2
Which 2
Able [y otras 261 palabras]
1 (262 palabras)
-------------------------------------------------------------------
TOTAL 1025
|