ARTICULOS

Selección y adquisición : apuntes para una reflexión 

Selección de material bibliográfico para una biblioteca universitaria... Sus recursos, su problemática actual

Recursos electrónicos....un apoyo a la selección y adquisición de material bibliográfico. Enfoque del Sistema de Bibliotecas de la pontificia universidad Católica de chile 

Visión de la biblioteca y su misión en el contexto escolar   

Reflexiones en torno a la modernización del estado y la inserción de las unidades de información en los procesos modernizadores: breve análisis de la biblioteca de la comisión chilena del cobre 

Educación, instituciones y tecnología de la información, a fines del siglo xx 

Pretender que se satisface la necesidad de bibliotecarios mediante la posibilidad que profesionales ya titulados realicen estudios de post-título y egresen de bibliotecarios es por decir lo menos, poco seria  

¿Qué puedo hacer yo?, Me consultaba no hace mucho un bibliotecario titulado recientemente, bueno consultar es un decir, yo representaba en ese momento sólo  un hombro en el cual llorar los problemas profesionales, es como el inicio para comenzar el rito de "arreglar el mundo",

SEARS : Lista de Encabezamientos de Materia ; traducción y adaptación de la 12a. edición en inglés, editada por Barbara M. Westby. / por Carmen Rovira.  2a. ed. en Castellano.  Buenos Aires : Alfagrana S.R.L., 1995. xlv, 753 p. isbn 987-9561503 

Las posibilidades de la ley de zipf en la indización automática 

Desarrollo de las Bibliotecas en Chile 

Ser o no ser... Una vaca sagrada? La verdad de pocos y el pesar de muchos 

La gestión de la comunicación como requisito para la inserción de las entidades de información en la sociedad de la información 

B3 : revista electrónica de ciencias de la información y el entorno de las publicaciones en Internet

 

LAS POSIBILIDADES DE LA LEY DE ZIPF EN LA INDIZACION AUTOMATICA . . 

 

Rubén Urbizagástegui Alvarado 

Bibliotecario Asociado Universidad de California, Riverside Riverside, CA 92521-5900 USA  Ruben@ucrac1.ucr.edu  


  

 INTRODUCCION  

 

Alrededor de 1920, con la idea de aplicar los modelos matemáticos al estudio de "las propiedades psicológicas de las poblaciones y utilizando las técnicas experimentales basadas en métodos cuantitativos, mostrar los resultados obtenidos en sus aplicaciones, y de esa, manera desarrollar los estudios sobre la evolución, organización, y posición ocupada por los individuos en esos grupos", Moreno (1962), un representante de la formulación matemática de la sociología, desarrolló la Sociometría. Aparentemente, esta proposición ejerció gran fascinación sobre los académicos en muchas áreas del conocimiento: la Psicología (Psicometría), la Biología (Biometría), la Economía (econometría), la Antropología (antropometría), y otras. Sin embargo, alrededor de 1960 fue revisado, criticado y poco después en algunas áreas cayó en desuso. Como es natural, su influencia llegó también a la Bibliotecología cuando en otras áreas era fuertemente criticada básicamente por el hecho de que la conducta humana no podría ser explicada únicamente a través del uso de modelos matemáticos.
A pesar de que la aplicación de modelos matemáticos a la literatura y sus productores, ya habian sido hechos por pioneros como LOTKA (1926), GROOS & GROOS (1927), BRADFORD (1934), y ZIPF (1949), quienes desarrollaron sus trabajos en el período en que la sociometría ejerció fuerte influencia sobre intelectuales y académicos, fue PRITCHARD (1969) quien acuñó el término Bibliometría para significar “la aplicación de modelos matemáticos y estadísticos a libros y otros medios de comunicación escrita”.
Siguiendo los trabajo de éstos pioneros y tienendo como centro a los Estados Unidos e Inglaterra, en los 60 años pasados ha sido producida una extensa literatura tratando con modelos matemáticos. Uno de esos modelos es la Ley de Zipf, que se denomina asi como un homenaje a su formulator George Kinsley Zipf (1902-1950), un profesor de Filología en la Universidad de Harvard, quien afirmó que en relación al esfuerzo medio necesario para lograr sus objetivos, el ser humano trata de minimizar la pérdida de energía, y en determinadas circunstancias donde le es permitido escoger alternativas, el ser humano escoje aquellos procesos que resultan en el “menor esfuerzo” posible. Esto supone que en la conducta humana existiría el principio del menor esfuerzo, implicando que los seres humanos siempre actuan racionalmente, y que sus padrones de conducta pueden ser analizados de acuerdo con este principio. Si la distancia mas corta entre dos puntos es una recta, se supone que los seres humanos construirán edificios con el mínimo esfuerzo posible, construirán puentes con el mínimo esfuerzo posible, y por eso también escribirán un libro, una tesis, un articulo de revista, etc. con el mínimo esfuerzo posible; esto es, con una economía de palabras (Zipf, 1949).
Basado en estas observaciones Zipf formuló la ley de la frecuencia de palabras en un texto, que expresa que si uno cuenta el número de ocurrencias de cada palabra diferente en un texto, y que si las palabras encontradas en ese texto son ordenadas en una tabla de modo que la primera palabra sea la mas frecuente, la segunda palabra la segunda mas frecuente, y asi por adelante, obtenemos una ecuación del tipo:

R X F = C (1)

Donde,

R = es el orden de la palabra en la lista
F = es la Frecuencia o el número de ocurrencias de esa palabra
C = es la constante para el texto

Esto significa que si tenemos un texto escrito en Inglés y si hacemos un conteo de la frecuencia de las palabras usadas en el cuerpo de ese texto, por ejemplo, contamos el número de ocurrencias de palabras como the, and, of, be, etc. y si ordenamos esas palabras en orden de frecuencia descendiente de modo que la primera palabra mas frecuente tenga el orden 1, la segunda palabra mas frecuente tenga el orden 2, y asi sucesivamente, podemos identificar ciertos términos que pueden tipificar el asunto del texto. En otras palabras, podemos identificar algunos términos de indización para cualificar el contenido del texto; es decir, podemos indizar el libro, artículo, tesis, disertación, etc. y lo que es mas importante, esto se puede hacer usando procesamiento automático, siempre y cuando se apliquen y respeten ciertas reglas.
Desde que el proceso de indización consiste en el análisis del contenido del documento y la caracterización de ese contenido a través del uso de ciertos términos descriptivos, la automatización de este proceso puede reducir la complejidad del análisis y la selección de términos a un conjunto de algoritmos, facilitando la operación y haciéndolo más rápido y también más fácil. Algúnos esfuerzos pioneros en esa dirección incluyen los trabajos de STEVENS (1965), SPARCK (1974), SALTON (1975), PAO (1975) y otros, que indicaron algunos resultados positivos. Siguiendo estos ejemplos, el objetivo de este artículo es aplicar la Ley de Zipf a un artículo de revista de corta extensión para identificar los términos de indización o palabras claves que describan adecuadamente su contenido.
 

MATERIAL Y METODO

Como unidades de análisis fueron tomadas las palabras que aparecieron en un artículo de la revista The Chronicle of Higher Educaction, 36:B1, de agosto de 1990, publicado por MARCUM (1990) bajo el título de For university librarians of the future, the degree in Library science, by itself, will not be sufficient (Para los bibliotecarios universitarios del futuro, el título de bibliotecario por si mismo no será suficiente). Fueron contadas la frecuencia de cada palabra que aparecieron en el texto del artículo pero para asegurar homogeneidad en la distribución de la frecuencia resultante, se adoptaron las convenciones siguientes:

. Una palabra es expresada como una serie de caracteres tipográficos precedida y seguida de espacios en blanco.
. Las palabras unidas por guión fueron tratadas como una sola palabra.
. Las palabras que expresaban formas singulares o plurales fueron contadas como una sola.
. Las palabras fonéticamente diferentes fueron contadas como diferentes.
. Se omitieron, los nombres de autores, nombres de instituciones, y los posesivos incluídos en el texto.
 

RESULTADOS

Se encontraron un total de 1025 palabras en el texto, pero sólo estaban presentes 396 palabras diferentes, que de acuerdo al orden de frecuencia descendiente estan listados en el Anexo 1, donde se muestran las palabras rankeadas desde la primera palabra con 56 ocurrencias hasta las últimas con sólo una ocurrencia cada una al final de la lista.
La Tabla 1 muestra los órdenes de una manera diferente, tomándose primero aquellas palabras con alta frecuencia hasta aquellas con solamente una ocurrencia (262 palabras). Es evidente que los artículos y las conjunciones son las mas frecuentes en el texto y se situaron en el tope de la escala. Pero también es obvio que algunas palabras de gran significado para el texto están situadas siguiendo a, o entre los artículos y/o conjunciones. Términos tales como Library/Libraries, information, School/Schools, Librarian/Librarians, Technology, Degree/Degrees son tópicos en el texto y pueden ser usados apropiadamente como términos de indización del artículo. Talvez esas palabras aparecerán más claramente si usamos los conectores, los adjetivos, etc. como palabras de contencion, es decir, si las ignoramos. Con la intención de explorar esta ideia, fue construida la Tabla 2 que muestra el efecto de la omisión de los artículos, las conjunciónes, disyunciones, conectores, y otras palabras sin significado semántico, es decir aquellas palabras de contención. Ahora la tabla muestra claramente en el tope de la lista las palabras que pueden ser usadas como términos de indización en un proceso de indización automática del texto, especialmente aquellas colocadas hasta el quinto lugar. Estas palabras claves son: Library/Libraries, Information, School/Schools, Librarian/Librarians, y Students.
Sin embargo, una cuestión parece ser difícil y se relaciona al punto de corte. ¿De las n palabras situadas en el tope de la lista cuales de ellas podrían ser escogidas: sólo la primera? las dos, tres, cuatro o cinco situadas en primer lugar? Cómo determinar el punto de corte?
Algunos autores como GOFFMAN (1975) han afirmado que la Ley de Zipf considera solamente las palabras de alta frecuencia de ocurrencia y que esas palabras tienen la tendencia a ocupar posiciones de órden única en la distribución de palabras; en otras palabras, en un determinado texto, dos palabras no pueden tener la misma frecuencia. Esta misma idea es indicada por PAO (1976) quien sugiere también que ya que Zipf desarrolló dos leyes diferentes -uno para palabras de alta frecuencia y otro para palabras de baja frecuencia- esta ley predice y describe los dos extremos de la distribución de palabras en un determinado texto.
Desde que la distribución de las palabras estan ahora posicionadas en dos extremos, talvez sería posible identificar una región crítica en la que ocurra la transición de las palabras de alta frecuencia para las palabras de baja frecuencia. Para llegar a este punto de transición, PAO (1975) comenzó de la Ecuación siguiente para las palabras de baja frecuencia propuesto por BOOTH (1967):

  (3)

Substituyendo In por 1, en la Ecuación (3) tenemos:

  (4)

Reordenando la Ecuación (4) tenemos:

n2 + n - 2 I1 = 0  (5)

La Ecuación (5) es una ecuación cuadrátrica general, y resolviendo por la raíz tenemos:

  (6)

Pero como solamente estamos interesados en los valores positivos de n, podemos considerar solamente,

  (7)

Con esta Ecuación (7) sería posible calcular e identificar las palabras alrededor de la región crítica, i.e. calcular el punto de transición en el texto conforme a lo propuesto por PAO (1975). Se encontró que el punto de transición era más o menos igual a 22.4; esto significa que el punto donde las palabras de alta frecuencia comienzan a transformarse en baja frecuencia debe ocurrir alrededor de las palabras que ocurren 22 veces en el texto, pero ninguna palabra ocurrió 22 veces; las palabras mas cercanas fueron be y a/an que ocurrieron 21 veces cada una. Pero alrededor de ellas estaban nucleadas palabras tales como Library/Libraries (33 veces), Information (16 veces), School/Schools (15 veces), y Librarian/Librarians (13 veces), que son significativas para el texto y pueden ser usadas como palabras claves, términos de indización e identificar el documento. Esto llega a ser más evidente si se eliminan las palabras sin contenido semántico, a pesar de que son importantes para la estructura gramatical del texto.
Es claro que el texto discute problemas relacionados a las Escuelas de Bibliotecología, a las Bibliotecas, los Bibliotecarios, la Información y la Educación Bibliotecologíca en general. Desgraciadamente este artículo no ha sido indizado todavía en Library Literature (LL) o en Library and Information Science Abstracts (LISA) y no fue posible hacer ninguna comparación de los términos de indización usados para cualificar el artículo. Pero otra vez, con la idea de clarificar esta situación, se eliminaron las palabras sin significado: artículos, conjunciones, disyunciones, conectores, adverbios, adjetivos, preposiciones, pronombres, etc. que fueron considerados como palabras de contención. Con las palabras restantes, que tenían algún significado semántico se elaboró una nueva tabla y estan mostradas en la Tabla 2, listando solamente 263 palabras diferentes. El punto de transición fue calculado como siendo igual a 15.75; esto significa que la transición de las palabras de alta frecuencia para baja frecuencia ocurre alrededor de la palabra o las palabras que ocurren 15 o 16 veces en el texto. Estas palabras estaban claramente dedicadas al contenido del documento y se podrían usar realmente como términos de indización. Nos referimos a las palabras Information, School/Schools, y Librarian/Librarians.
 

CONCLUSION

A pesar de su sencillez, la ley de Zipf predice con notable precisión la ocurrencia de las palabras en un texto. Sin embargo, hasta 1998 pocos trabajos han sido desarrollados como aplicación práctica en el proceso de indización. La mayor parte de los artículos publicados son ejercicios académicos y estan preocupados con su validéz matemática pero no con comprovar su practibilidad en una situación empírica concreta. Para obtener mayor comprensión del fenómeno de la ocurrencias de palabras, su aplicación, y utilidad para el proceso de indización, se necesita mayor investigación. Los términos de indización identificados usando la Ley de Zipf en este artículo parecen indicar que la selección automática de palabras claves es una promesa que puede ser alcanzada.
 

BIBLIOGRAFIA
 

BOOTH, A.  A law of occurrences for words of low frequency.  Information and control, 10(4):3386-93, April 1967.
BRADFORD, S. C.  Documentação.  Rio de Janeiro : Fundo de Cultura, 1961.
GOFFMAN, W.  cited by MIRANDA LEE PAO.
GROOS, P.K. & GROOS, E.M.  College libraries and chemical education.  Science, 385-89, 1927.
LOTKA, A. J.  The frequency distribution of scientific productivity.  Journal of Washington Academy of Sciences, 16;317-23, 1926.
MARCUM, D.B.  For university librarians of the future, the degree in Library science, by itself, will not be sufficient.  The Chronicle of higher education, 36: B1, Aug. 1990.
MORENO, S.L.  Fundamentos de la sociometría.  Buenos Aires., Ed. Universitaria, 1962.
PAO, M.L.  Automatic indexing based on Goffman's transition of word occurrences.  In: American Society for Information Science. Meeting (40th : 1977 : Chicago, Ill.).  Information management in the 1980's : proceedings of the ASIS annual meeting 1977. Volume 14 : 40th annual meeting, Chicago, Illinois, September  26-October 1, 1977 / Bernard M. Fry, compiler, Clayton A. White Plains, N.Y. : Knowledge Industry Publications for American Society for Information Science, c1977.
PRITCHARD, A.  Statistical bibliography or bibliometrics?  Journal of documentation, 25(4):348-89, Dec. 1969.
SALTON, G.  Dynamic information and library processing.  Englewood Cliffs, N.J. : Prentice-Hall, 1975.
SPARCK, J.K.  Automatic indexing.  Journal of documentation, 30(40):393-432, 1974.
STEVENS, M.E.  Automatic indexing : a state-of-the-art report.  Washington, D.C., 1970.
URBIZAGASTEGUI, Ruben A.  A Bibliometria no Brasil.  Ciencia da Informação, Brasilia, 13(2):91-105, Jul.-Dez. 1984.
ZIPF, G. K.  The human behavior and the principle of least effort.  Boston : Addison-Wesley, 1949.
 

TABLE 1 : FRECUENCIA DE DISTRIBUCION DE PALABRAS
______________________________________________
Rank (r) Frecuencia (f) r X f Palabras
______________________________________________
 1 56 56 the
 2 47 94 to
 3 42 126 and
 4 36 144 of
 5 33 165 Library/Libraries
 6 30 180 in
 7 21 147 be
 8 21 168 a/an
 9 16 144 is/are
 16 144 information
10 15 150 School/Schools
11 14 154 for
12 13 156 Librarian/Librarians
13 12 15 that
 12 156 will
14 11 154 Students
15 9 135 must
16 8 128 I
 8 128 not
 8 128 Technology
17 7 119 have
18 6 108 as
 6 108 Degree/Degrees
 6 108 it
 6 108 they
 6 108 Science
 6 108 System/Systems
 6 108 University
 6 108 we
19 5 95 (9 diff. words)
20 4 80 (10 diff. words)
21 3 63 (25 diff. words)
22 2 44 (60 diff. words)
23 1 23 (262 diff. words)
______________________________________________

Total de palabras =  1025
Total de palabras diferentes = 395
Punto de Trancision =  22.4
 
 
 

TABLE 2 :  ORDEN DE LA PALABRAS SIN PALABRAS DE CONTENCION
______________________________________________
Rank (r) Frecuencia (f) r X f Palabras
______________________________________________
1 33 33 Library/Libraries
2 16 32 Information    ?
3 15 45 School/Schools
4 13 52 Librarian/Librarians
5 11 55 Students
6 8 48 Technology
7 6 42 Degree/Degrees
 6 42 Science
 6 42 System/Systems
 6 42 University
8 5 40 Important
 5 40 Research
 5 40 Working
9 4 36 Collections
 4 36 Courses
 4 36 Education
 4 36 Future
 4 36 Needs
 4 36 People
 4 36 Training
 4 36 Work
10 3 33 (14 words)
11 2 22 (41 words)
12 1 12 (132 words)
__________________________________________
Total   =   263  palabras diferentes
Punto de Transición  =   15.75
 
 
 
 
 
 
 
 

ANEXO 1: Orden de las palabras presentes en el texto
 

Palabras Frecuencia
The 56
To 47
And 42
Of 36
Library/Libraries 33
In 30
A/An 21
Be 21
A 19
Is/Are 16
Information 16
School/Schools 15
For 14
Librarian/Librarians 13
That 12
Will 12
Students 11
Must  9
I  8
Not  8
Technology  8
Have  7
As  6
Degree/Degrees  6
It  6
They  6
Science  6
System/systems  6
University  6
We  6
By  5
If  5
How  5
Important  5
More  5
On  5
Research  5
What  5
Working  5
Collections  4
Courses  4
Education  4
Future  4
Has  4
Needs  4
One  4
People  4
Training  4
Work  4
About  3
All  3
Belie  3
Century  3
Colleges  3
Do  3
Financial  3
Itself  3
Know  3
Large  3
Learn  3
Most  3
Needed  3
Now  3
Offer  3
Processes  3
Salaries  3
Settings  3
Simple  3
Specialized  3
Structure  3
Understand  3
Who  3
With  3
Would  3
Advanced  2
Also  2
Available  2
Additional  2
But  2
Can   2
Certain  2
CD-rom  2
Change  2
Curriculum  2
Data  2
Decision  2
Delivery  2
Different  2
Enough  2
Enrollments  2
Examples  2
Face/Faces  2
Far  2
Form  2
Fundamental/Fundamentals  2
Identify  2
Increasingly  2
Individual  2
Institution/Institutions  2
Its  2
Less  2
Make  2
Master  2
Material  2
Microcomputer/Microcomputers  2
Or  2
Other  2
Partner  2
Profession  2
Programs  2
Reference  2
Relevant  2
Resources  2
Scholars  2
Setting  2
Seek  2
Small  2
So  2
Sophisticated  2
Specific  2
Solution  2
Such  2
Teach  2
Than  2
Their  2
This  2
Those  2
Time  2
Today  2
Universities  2
Users  2
Was  2
Well  2
Which  2
Able  [y otras 261 palabras]  1 (262 palabras)
-------------------------------------------------------------------
TOTAL 1025