ظهرت الأسماء منذ الأزل، وظهرت ساكنة لا تتحرَّك، ولم تلقَ من يصف أشكالها ويُحرّك أحداثها، فجاءت الصفات لتُخبرنا عن أشكالها الساكنة، وجاءت الأفعال لتخبرنا عن حركتها الحيويّة، فصرنا نُنبئ عن كيفيات التشكل الوصفي والاتجاه الحركي، وعن أساليب وحيثيات وأسباب هذا التشكل وذاك الاتجاه. تشكيل الصفات للأسماء وتحريك الأفعال لها جاء ناقصاً، فمُلئ بالحروف المعدودة التي لعبت دور الدعامات لقطع الأسماء وأشكالها وأحداثها وأزمنتها.
تقول الروائية الإنجليزية أنجيلا كارتر Angela Carter: اللغة هي القوة، والحياة، وأداة الثقافة، وأداة الهيمنة، والحرية. وفي المقابل، يقول المهندس أندرو بوث Andrew Booth: للغة قوة أو ضعف بحسب ما يتوارد فيها من كلمات، وبحسب رُتبها، وقد تكون رتبة الكلمة عالية وقوية، أو عالية وضعيفة، وقد تكون منخفضة وقوية، أو منخفضة وضعيفة. اللغة الطبيعية في كلام كارتر هي أساس كل شيء في الحياة البشرية، ويكمن الغموض في كلام بوث، إذْ كيف يكون لرتب الكلمات في اللغة دورٌ في حقيقة ما يدور داخل اللغة الطبيعية من قوة أو ضعف. في كلامه هذا بداية لغز اللغة وأحجيتها الرياضية.
تنبه عالم الرياضيات لوتكا Lotka (كنز Kunz، 1987) إلى طبيعة اللغات وما يتوارد ويتكرَّر داخلها من كلمات، فوضع قانون عدد ظهور أحداث الكلمات، وهو قانون خطي، تتمثل صيغته في الآتي:
g(y)=A / ya
يُعبّر y في هذه المعادلة عن عدد ظهور الحدث، ويعبِّر (g(y عن عدد ظهور الأحداث المختلفة، وكلاهما يساوي عدد توارد حدث واحد مهم على عدد توارد مجموع الأحداث كلها. طبّق لوتكا مفهوم العدد في قياس عدد المؤلفين الذين ينشرون أكبر عدد من الأبحاث، ومفهوم الأثر في قياس عدد أولئك الذين يسهمون بشكل نوعي غير كمي في العلوم. انعكست طبيعة توارد الكلمات في اللغات من حيث العدد والأثر على المكتبيّ برادفور Bradford، فوظف المفهوم الرياضي أيضاً على تواتر المقالات العلمية ومؤلفيها.
توالت القوانين الببليومترية في قياس المنشورات والمقالات، ولكن بطريقة إحصائية أكثر عمقاً، فظهر قانون روسو Rousseau، وبرايس Price، وبوث Booth، وباريتو Pareto، وهيبس Heaps، وزيف Zipf.
يُعبّر قانون روسو عن مفهوم ثابت يتضمَّن فكرة خلاصة الموضوع وما يوازيها، وأن حجم هذه الخلاصة من المجتمع يوازي الجذر التربيعي للمجتمع. أما قانون برايس فيعبِّر عن وجود عدد كبير من المؤلفين غزيري الإنتاج في حقل موضوعي معيَّن وفي فترة زمنية معيَّنة، ويساوي هذا العدد الجذر التربيعي للعدد الكلي للمؤلفين في ذلك الموضوع وتلك الفترة الزمنية المحدَّدة. وفي قانون باريتو الاقتصادي، برهن على أن %20 من كل شيء يكون مسؤولاً ومؤثراً على %80، ومنها جاءت فكرة هذا التقسيم النسبي الشائع عند قياس المؤثر منه والمؤثر فيه، وسرى جريان هذا القانون في كل شيء، حتى في الإنتاج العلمي، فصرنا نجد من نسبة قليلة من المقالات أو الكلمات أثراً كبيراً على نسبة كبيرة منها.
وعند بوث، جاء قانونه ليعبّر عن نسبة تكرار الكلمات في أي نص، ورتبة كل كلمة تبعاً لعدد دورانها في النص. اهتمّ هذا القانون بالكلمات التي ترد في آخر الرتب، والتي يندر حدوثها وظهورها في النصوص، وهو شبيه بقانون هيبس الذي يُعبّر عن القوة التي لا تتمثل في كثرة العدد، بل في قوة التميز في الكلمات وقوة الأثر منها.
جاء زيف في قانونه مُضمِّناً قانون الألفاظ الأكثر توارداً وقانون الألفاظ الأقل توارداً ورتب الكلمات:
∝ n
تشير n إلى مجموع الكلمات، و ∝ إلى النسبة البينية، وra إلى رتبة الكلمات. ويعبِّر هذا القانون عن أن تكرار الكلمة في المرتبة الثانية يكون نصف تكرار الكلمة في المرتبة الأولى، وتكرار الكلمة في المرتبة الثالثة يكون ثلث تكرار الكلمة في المرتبة الثانية، ثم الربع فالخمس فالسدس فالثمن إلخ بشكل تنازلي تناسبي طردي بين كل رتبة لاحقة وسابقة لبقية كل الكلمات.
جميع هذه القوانين قد صيغت لغرض القياسات الببليومترية، وتحتاج إلى بيانات لغوية كبيرة من أجل تجاوز أي انحراف يحول دون فهم نواتجها. في قانون الرتب لكل كلمة وفق عدد التكرار، يُمكن التنبؤ بعدد تكرار الكلمات بشكل تقريبي دون أن نعرف حقيقة تكرارها فعلياً، فلو نظرنا إلى كتاب واحد يحتوى على 100 ألف كلمة، وعلمنا أن أكثر كلمة وردت فيه هي حرف الجر (في)، وبواقع 5000 مرَّة، وأن رتبة كلمة ما، ولتكن (س) مثلاً، قد جاءت في المرتبة 40، فإن التنبؤ بعدد تكرار (س) يكون ناتج المعادلة الآتية:
5000 × = 125
عندما نجري معالجة التكرار والرتب للكلمات على عيِّنة نصية، مهما كان حجمها، وفق التوزيعات (اللغوية) الطبيعية normal distributions التي تُمثّل الخط المنحدر من التكرارات الأعلى إلى التكرارات الأقل، والتوزيعات المتراكمة cumulative distributions التي تتوزع بالقرب أو بالبعد عن هذا الخط، فستظهر لنا نقط عديدة ترتكز على هذا الخط في الوسط. أما بقية النقط التي تخرج من أول الخط المائل أو من آخره فهي من الرتب الأولى للكلمات الشائعة في النص ومن الرتب الأخيرة للكلمات الفريدة في النص. ما يكون في الرتب الأولى يكون من الشيوع، وما ندر ظهوره يكون فريداً، وما توسّط يُعدّ موضوع النص.
يشبه هذا التوزيع ما نراه في واقع كثرة الاستشهادات بالأبحاث القليلة، مقابل قلة الاستشهادات بالأبحاث الكثيرة. ينقلنا هذا التشابه إلى عمليةٍ طبيعيةٍ في الظواهر الكونية، تُسمّى بعملية الارتباط التفضيلي preferential attachment، الذي يميل إلى التأثر بالمألوف في كل الأشياء. هناك فرق بين الشيوع المألوف وبين القوة المألوفة، فالشيوع المألوف كثير ويؤثّر، والقوة المألوفة قليلة وتُؤثّر. كلما أثر الكثير على القليل، صرنا محكومين بعملية الارتباط التفضيلي، وكلما أثر القليل على الكثير، صرنا نتجه نحو نموِّ مراكز جديدة بقانون القوة power law.
ظلّت هذه القوانين ألغازاً تداعت عليها التجارب بالبرهنة والنقد، والحقيقة أنها ما زالت بالتحليل التجريبي تبرهن على صدقها، وكأنها قوانين مخلوقة في أدمغتنا، وهي قوانين نسري معها دون أن نُسيّرها، وإن كنّا نحن في الظاهر من نُسيّرها.
د. سلطان المجيول
أستاذ اللغويات التطبيقية والحاسوبية بجامعة الملك سعود