د/خالد عبد الفتاح
مدرس علم المعلومات بكلية الآداب جامعة المنيا
قسم المكتبات والمعلومات- مصر
البريد الإلكترونى: [فقط الأعضاء المسجلين والمفعلين يمكنهم رؤية الوصلات . إضغط هنا للتسجيل]
مقدمة:
تعمل محركات البحث بصفة أساسية على بناء كشافات لمصادر المعلومات المتشابكة من خلال اشتقاق كلمات أو عبارات من النصوص نفسها لبناء ملفات تسمح ببحث هذه المشتقات بالاعتماد على أساليب البحث والاسترجاع المعروفة مثل المنطق البولينى، وتجاور المصطلحات، والبتر، والجذع وغيرها. والحقيقة أن هذه الملفات لا تتميز عن الأساليب التقليدية التي استخدمت في الاسترجاع منذ أن حل الاسترجاع العشوائي محل الاسترجاع التسلسلي، والتي تشتمل بصفة أساسية على ثلاث ملفات حيوية هي: الملف التسلسلي Serial File، والملف الكشفي Index File ، والملف المقلوب Inverted File. ومع ذلك فإن التقنيات الحديثة من أجهزة وبرمجيات ساعدت على تحديث وبحث تلك الملفات المقلوبة بسرعة كبيرة، هذا إلى جانب أنها أضافت إلى تلك الملفات مجموعة جديدة من الملفات لتيسير عمليات البحث والاسترجاع مثل ملف الروابط الفائقة، ملف وصف الوثائق ...إلخ .
نشأة محركات البحث وتطورها:
لقد قام عالم الفيزياء تيم برنر لى بوضع أسس الشبكة العنكبوتية في بداية التسعينات من القرن العشرين لتكون وسيلة أساسية للباحثين في تبادل مسودات البحوث والرسائل الإلكترونية. ومنذ ذلك التاريخ بدأت العديد من الجامعات في استخدام هذه الأداة في بث وتيسير سبل الإفادة من المعلومات. ومع بداية عام 1993 كان هناك بضع مئات من المواقع المتاحة على الشبكة العنكبوتية معظمها مواقع تتعلق بكليات ومعاهد بحثية. وكانت الطريقة الأساسية لتبادل المعلومات بين مستخدمي الشبكة العنكبوتية في ذلك الوقت تتم من خلال بروتوكول تبادل الملفات المعروف ب File Transfer Protocol (FTP) ) وهو عبارة عن برنامج يمكن من خلاله نقل الملفات من حاسب إلى حاسب أخر من خلال واجهة تعامل تعمل بالأوامر. فى تلك المرحلة إذا أراد شخص أن يسترجع معلومات من الشبكة العنكبوتية عليه أن يتعامل معها من خلال هذا البروتوكول. وكانت هذه الطريقة فعالة في ظل مجموعات الويب الصغيرة، ولكن مع تزايد المجموعات ونموها لم تصبح هذه الوسيلة فعالة بالدرجة الكافية مما دفع الباحثون للتنقيب عن وسائل أخرى. وتمثل أول تلك الحلول في الاعتماد على أحد محركات البحث التي تم تطويرها قبل نشأة الشبكة العنكبوتية وكان يعرف بالأرشيف Archie إلا أن استخدامه من خلال نظام التشغيل يونكس UNIX فرض ضرورة اختصار الاسم إلى Archie. وقد قام بتطوير هذا المحرك أحد طلاب جامعة ماكجيل McGill بمدينة مونتريال الكندية أسمه ألن إمتاج Alan Emtage. وقد اعتمد هذا المحرك أساساً على قاعدة بيانات بأسماء الملفات المتاحة على الشبكة العنكبوتية ، فكانت عملية المضاهاة تعتمد بشكل كبير على البحث في قاعدة البيانات عن أسم الملف الذي يرغب المستفيد في استرجاعه . وقد مرت عملية بناء وتطوير محركات البحث بأجيال متعددة نذكر منه ما يلى:
* الجيل الأول:
وفى عام 1993 طورت جماعة الاهتمام بالحاسبات بجامعة نفادا بالولايات المتحدة محرك بحث جديد أعتمد على نفس البنية المستخدمة في المحرك Archie وعُرف هذا المحرك الجديد بـ Veronica . والاختلاف الوحيد بين Archie و Veronica هو أن الثاني كان يعمل مع ملفات النصوص Plain Text Files بينما كان الأول يعمل فقط على الاسترجاع من قاعدة بيانات تشتمل على أسماء الملفات. ثم ظهر تقريبا في نفس التاريخ محرك ثالث عُرف ب Jughead وقد أعتمد أيضا على نفس البنية المستخدمة في المحرك Veronica ، وقد تم استخدام كلا من Jughead and Veronica لتبادل الملفات من خلال أداة التصفح جوفر Gopher والتي قام بتطويرها مارك ماكهيل Mark McCahill في جامعة ميناسوتا لكي تحل محل المحرك Archie .
وفى عام 1993 ظهر أول روبوت* على يد ماتثوى جارى Matthew Gary والذى عُرف بمتجول الشبكة العنكبوتية WWW Wanderer. وقد كان الهدف الأساسي من هذا الروبوت هو إحصاء معدلات الزيادة في الشبكة العنكبوتية من خلال تتبع وإحصاء خوادم الويب النشطة Active Web Server. ثم قام ماتثوى بعد ذلك بتعديل الربوت حتى يتمكن من تجميع محددات المصادر الموحدة URL`s. وقد عرفت قاعدة البيانات التي تم تجميعها من خلال هذا الروبوت ب Wandex.وفى أكتوبر 1993 قام أرتيجن كوستر Artijn Koster بتطوير محرك جديد يشبه في بنيته المحرك Archie وعُرف هذا المحرك ب Aliweb. وقد أتاح هذا المحرك لأول مرة إمكانية تسجيل الصفحات في محركات البحث، حيث أتاح الفرصة لمعدي صفحات الويب أن يقوموا بتسجيل الصفحات وتكشيفها ووصفها بأنفسهم، ولكنه واجه مشكلة كبيرة هي أن معدي صفحات ومواقع الويب لم يكن لديهم الخبرة الكافية لتكشيف وتسجيل صفحاتهم بأنفسهم .
وبحلول ديسمبر عام 1993 ظهر ثلاث محركات بحث جديدة في نفس الوقت هي على التوالى: JumpStation ، و The World Wide Web Worm (WWWW)، و The Repository-Based Software Engineering (RBSE) . وقد أعتمد المحرك JumpStation على تكشيف عناوين ورؤوس الصفحات Title and Header كما أعتمد في الاسترجاع على البحث الخطى* Linear Search . ومع نمو الشبكة العنكبوتية لم يعد هذا المحرك قادراً على متابعة هذا النمو السريع مما جعله يتوقف سريعاً. أما المحرك WWW Worm فقد أعتمد على تكشيف العناوين ومحددات المصادر الموحدة Page Title and URL`s. ومن العيوب الأساسية في كلا من JumpStation and WWWW أنهما كانا يسترجعا النتائج دون أي ترتيب، حيث كان يتم استرجاع النتائج وفقاً للترتيب الذى وجدت عليه في قاعدة البيانات. أما المحرك RBSE فقد كان أول محرك بحث على الشبكة العنكبوتية يستخدم فكرة نظم الترتيب والفرز Ranking Systems والتى يمكن من خلالها استرجاع النتائج مرتبة وفقاً لمعايير الصلاحية*. ومع نهاية عام 1993 ظهر المحرك Excite والذي كان ناتج أحد مشروعات تطوير المحرك Architext والذي بدأه 6 طلاب في جامعة ستانفورد فى فبراير عام 1993. حيث قاموا باستخدام فكرة التحليل الإحصائي Statistical Analysis لعلاقات الكلمات والمصطلحات Word Relationships من أجل جعل البحث أكثر فعالية وكفاءة .
** الجيل الثاني:
ولم تكن كل المحاولات السابقة، في الحقيقة، تمثل مقومات محركات البحث ولم تكن صالحة في الأصل كمحركات ؛ نظراً لأن الزاحف Spider أو الروبوت Robot الذي يتولى تجميع الصفحات من الشبكة العنكبوتية لم يكن بالذكاء الكافي الذي يتمكن من خلاله فهم العلاقات القائمة بين الروابط الفائقة Hyperlinks، ومن ثم فإن المستفيد إذا لم يكن يعلم على وجه الدقة عنوان الصفحة التي يرغب في الوصول إليها فإنه كان من الصعب وربما كان من المستحيل عليه الوصول إلى تلك الصفحة.
وفى يناير عام 1994 ظهر أول دليل بحث على الشبكة العنكبوتية الذى عُرف EINet Galaxy. وقد ساعد على نجاح هذا الدليل اشتماله على ملامح البحث التي وفرتها كلا من جوفر Gopher وتلنت Telnet (وهما معا كانا يمثلان أهم أدوات الإنترنت في ذلك الوقت)، هذا إلى جانب ملامح البحث في الشبكة العنكبوتية. وقد شهد أبريل عام 1994 مولد دليل البحث Yahoo على يد كلا من ديفيد فيلو David Filo وجيرى يانج Jerry Yang ، والذي لم يكن في بدايته سوى مجموعة من الصفحات والمواقع المخزنة على الحاسبات الشخصية لدى كلا منهما.
*** الجيل الثالث:
وقد شهدت الفترة من عام 1994 حتى نهاية العقد الأخير من القرن العشرين ظهور عدد كبير من محركات وأدلة البحث التي تميزت بقدرتها الفائقة على بحث واسترجاع الصفحات والمواقع على الشبكة العنكبوتية كان أبرزها محرك البحث Google, AltaVista, Alltheweb، وغيرهم. وقد شهدت الفترة من عام 1994 إلى عام 2000 منافسة شرسة بين مجموعة من محركات البحث العالمية على تغطية أكبر قدر ممكن من صفحات ومواقع الويب حيث شهدت تلك الفترة العديد من دراسات المقارنة بين مدى تغطية محركات البحث لصفحات ومواقع الويب .
وقد شهدت الفترة من عام 2001 إلى 2005 طفرة جديدة في محركات البحث تمثلت في محاولة معظم المحركات الشهيرة في التحول من مجرد محركات بحث إلى بوابات للويب Web Portals. ويشير مصطلح البوابات إلى مجموعة الأدوات التي تسعى إلى تنظيم مصادر المعلومات المتاحة من خلال تقسيمات موضوعية شاملة بحيث تشتمل البوابة على كافة أنواع المصادر والخدمات التي يحتاج إليها المستفيدين من خدمات الشبكة العنكبوتية من خدمات بريد إلكتروني، دردشة، قوائم خدمات وقوائم بريدية، المواد الإخبارية، أسعار العملات، أحوال الطقس، إلى جانب قوائم موضوعية بمصادر المعلومات المتاحة من خلال البوابة إلى جانب محرك يتيح إمكانية البحث في البوابة. وإلى جانب التنوع في الخدمات التي تقدمها البوابات للمستفيدين منها نجد أن هذه المواقع عادة ما تتضمن برامج تساعد على تحليل استخدامات المستفيدين Web Usage Analyzer بغرض بناء ملفات سمات المستفيدين User Profiles ويمكن من خلال هذه الملفات التعرف على احتياجات المستفيدين والتنبؤ بها بالتالى اختيار المصادر المناسبة لكل مستفيد من المستفيدين من الموقع. ويمكن أن تقوم تلك المواقع باستخدام تكنولوجيا الدفع Pushing Technology إلى المستفيدين من الموقع. كما يمكن أن تتم عملية الدفع عبر خدمات البريد الإلكترونى التي توفرها تلك المواقع أو إلى الصفحات الأمامية للمستفيدين من هذه المواقع كما يمكن أن يتم الدفع إلى دوسيهات خاصة للمستفيدين من هذه المواقع. من ثم فالبوابات عادة ما تيسر لمستخدمي تلك المواقع كل أنواع الخدمات التي يحتاج إليها بصورة تفاعلية مما يوفر كل احتياجات المستفيد من خدمات ومصادر الشبكة العنكبوتية. وفى مقابل ذلك تسعى البوابات إلى جذب الشركات التي تسعى إلى الإعلان عن منتجاتها وخدماتها لتحقيق الأرباح من خلال تلك المواقع حيث أنه من المعروف أنه كلما زاد عدد مستخدمي الموقع كلما تهافت الشركات على الإعلان عن خدماتها ومنتجاتها من خلال هذه المواقع.
**** الجيل الرابع:
شهدت الفترة من عام 2000بداية تطوير جيل جديد من أدوات البحث على الشبكة العنكبوتية يعرف بالأعوان الذكية للبحث Intelligent Agent التي تسعى إلى الاستفادة من إمكانيات الذكاء الاصطناعي والنظم الخبيرة لتحقيق متطلبات تشغيل الويب الدلالي Semantic Web في تيسير عمليات البحث والاسترجاع ومازال العمل في هذه الأدوات في طور التجارب المبدئية. وتمثل الأعوان الذكية تطور طبيعي لبوابات الويب بحيث تسعى إلى التعرف على احتياجات المستفيدين من الشبكة العنكبوتية من خلال مجموعة البرامج التي تحلل تلك الاستخدامات وبناء واجهات تعامل ذكية تساعد على تقديم خدمات موجه لمستفيد بعينه وفقا لاحتياجاته المخزنة في النظام. كما تحاول تلك الأدوات الاستفادة من مقومات تكنولوجيا الدفع في توجيه النتائج إلى المستفيدين مباشرة بالتالى لا يحتاج المستفيد إلى إجراء البحث بنفسه حيث يتولى وكيل البحث إجراء البحث بشكل دوري نيابة عن المستفيد. كما تحاول تلك الأعوان أن تقوم بتطوير وسائل تساعد المستفيد في إجراء العمليات والوظائف العامة التي يؤديها من خلال الشبكة العنكبوتية مثل فحص الرسائل الإلكترونية وتنظيمها بحيث يمثل هذا البرنامج السكرتيرة الخاصة للمستفيد مما يمكنها من التصرف في بعض المواقف مثل القيام بعمليات التنبيه وإعداد جداول المواعيد.
فعلى سبيل المثال نجد أن موقع Tracerlock يقوم بالمهام التالية نيابة عنه .
• flexible search terms - single words, phrases or advanced search strings
• complete control - at any time you can change your search terms, suspend or cancel your account, change your account details or open new accounts
• personalized searches - in addition to TracerLock's standard, extensive database of sites, you can enter up to 20 URLs that you want TracerLock to monitor for you
• timely alerts - TracerLock can alert you by e-mail within as little as 15 minutes of new occurrences of your search terms [sample alert]
• archives - your past search results are retained online for later access
• webmaster tools - TracerLock can generate newsfeeds (based on your search results)
for use on your own web site
• TracerLock Toolbar - a downloadable toolbar for Microsoft Internet Explorer which helps you search as you surf
• TracerLock Desktop - a free downloadable application to manage your TracerLock account and to retrieve your results directly to your PC [More...]
• الخلاصة:
تناولت هذه الورقة عرض لتطور محركات البحث على الشبكة العنكبوتية لتوضيح الوضع الحالي لتلك الأدوات State of the Art والتطورات المستقبلية المحتملة في هذا الإطار. وقد أوضحت الورقة أن هناك تطور كبير في هذه الأدوات يسعى إلى توظيف إمكانيات الذكاء الاصطناعي لكى تتناسب في طبيعتها مع الجيل القادم للشبكة العنكبوتية والذي يعرف الويب الدلالي والذي يمثل الهدف الإستراتيجي للجهة المشرفة على تطوير الشبكة العنكبوتية ألا وهى WWW3C.
المصادر:
Lancaster, F.W. (1998) Indexing and Abstracting in Theory and Practice. Champaign, Illinois : University of Illinois, Graduate School of Library and Information Science, 412 p.
- Gromov, Gregory R. History of the Internet and WWW- Part 8: Statistics. The Road and Corssroads. Feburary, 2000. Retrieved from the WWW at May,25, 2005. [فقط الأعضاء المسجلين والمفعلين يمكنهم رؤية الوصلات . إضغط هنا للتسجيل]
- Lenssen, Phillip. Search Engines History. April, 2004. Retrieved from the WWW at May 14,2005 [فقط الأعضاء المسجلين والمفعلين يمكنهم رؤية الوصلات . إضغط هنا للتسجيل]
- Seo Consultants. Directory and Search Engines History. June 2003. Retrieved from the WWW at May 15, 2005. [فقط الأعضاء المسجلين والمفعلين يمكنهم رؤية الوصلات . إضغط هنا للتسجيل]
- Wall, Aaron. Search Marketing. History of Search Engines & Web History. Retrieved from the WWW at May, 16, 2005. [فقط الأعضاء المسجلين والمفعلين يمكنهم رؤية الوصلات . إضغط هنا للتسجيل]
- Hawking, D., Craswell, N., Bailey, P., Griffith, K. (2001). Measuring Search Engines Quality. Information Retrieval. 4(1), pp33-39.
- Tracerlock. (2005). Welcome to Tracerlock. [فقط الأعضاء المسجلين والمفعلين يمكنهم رؤية الوصلات . إضغط هنا للتسجيل]
وهذآ الثآني
اقتباس:
محركات البحث برمجيات إستقصائية تكشف السرقات الفكرية
يقلم
حسين أحمد سليم آل الحاج يونس
برمجيات محركات البحث في الشبكة العنكبوتية, تعتبر من التقنيات الرقمية المتقدمة في هذا العصر , والتي قدمت لرواد الأنترنت خدمة جليلة, تساعدهم في استقصاء المعلومات التي يريدونها, وبالتالي يوفر على الكتاب والباحثين الكثير من الوقت الذي يهدر للبحث والاستقصاء التقليدي عن المعلومات الهدف... المنوي استخدامها في البحوث والدراسات الأدبية والفنية والتقنية وغيرها...
طلبة الجامعات هم الشريحة الأكثر استفادة من هذه التقنية الحديثة, بحيث يكلفون من قبل إدارات الجامعات المنتسبين اليها, تقديم أبحاث معينة تناقش من قبل اخصائيين معينين تمهيدا لمنحهم الكفاءة الجامعية أو الشهادة المتقدمة من رتبة رفيعة المستوى كالدكتوراه مثلا... بحيث كان الطالب الجامعي سابقا يهدر الوقت الكثير في عملية الجمع والبحث والاطلاع والاستقصاء والغربلة... تمهيدا لوضع بحثه وربطه بالمصادر والمراجع الكثيرة التي اطلع عليها واعتمدها في صياغة بحثه... أما اليوم فالعملية تغيرت كثيرا واختلفت جزريا مع وجود برمجيات البحث من جهة ومن جهة أخرى وجود برامج التنضيد التي تسهل على الباحث عملية ربط المعلومات ببعضها البعض, وبالتالي يسهل عملية الرجوع اليها بسرعة...
العلماء والباحثون والكتاب والصحفيون وغيرهم... مجموعة من الأفراد المختارة من شرائح المجتمعات الناهضة ثقافيا وفكريا وعلميا ... مما يقومن كذلك بوضع الدراسات والأبحاث والتحقيقات والأطروحات وخلافها... ليقدموها متكاملة ومشبعة البحث لمن يهمهم الأمر في المؤسسات العلمية أو الفنية أو الفكرية أو في المؤسسات الصحفية على اختلاف أنواعها, المكتوبة والمنظورة والمسموعة, سيما الوسائل الصحفية الرقمية المنتشرة في الشبكة العنكبوتية إضافة الى المنتديات والمدونات والمواقع الأخرى ذات الطابع العلمي أو الأدبي أو الفني...
على صعيد آخر, فإن محركات البحث في الشبكة العنكبوتية, في عملية الاستقصاء تساعد كثيرا في كشف النصوص الأصلية, الموسومة بتاريخ ادخالها الى موقع ما في الشبكة, مقارنة مع الاقتباسات المسموح بها قانونيا, وبالتالي مطابقة مع الاختلاسات والسرقات الأدبية والفنية, التي يمارسها لصوص الأنترنت, على امتداد الشبكة العنكبوتية... بحيث يفتضح أمرهم وتنكشف عوراتهم, ويسقطون من مكانتهم التي أقاموها زورا وبهتانا, على إنتاج وابتكارات وابداعات الآخرين... ناهيك عن الملاحقة القانونية ومحاسبة هؤلاء المتفلتين من أدنى مقومات الأخلاق والأدب والأعراف الاجتماعية, والذين يتخفون وراء شادورات وجلابيب من الأسماء الوهمية أو المستعارة أو المرمزة وما شابه, ويتدشمون وراء معلومات مزورة في غالبيتها ولا تمت للواقع بصلة, لجهة البريد الرقمي والبلد التي ينتمون لها, وأرقام الهواتف الوهمية, والعناوين المتاهة...
وأنا أقوم بوضع دراساتي التي أستخدم فيها مصادر ومراجع منوعة في نفس الاتجاه المنشود, كثيرا ما أصادف سيلا من الاقتباسات غير المشروعة, وأكتشف الكثير من الاختلاسات الأدبية والسرقات الفنية , وأتلمس الكثير من الممارسات اللصوصية في شبكة الأنترنت, مما تدمى له الأصابع, وتهمي له الدموع, وتهرق حوله الكلمات الناقدة والمنادية بوضع حد لمثل هذه الأفعال الجرائم... وبالتالي تعلو الأصوات المستنكرة لهذه التصرفات غير المسؤولة, والمتأتية من قبل أفراد وجماعات همها الوحيد بناء صروحهم واشادة قصورهم بطرق غير قانونية وأساليب لصوصية, سرعان ما تهوي على رؤوسهم, لأن برمجيات نحركات البحث المنتشرة على الشبكة العنكبوتية, كفيلة بفضح المستور, وكشف المغمور, واعلان النتائج الدقيقة والتي تسقط أماها التيجان الوهمية, وتحترق عندها الأسماء المنتحلة, ولا يبقى إلا المحترم ... وهكذا تبرز الحقيقة جلية أمام اختفاء الوهم المصطنع...
بناءا على ما تقدم باختصار حول برمجيات البحث الرقمية في الشبكة العنكبوتية, ومدى أهميتها في الاستخدامات الاستقصائية لجميع العاملين في مجالات اعتماد المراجع والمصادر والنصوص والمدخلات الموجودة في مواقع ومنتديات ومدونات النترنت, نحيط الجميع علما مما لا يعيرون الأهمية لحقوق حفظ الملكيات الفكرية والفنية, أن هذه البرمجيات كفيلة بفضح كل الأساليب غير المشروعة , والذين يمتطون خشبتها, متوهمين أنهم يقترفون جرائمهم بعيدا عن الأضواء دون معرفة أحد, فإن كل مخططاتهم تبوء بالفشل الذريع أمام مقدرة البرمجيات المتخصصة في البحث, والمنتشرة بشكل واسع في الأنترنت, ومنها مثلا لا حصرا, غوغل , إم إس إن , ياهو , عربي, وغيرها...
أما الآخرون مما يمارسون فعل اللصوصية الفكرية من مواقع الشبكة العنكبوتية, لاستخدامها في كتبهم الخاصة والتي تنشر خارج الشبكة العنكبوتية, تحت أسمائهم الواهية, فالوقت كفيل بفضحهم وأن طال الزمن... وأولئك الذين ينقلون من مواقع الشبكة العنكبوتية ويسرقون الدراسات والمقالات وينشرومها في الصحف المحلية في بلدانهم, نسوا أن تلك الصحف موجودة على الشبكة العنكبوتية , ويستطيع من يشاء الوصول للمعلومات المنشورة في صفحاتها كذلك من خلال برمجيات البحث الرقمية...
وإذا نجا بعض اللصوص من مغبة أفعالهم الجرمية مرحليا, فإن الزمن كفيل برفع النقاب عن جرائمهم, ولا ينسى المجرمون الذين يمارسون اللصوصية الفكرية, أن عين الله تراقبهم وتراهم وإن كانوا لا يرونه ولا يشعرون بوجوده لأن ضمائرهم ولدت ميتة, أو ماتت بعد ولادتهم, أو ولدوا أساسا بلا ضمائر, وبلا وجدان إنساني, وبات ما يدب على أربع خير منهم...