כריית מידע או נתונים היא סריקה טקסטואלית של הדף והסקת מסקנות לוגיים אשר מובילים את הסורק ליצירת פעולות הנגזרות מכך.
ובכן, לא כולם חייבים להבין באופן מיידי את המשפט האחרון, על מנת להבין לשם מה נועדה כריית מידע יש להבין כי מידע הוא כח, גם אם כולם רואים אותו באינטרנט וגם אם כולם יכולים לגשת אליו עדיין ניתן לעשות בו שימושים רבים. למשל, אנו יכולים לגשת לאינדקס האתרים הכי ידוע בנישה מסויימת. למשל אתר תיירות.
כריית מידע מאין אינדקס עסקים נועד לגלות אתרים , לכן כריית מידע מסוג אינדקס אתרים יבקש להוציא לינקים מהאתרים שאנו ניגש אליהם ובעזרת נתונים אלו ליצור מסד נתונים שבנוי מקישורים, התיאורים שלהם, וכן המילות קישור שמחוברות אליהן.
איך זה מתבצע?
ובכן, מבחינה לוגית ניתן לגשת לדף מסויים, בדף זה ניתן לגשת לדפים בהם יש לינקים הקשורים אליו, ואז המנוע כריית נתונים ניגש ללקישורים הללו וכורה את הנתונים באותו אופן.
מה עושים עם הנתונים?
בסופו של תהליך אנו יוצרים מסד נתונים מלא קישורים והמידע על הקישורים והאתרים והדפים הרצויים. מנקודה זו יש לנו למעשה מסד נתונים שניתן לבנות ולהשתית עליו אתר אידקס אתרים לכל דבר.
מבחינה תיאורטית יש כ – 5 שלבים שונים בכריית מידע שהם השלבים המקדימים לבניית האתר עצמו. כיום הגוף הכי גדול שעושה בזה שימוש ואנו מכירים הכי טוב הינו גוגל.
רונן הוא מתכנת בעת נסיון של 12 שנה בבניית אתרי אינטרנט, וכן איש קשר עם לקוחות אשר צבר נסיון רב בענף האינטרנט