תחום "התפוצצות המידע"(או בשמו הסקסי יותר ה Big Data) יתפוס השנה מקום מרכזי תכניות העבודה של מחלקות ה IT, וכמעט כל ארגון בינוניגדול בשוק "מתעסק" בו כך או אחרת. היקף התוכן הדיגיטלי יגדל השנה ל- 2.7Zettabytes (לשם הפרופרציות, ה-zettabytes הוא יחידת מידע ששקולה למיליארד טרה-בייט) מדובר על גידול של 48% לעומת 2011, כאשר יותר מ- 90% ממידע זה יהיו בלתי-מובנים, זה אומר מידע בדמות תמונות, וידיאו, קובצי MP3, מובייל, אימיילים, וקבצים המבוססים על פייסבוקים, טוויטרים (ושאר רשתות חברתיות) וגם מבלוגים, ופורומים למינהם... כמו כן לשימושים נוספים כמו כל הקשור במסחר אלקטרוני, ניתוח ClickStream, איסוף מודיעין ומעקב, רשומות רפואיות,אכיפת החוק,ארכיוני מידע,מידע מחיישנים, ועוד .
התחרותיות בין חברות נשענת בעיקר על יכולתן למנף את הידע שברשותן ולהפיק תובנות עסקיות חדשות ע"י תיחקור ואנליטיקה : היכולת לאסוף, לנתח להפיק תובנות והחלטות תפעוליות יחד עם האפשרות לחזות התפתחויות עתידיות על סמך מידע, זה כבר צורך קריטי, ולא עוד Nice to Have בארגון... בין אם מדובר בהשפעת קמפיין שיווק על הצרכנים, זמני תגובה ושירות לקוחות, הגדלת המכירות, ניתוח תכנית נאמנות לקוחות, או אפילו כלים המסוגלים לזהות מבעוד מועד תקלות וכשלים עתידיים במערכות עוד לפני שהתרחשו, ואו מגמות לגבי העומד להתרחש .
המנמר"ים בארגונים השונים כבר עסוקים עד מעל הראש בנושא, מכיוון שהצורך העסקי כבר כאן, הביזנס דורש מה IT משימות שגורמות לו לאלתר בלהטוטים מיוחדים בכדי לספק את התשובות, ולצאת לפרויקט BIGDATA זה אתגר לא פשוט שחייב לכלול מענה בהיבטים שונים כמו : תקציב, איתור כלים מתאימים שיסייעו לך להתמודד עם האתגר, הכשרת כח אדם, שינוי ארכיטקטורה, וכמובן לדאוג לכל מה שמסביב כמו נושאי אבטחת מידע, וגיבויים למשל ...
אז אחרי שאתגר ה BIGDATA הפך להיות הנושא החם של כמעט כולנו, ואחרי שהבנתם את הרקע במאמר הקודם (אם לא, אז אולי שווה להתחיל שם... למהמר קוראים האם אתה מוכן לעידן ה BigData (שווה חיפוש) כאשר רוב הפתרונות מבוססי NoSQL
(Not Only SQL) אותם בסיסי נתונים שמהווים אלטרנטיבה לבסיסי הנתונים הרלציונים, בכל הקשור למידע לא מובנה (לא מיועד להחליף את המידע המובנה בשלב הזה) שמותקנים מקומית ואו בענן, פתרונות כמו Cassandra שבשימוש של פייסבוק, Dynamo שבשימוש אמאזון, Project Voldemort שבשימוש של LinkedIn, Riak, CouchDB ו MongoDB ואחרים..... וכמובן Hadoop (Google, Yahoo) .
היום נתמקד ספציפית בנקודה מעניינת שמסתמנת כפתרון מערכתי שיעמוד במרכז אסטרטגיית הפתרונות, כתשתיתפלטפורמה לאתגר "מאגרי הנתונים הגדולים" שכיום כל ארגון בינוני ומעלה מתמודד איתו כך או אחרת, כולם מדברים היום על Hadoop, למעשה רוב המעורבים בתחום גם משתדלים לשדר שהם כולם כבר נמצאים בשלב כזה או אחר של בדיקת היתכנות, ואו יישום, כאשר ברוב המקרים בארץ לפחות זה נמצא עדיין במעבדות הבדיקה, ועוד דיי רחוק מסביבות הייצור, אך יחד עם זאת, ניתן למצוא כבר כיום למעלה מ 150 חברות בעולם (בינוניות וגדולות) שכבר משתמשות ב Hadoop כפתרון ואו כבסיס לפתרון שלהם... חברות כמו : יאהו (הראשונים,ומייד נסביר למה ואיך) פייסבוק,אמאזון,מיקרוסופט, אורקל, גוגל,IBM,אמריקה און-ליין, Adobe,AOL, טוויטר, EMC(Greenplum), MapR, Hortonworks , ועוד ... ועוד, חלק מהחברות משתמשות בפלטפורמה כפתרון בסביבות העבודה שלהן, וחלק מהחברות כתשתית לפתרון שלהן לאתגרים הרלוונטים .
אז מזה בכלל ה Hadoop?
פרויקט קוד פתוח של חברת אפאצ'י, סוג של Framework (מסגרת תוכנה) ליישום מבוזר המסוגל לאחסן ולעבד כמויות גדולות (וגדולות מאוד) של נתונים בצורה מקבילית . הפתרון כולל 2 שירותים עיקריים : תשתית האכסון Hadoop Distributed File System (HDFS) וטכנולוגיית ביצועים משופרת פרללית בשם MapReduce .
הפתרון מאפשר עבודה של אלפי יחידות עיבוד (Nodes בשפה המקצועית...) המטפלות בו זמנית במידע בהיקפים גדולים, כאשר מדובר על מערכת קבצים גדולה, שמסוגלת להריץ פונקציות MapReduce בצורה מבוזרת (שמייד נרחיב על כך) סוג של Data Store שמגיע עם ארכיטקטורה דיי פשוטה בסה"כ שמבצעת עיבוד מקבילי של קבצים גדולים המבוזרים על פני אשכולות מחשבים, כאשר מיישם את אותה פרדיגמה חישובית בשם ""MapReduce (תפיסה שהמציאו הח'ברה של Google עבור מנוע החיפוש המוביל בעולם) כך שלמעשה כל בקשה מחולקת למספר עבודות קטנות, שמתחלקות למספר גדול של מכונות, ורצות במקביל, וכל אחת למעשה מחשבת ומעבירה תוצאות ביניים לשלב הרדוקציה, השלב שבו משתלבים התוצאות לתוצאה הסופית, נכון – מדובר בפלטפורמה חדשה שיש לה את החסרונות שלה (היעדר כח אדם מומחה,פונקציונליות קריטית כמו העובדה שהיאsingle point of failure ולא ניתן ליישם High-Availability למשל, אבל הפוטנציאל ענק !
אז חוץ מכל היצרנים, שגם אם חלקם (עדיין) לא עושים Hadoop לפחות פועלים "לתמוך ב Hadoop". Yahoo היו הראשונים שהשתמשו בפתרון בפועל, וזאת מהסיבה הפשוטה, שהם היו הספונסר העיקרי של פרוייקט הפיתוח (לצד IBM) שלמעשה הועבר רק בהמשך הדרך (ב 2006) ל Apache ע"י יוצר התוכנה דאג קאטינג שייעד אותה במקור בכלל לפרויקט מנוע החיפוש Nutch. גם היום, היא עדיין המובילה כאשר משתמשת בטכנולוגיית Hadoop ביותר מ 100,000 מעבדים, בלמעלה ב 40,000 מחשבים שמריצים Hadoop (!) . רק שנתיים אחרי, ב 2008 התשתית החלה להיות מבצעית יותר, ואף קמו מספר סטראט-אפים הנותנים פתרונות מבוססי Hadoop, שהבולט בהם הוא Cloudera בו הושקעו קרוב ל-40 מליון דולר. גם IBM כמובילה טכנולוגית מנצלת את ההתפתחות, והטמיעה את Hadoop בתוך כלי האנליזה החדשים שלה .
אגב, השם Hadoop הוא שמו של פיל הצעצוע של בנו של קטינג, שאת תמונתו תפגשו בלוגו של הפרויקט...
ללא ספק היורש של דמבו !
ספקי פתרונות בעולם ה"BigData" וה Hadoop:
אז כמו שכבר אמרתי, כולם רוצים להיות שם, וכולם כבר מפתחים פתרונות מבוססי Hadoop, כאשר כל אחד יכול פשוט להוריד מהאתר של Apache את כל אחד המוצרים ולהתקין וללקנפג עצמאית, ואו להשתמש בהפצה קיימת, שמספקת התקנה פשוטה, רמת אמינות מסויימת, יכולת לקבל תיקוני באגים, כלי ניהול וכו' וכו'.
ההפצה המסחרית הראשונה היתה קלאודרה אבל מאז, כל הוונדורים כבר שיחררו את הפתרון שלהם לשוק (תוכנה, Appliance, או (Cloud/SaaS רוב הפתרונות חדשים יחסית בשוק, מי ברשימה ?
EMC Greenplum,Amazon Web Services (AWS), Cloudera, Datameer, DataStax, Hortonworks, HStreaming, IBM Neteeza , MapR, Outerthought, Pentaho, Platform Computing ו – Zettaset . כאשר אין ספק שהלידרים בתחום הם : Amazon Web Services, IBM Neteeza, EMC Greenplum, Cloudera ו Hortonworks .
לצד פתרונות מצוינים נוספים מבית SAP BW Accelerator ו HANA, Exadataו Exalytics
של אורקל ואחרים .
ארכיטקטורה :
הארכיטקטורה מורכבת מ-Master (Namenode יחיד) ורכיבי עיבוד המעבירים לו מידע (מספר - DataNodesאחד בכל צומת של Cluster), כאשר ב-Master מתקבלות התוצאות ומופקת תוצאת העיבוד. ומכיוון שהמטרה העיקרית של הפרויקט היא להתמודד עם כמויות מידע גדולות, ועיבודים אנליטים מורכבים,
מגוון הפתרונות רחב ביותר, זה יכול להיות תשתית לפרויקט ClickStream שאפתני ואו שילוב של שאילתות SQL מורכבות תוך כדי "לעיסת" מידע מבוסס תמונות או סאונד בו זמנית ... . למעשה Hadoop רץ כסוג של Cloud (כ Cluster)
וניתן אפילו ליישם אותו בתוך הענן (כמו למשל בAmazon Elastic Compute Cloud , הידוע בשם המקוצר EC2) .
את Hadoop ניתן להתקין על מכונה יוניקסיתלינוקס (ניתן גם ב Windows בצורה עקומה מעט, לא מומלץ במיוחד) ואת המרכיבים ניתן פשוט להוריד מהאתר של אפאצ'י.
טכנולוגיית Hadoop למעשה משלבת בסינרגיה מוחלטת את איזור האחסון, דרך בסיס הנתונים (ה HDFS) וכלי האנליטיקה המתקדמים, למודל ה MapReduce, וכך יוצרת סביבת עבודה יציבה וערוכה לאתגרים העומדים על הפרק בעידן "הר הגעש של המידע" עם אמינות, מדרגיות, ויכולות ניהול ותחזוקה .
תוכנת Hadoop מחולקת לשלושה פרויקטי ליבה ולפרויקטים נוספים המשלימים אותם, היוצרים ביחד את המוצר השלם :
• Hadoop Common
רכיב זה כולל מרכיבי תשתית בסיסיים כתשתית עבודה ל Hadoop, ובנוסף להם תוכנות בהיבטים שונים הקשורים בעבודת Hadoop, שפותחו על ידי חברים בקהילה. ברכיב זה נמצאים מנגנונים לגישה למערכות הקבצים הנתמכות על ידי Hadoop.
• Hadoop Distributed File System) HDFS)
תשתית האחסון המבוזרת של האדופ, מערכת קבצים המנהלת קבצים גדולים מבוזרים באופן המאפשר ביצועים גבוהים בגישה למידע אפליקטיבי. תוכננה כמערכת בעלת יכולת לנהל קבצים עם כמויות נתונים גדולות במיוחד (Petabytes) המבוזרות באלפי נקודות קצה ומשתמשות בחומרה רגילה, תוך שמירה על רמת שרידות גבוהה.
• Hadoop Map/Reduce
מסגרת תוכנה לעיבוד מבוזר של קבצים גדולים הנמצאים באשכולות מחשב. מנגנון ה-Map/Reduce מבוסס אלגוריתם מ 2 הפונקציות (Map ו Reduce) וממומש ב-Master. הוא מורכב משני שלבים:
1.שלב המיפוי (Map) - בשלב זה מקבל ה Master קלט שעל פיו הוא מחליט כיצד לחלק את העבודה המבוזרת בין תהליכי משנה (Sub Processes) כאשר כל אחד מהם מספק פתרון לחלק מהבעיה. לאחר מכן כיצד לחלק אותם בין Nodes שונים המבצעים כל אחד עיבוד הנותן פתרון לחלקים השונים של הבעיה .
2.שלב הצמצום (Reduce) - בשלב זה אוסף ה Master את תוצאות העיבודים של תהליכי משנה שכל אחד מהם מהווה פתרון לחלק מהבעיה ומייצר מהם פלט המהווה פתרון כולל לבעיה .
הדוגמא הטובה ביותר לתהליך ה"אבסטרקציה" שעושה MadReduce היא דוגמת ספירת המילים : נניח שיש לך מיליוני דפים, ואתה רוצה לספור את המילים, כמה כל מילה מופיעה בכל אחד מהדפים : שלב המיפוי : יעבור על כל מסמך, ויספור על כל מסמך בודד, כמה פעמים מופיעה כל מילה שלב הצמצום : ייסכם את כל התוצאות של כל המסמכים, וצמצם את התוצאה לסיכום הספירה לאורך כל המסמכים.
הזדמנויות חדשות מבוססות עולם ה BIGDATA :
בואו נתרגם לשפה העסקית, איך זה עוזר לנו במגזרים השונים? :
• CRM : שילוב עם רשתות חברתיות,ניתוח מגמות של התנהגות צרכנים,מדדים, נטישת לקוחות, ניתוח השפעות,
• פיננסי : ניהול סיכונים, זיהוי ומניעת נסיונות הונאה,עמידה בתקנות (רגולציה),התאמה אישית של שירותים ומוצרים
• טלקום : CDR,נסיונות הונאה
• בריאות : ניתוח תיקים רפואיים, הונאות, ביטוח פרו-אקטיבי,חיפוש בטקסט ארכיון
• פרמה : ניהול וניתוח נתונים קליניים
• ביטוח : נסיונות הונאה, ניתוחים סטטיסטיים על נתונים המבוססים מיקום גיאוגרפי
• ייצור : סימולציות,שיפור שירות, אחריות, מדדי איכות אספקה, ייצור רזה
• קמעונאות : ניתוח התנהגות צרכנית, יציאה לקמפיינים ייעודיים, אופטימיזציה של תמחור ושל ניהול והפצת מלאים
• אינטרנטרשתותמובייל : ניתוח סנטימנטים, יומן וניתוח אירועים, ניתוח וידאו ותמונות, התאמה אישית ללקוח, חיוב, דיווח, ניתוח רשתות... זיהוי מגמות ... וכו'
וכמובן שישנם מגזרים רבים שלא הוזכרו כמו ממשלה,בטחון ועוד... כמו כן ישנם אתגרים נוספים שרלוונטים מאוד לעולם ה IT מבוסס פתרונות BigData כמו :
• סיכום המידע מקובץ לפי מפתח (לצורך הדוגמא שימוש בפונקצית Summarize כדי לסכום את המכירות של כל החנויות שבבסיס הנתונים, או בפונקציית GroupBy בכדי לסכום את המכירות עבור כל חנות בנפרד...)
• מיפוי לפני נתונים גיאוגרפים (למעשה תמונות אלקטרוניות של מפות) כך שמאפשר לנו לצורך הדוגמא לתכנן ערים,לחזות שטפונות או רעידות אדמה, תיכנון נתיבי חירום,הערכות איכות הסביבה,ניטור דפוסי מזג אוויר...)
• בניית אינדקס מהופך (Inverted Index למעשה אוסף את המילים, ממיין בסדר אלפביתי, כאשר כל מילה מכילה מידע לגבי כל המקומות שבהם היא מופיעה (מספר סידורי של מסמך, למשל) וכך למעשה מתקבלת לה דרך יעילה מאד לחיפוש טקסטים במאגרים גדולים: במקום מעבר על אלפי או מיליוני מסמכי טקסט מפוזרים, מתבצע חיפוש מילוני מהיר בקובץ אינדקס אחד, וכך מתאפשר חיפוש טקסטואלי מהיר)
• OCR לכמויות תמונות (זיהוי תווים אופטי, והמרת קובץ גרפי טקסטואלי לקובץ שמורכב מתווים, בדרך כלל לשם מטרות כמו : עיבוד מחדש וסידור של תמליל, שילובו בתמליל מודפס עתידי הדפסתו מחדש בעיצוב אחר,
אכסון נתונים טקסטואליים במחשב, תוך הנגשת האפשרות של חיפוש תוכנם לחיפוש, למשל בתוכנת החיפוש (פנימית ואו חיצונית), הפצת תוכן טקסטואלי עם תוכנה לאחזור מידע, הפיכתו לנגיש עבור אנשים עם מגבלויות (למשל הקראת התמליל על ידי המחשב בעזרת תוכנת הקראה Text To Speech עבור עיוורים), הזנה למחשב של טפסי נייר באופן ממוכן, זיהוי של מספר רישוי של מכוניות בחניונים ובכבישי אגרה, ועוד ועוד
מילון מונחים (כל הקללות)
אז לפני שנעניק הסבר לגבי כל הפרויקטים ותתי הפרויקטים סביב עולם ה Hadoop, בואו נבין את שכבות הפתרון העיקריים :
פרוייקט פתרון
שכבה
MapReduce, Pig, Mahout
מידול ופיתוח
HDFS, HBase, Cassandra
אחסון וניהול נתונים
Hive, Sqoop
שאילתות, מחסני נתונים, וסיכומי מידע
Chukwa, Flume
איסוף מידע, צבירה, וניתוח
HCatalog
מטה-דאטה, טבלאות, , וניהול סכימה
Zookeeper, Oozie, Ambari
ניהול cluster,תזמון עבודות (ג'ובים),וניהול workflow
Avro
סטריליזציה של הנתונים
וזה הזמן להבין ולפרט קצת יותר על כל פרויקט פתרון :
- MapReduce : ממשק תכנותי לכתיבת תוכניות מקביליות, כאשר הכתיבה תהיה מבוססת 2 פונקציות פשוטות בג'אווה (אחת בשם Map והשנייה בשם Reduce) המטפלות באלמנט בודד של קלט. התשתית מבצעת את כל השלבים לצורך עיבוד מקבילי של זוג הפונקציות על כל קבצי הקלט (שישבו על HDFS), על מספר רב של שרתים, ומטפלת לבד בתזמון העבודה וטיפול בשגיאות בזמן ריצה (כגון נפילת שרתים, דיסקים או רשת).
וכך מאפשרת לכתוב תהליכי Batch מקביליים בצורה פשוטה יחסית. - Hive :מחסן נתונים ל Hadoop. ממשק נוח יותר שמתאים לסיכום נתונים, לניתוח נתונים ולשאילתות אד-הוק, העבודה מולו היא בשפת HiveQL .
שגם במקרה הזה דומה מאוד לשפת SQL הידועה לכולנו, כאשר המערכת למעשה מתרגמת את השאילתהלשפת MapReduce מאחורי הקלעים , על מנת שיהיה נוח לאותם משתמשי קצה כמו אנליסטים למשל האפשרות לתשאל ללא הצורך בהירות עם שפת MapReduce . למעשה אנו מיישמים מה שמכונה NoSql באמצעות SQL... פותח במקור ע"י Facebook . - Pig : שפת תכנות גבוהה שדומה מאוד ל SQL ואפילו ידידותית יותר, לניתוח נתונים באמצעות עיבוד מקבילי . שמאפשרת למעשה לכתוב שאילתות בלי לכתוב MapReduce. פותחה במקור ב Yahoo .
- Cloudbase : מאפשר לכתוב SQL מעל MapReduce . כך שאם אתה לא מעוניין לשנות את כל השאילתות של האפליקציות שלך, תוכל לבחור באפשרות הזאת במינימום שינויים ובצורה קלה מאוד . פותח במקור ע"י SourceForge .
- Avro : מערכת לסריליזציה של נתונים (Data Serialization) .
- Cassandra : קסנדרה הוא בסיס נתונים ראשי (Multi-Master Database) שמאפייניו הם: בסיס נתונים מבוזר, שרידות גבוהה ומדרגיות (Scalability) גבוהה. קסנדרה לא משתמשת בשפת SQL. היא מספקת ממשק פשוט יותר של חיפוש ערך לפי מפתח . נכתב במקור עבור פייסבוק .
- Chukwa : מערכת לאיסוף מידע מתוך מערכת קבצים ב HDFS וממסגרת התוכנה Map/Reduce. Chukwa כוללת גם ערכת כלים גמישים וחזקים להצגת, ניטור וניתוח של התוצאות כדי לעשות את השימוש הטוב ביותר של הנתונים שנאספו .
- HBase : שכבת אחסון נתונים. נכתבה במקור על ידי Powerset (שנקנתה בהמשך על ידי מיקרוסופט) ומיועד לגישה רנדומלית בזמן אמיתי ל-Big Data לצורך ביצוע פעולות קריאה וכתיבה. טבלה בתוך בסיס הנתונים עשויה להכיל מיליארדי שורות ומיליוני טורים .
- Mahout : שכבת אנליטית המתמקדת במימוש מקבילי של אלגוריתמי Data Mining, כאשר האלגוריתמים מתורגמים אוטומטית לתוכניות MapReduce שמאפשר בניית ספריות של מערכות ללימוד על ידי מכונה התומכות במדרגיות (Scalability) גבוהה . מיושם מעל מנגנון ה Map/Reduce של Hadoop וניתן להשתמש בו גם בסביבות טכנולוגיות אחרות המיישמות מנגנון Map/Reduce .
- Zookeeper : שירות לקואורדינציה (תיאום סנכרון) בין אפליקציות מבוזרות בסביבה עם דרישות ביצועים גבוהות . המידע יושב כולו בזיכרון (ומגובה על הדיסק בין מספר שרתים), והוא מיועד בעיקר לשיתוף נתוני קונפיגורציה אפליקטיביים בין שרתים ב-Cluster ומאפשר לאפליקציות להירשם כדי לקבל הודעות על שינויי קונפיגורציה.
- Sqoop : מייבא ומייצא נתונים בין SQL ל Hadoop .
- GFS : המקבילה של ה HDFS, ידוע גם כ GoogleFS Google File System : מערכת קבצים מבוזרת גדולה ורחבת ידיים, שמבוסס על חומרה פשוטה ותוכנה רחבה שמסוגלת לעשות Scale למידע כמעט אין סופי ע"י פיזור המידע למכונות קטנות וזולות . יתרון גדול זה שאתה מקבל קריאה מהירה מאוד אך החיסרון הוא - כתיבה יחסית איטית .
- BigTable : בסיס נתונים "דחוס היטב" שפותח ב 2004 ע"י Google, ומבוסס על מערכת הקבצים של Google, ה GFS. הפתרון משלב מספר פתרונות מבית גוגל
- Cloudera : משתתף פעיל לפרויקט Hadoop שמספק לארגונים "חבילת Hadoop" מוכנה ובדוקה יותר להפצה מסחרית של Hadoop. החבילה כוללת תיקוני באגים קריטיים ותכונות חדשות חשובות ממאגר הפיתוח הציבורי של הפרויקט השאפתני. בקיצור, Cloudera משלב את הפרויקטים הפופולריים ביותר לגבי Hadoop לתוך חבילה אחת, אשר מנוהל באמצעות חבילה של בדיקות מחמירות בכדי להבטיח אמינות בסביבות הייצור.
הפתרון מגיע ב 2 תצורות עיקריות : Apache Hadoop (מוכר כ CDH) שמשלב חבילת פתרונות Hadoop שכוללת את : HDFS, Hadoop MapReduce, Hive, Pig, HBase, Sqoop, Flume, Oozie, ZooKeeper ו . Hueכאשר חבילה זו חינמית תחת רישיון Apache. ו Cloudera Enterprise : פתרון מורחב יותר שכולל כלים מתקדמים לתמיכה בסביבות ייצור, כמו כן החברה מציעה שירותים נוספים כמו שירותי ייעוץ, תמיכה והדרכה, וכו' - Oozie : מנוע Workflow שנכתב על ידי יאהו, ותפקידו בחיים - לנהל את התזמון של תוכניות MapReduce.
מה יש ל Syncsort להציע ?
מיישמים Hadoop -
Syncsort DMExpress Hadoop Edition תעזור לך לממש את מלוא הפוטנציאל של Hadoop ולנצל את הפוטנציאל וההזדמנויות הגדולות המגיעות מכמויות המידע (BigData) לצורכי הארגון .
יותר ויותר ארגונים מאמצים את פלטפורמת מסגרת Hadoop לשיפור אסטרטגית קבלת ההחלטות וחשיפת הזדמנויות עסקיות ייחודיות החבויות בתוך כמויות הנתונים הגדולות. עם זאת, פיתוח ותחזוקה של פריסות Hadoop, תוך השגת ביצועים בהסכמי רמת שירות (SLA) אליהם נדרש על העסק, מציבה אתגרים שיכולים להעלות את הסיכון וכן לעכב את יישום הפתרונות .
ברוב המקרים נמצא את בין בסיסי הנתונים הגולמיים ל DWH , ואו כפלטפורמה של ה DWH.
3 האתגרים המרכזיים ביישום פתרונות מבוססי Hadoop :
• חומרה : נדרשת הוספת "ברזלים" Nodesבעיקר בעקבות דרישה ליותר כוח עיבוד (CPU ו זיכרון)
• כוונון : ביישום פתרון שכזה ניתן להשתמש במאות פרמטרים ומאפיינים שניתנים להגדרה, ועל מנת להשיג את הביצועים המיטביים נדרשת מיומנות, נסיון, וידע
• פיתוח ותחזוקה : תכניות מבוססות MapReduce דורשות מיומנות טכנית גבוהה, אין בשוק יותר מידי מומחים בתחום, כאשר בכל המקרים מדובר על צורך בפיתוח בקידוד ידני, מה שהופך את הנושא למסובך, וכמו כן מעלה את רמת הסיכונים התפעוליים מכיוון שאותו מומחה יכול מחר לעזוב את הארגון ואו לסיים את הפרויקט, והארגון נותר עם קוד שקשה לתחזקו, ולעדכנו לפי הצורך .
Syncsort DMExpress Hadoop Edition :
Syncsort DMExpress Hadoop Edition שמבוססת על טכנולוגיה וותיקה ומוכחת (כבר 40 שנה) של Syncsort משלבת פתרון האצת ביצועים שתומך גם בסביבות Hadoop, ותאפשר לארגון מעבר לשיפור בביצועים, גם פשטות בפיתוח תכניות מבוססות MapReduce (ללא צורך בכתיבת קוד) , כך שבסופו של יום נקבל את כל היתרונות של פלטפורמת מחשוב מבוזר שעולם ה Hadoop מציע, בשילוב עם ביצועים ויעילות ללא תחרות של DMExpress , מה תקבלו :
יכולות :
קישוריות : קישוריות מלאה לכל בסיסי הנתונים ומקורות המידע לרבות HDFS
• עם יכולת מלאה להעברת מידע לתוך מערכת הקבצים HDFS וממנו .
• שימושיות משופרת : היכולת לבנות jobs על ממש המשתמש הגרפי המשופר של DMExpress ולהריץ את זה בסביבת Hadoop MapReduce framework, ללא הצורך בכתיבת קוד ידני ב Java ואו Pig .
• האצת ביצועים (Hadoop) : במסגרת ה Hadoop מתבצע Sort על כל פעולה, לעיתים אין פשוט צורך בכך (למשל כשמבצעים Full Join, או אגריגציה ללא מיון) כאשר מנהלים את ה Map Reduce דרך מנוע DMExpress, ניתן לשלוט ולהפוך את המנגנון למודולרי יותר, גמיש, מהיר, ויעיל, תוך פשטות הפעלה ותחזוקה .
תועלות :
• ביצועים מהירים : בקנה מידה משמעותי ובפער מכל כלי ETL אחר
• חסכון בעלויות : הפחתת שימוש בחומרה של עד ל 50% וע"י כך דחיית רכישות חומרה, וזאת תוך שיפור הביצועים, וזמני השירות .
• · מנוע כיוונון אוטומטי : שיחסוך שעות עבודה רבות לצוות פריסת ה Hadoop
• ממשק גרפי : ממשק אינטואיטיבי שיפחית מחסומים לאימוץ רחב יותר ברחבי הארגון, הגדלת התפוקה הכוללת, ופיתוח מואץ של יוזמות אסטרטגיות.
לסיכום :
עולם המידע משתנה, ואם בשנות ה60 דיברנו ב Bits, ובשנות ה 70 ב KiloByte ובשנות ה 80 ב MegaByte, וב 90 ב GigaByte... (כאן בערך רוב כלי ה ETL הפסיקו לתמוך בצורה אמיתית בכל הקשור לעיבוד הנתונים) כיום כבר מדברים ב TeraByte וב PetaByte בלי בושה, וחברות מציגות 24Pbשל נתונים יומיים.... בלי למצמץ .
ה Hadoop הוא הפתרון בסביבת התשתית, ומשמש פתרון לעולם של מידע לא מובנה , ויחד עם סט גדול של טכנולוגיות שמה שמשותף להם הוא הרצון לרתום כמות גדולה של שרתים (עם קונפיגורציה בסיסית) שיבצעו משימות מחשוביות בצורה מקבילית, בעיקר ניתוח של כמות עצומה של דפי אינטרנט,ניתוח מגמות צרכנים, עיבודי תמונה ואודיו,רשתות חברתיות,חיפוש באינטרנט,מגמות צרכנים,ניתוח נתונים וכו' : במקרים מהסוג הזה הוא מוכיח חד משמעית את יעילותו בפתירת בעיות של Big Data כאשר DMExpress מייעל ומפשט את השימוש בפתרונות Hadoop, כאשר המניעים יכולים להיות עסקיים,פיננסים, וטכנים (Volume, Velocity, Variety) נכון, רוב הארגונים בארץ עדיין לא מיישמים פתרונות בפועל, אך בהחלט המגמה כיום מדברת על בדיקות היתכנות שמתבצעות אצל רוב הארגונים הגדולים, והצפי הוא שכבר במהלך השנה הקרובה, רוב ארגוני האנטרפרייז ידברו BigData ויתכנסו לפרויקטים בנושא .
ב ה צ ל ח ה !
Moshe Mozes - Product Manager
NessPRO
Ness Technologie
Building #10, Atidim, Tel Aviv 58180 Israel
Tel: +972.504067008 | Fax: +972.37693601
Moshe.Mozes@ness.com | www.ness.com