אינטגרציית נתונים בעידן ה BIG DATA משה מוזס
_____________________________
רקע :
אז למרות שהעולם שייך לצעירים, אני בטוח שרובכם זוכרים את הימים ששמרנו נתונים על דיסקט 1.4mb שבעצמו היה שדרוג של גרסת ה720kb שבעצמו שדרוג של הדיסקט השחור הגדול יותר (בקוטר ¼5 אינץ') שהכיל קיבולת של 360kb ... (ולזקנים שקופצים עם "כרטיסיות הניקוב, ה punch cards, בואו לא נלך כל כך רחוק...) מה שמשעשע, זה שהיינו משוכנעים שזה המון, מה לא שמרנו שם - גיבויים, תוכנות, מדבקות של "100 משחקים" התנוססו בצבעים וכולם היו מרוצים.... בקצב דומה גם התייחסנו וצפינו בגדילה של מהירויות המעבדים, הזיכרונות ושאר טכנולוגיות, כאשר מה שהיה נראה בזמנו כדמיוני, כבר מזמן הפך סטנדרטי, והנפחים ממשיכים לגדול ולגדול (היום כבר מדברים ב exabytes) כאשר ברוב המקרים, הסיבה העיקרית היא לא צורת העיבוד שכמעט ולא השתנתה במשך השנים, לפחות בכל הקשור למידע, אלה בכמויות הנתונים .
BigData :
כמות הנתונים עמם ארגונים נאלצים להתמודד גדלה בכל שנה, החברות ממשיכות ללכוד טריליוני בייטים של מידע על הלקוחות שלהם,על הספקים, על פעולות תפעול, וכו' , יחד עם זאת בתקופה שזה כבר יותר מאקווריום גדול שהגדולים אוכלים את הקטנים, אלה בתקופה שהטובים מפנים את מקומם למצוינים, וזה אומר שהרבה מאוד חברות רוכשות חברות אחרות ואו מתמזגות בכל שני וחמישי שבאופן טבעי יגדילו משמעותית את היקפי המידע שארגונים ממוזגים יצטרכו להתמודד עמם, ולתת מענה לאוכלוסייה גדולה יותר של משתמשים, ויחד עם האירועים לספק מענה בצד משאבי אכסון וניהול הנתונים שיצליח להתמודד עם כמויות המידע.
לתופעת זו יש כבר שם מוכר, שמופיע אצל כל מנמ"ר בראש סדר העדיפויות וימשיך להעסיק באופן אינטנסיבי לפחות בתקופה הקרובה :
בז'רגון המקצועי קוראים לזה BIGDATA, וכדי שנבין במה מדובר, בואו נדבר קצת במספרים :
• מתחילת הציוויליזציה ועד שנת 2003 נאספו בעולם כ 5 Exabytes של מידע....
כיום - מידע רב יותר נוצר ב 48 שעות !
• כמות הנתונים גדלה באופן דרמטי : למעלה מ 50% בכל שנה !
(כולל חברות אנטרפרייז שכבר נערכות לגידול של למעלה מ %650 בנפח המידע במהלך חמש השנים הקרובות)
• התחזית היא ששיעור הצמיחה יהיה גדול בהרבה בשנים הקרובות וזאת בעיקר בזכות דרישות עסקיות חדשות כמו הצורך בניתוח וקבלת החלטות גם על מידע בלתי מובנה מעולמות נוספים כמו האינטרנט (הידוע בשם ClickStream שבמסגרתו ננתח את פעולות המשתמשים באתר שלנו, וע"י כך בין היתר נבין יותר על העסק שלנו ונוכל לקבל החלטות מבוססות אירועים, לצורך הדוגמא נוכל ליצור את פילוח האוכלוסיה שלנו (סגמנטציה) ברמה ספציפית ועל ידי כך להתאים את המוצרים והשירותים בדיוק לצרכים של הלקוח,רשתות חברתיות (אי אפשר להתעלם מיותר מ 30 מיליארד קטעי תוכן שמשותפים בפייסבוק בחודש), משתמשי הסלולרי (אי אפשר להתעלם מ 5 מיליארד משתמשים נכון ל 2010) ושאר שיתופי פעולה שמגיעים אלינו בכל רגע ממקור נוסף .
• למעלה מ 60% ממקבלי ההחלטות בארגונים מדווחים כי נוטים לקבל החלטות רק על חלק מהמידע ולא על המידע השלם, זאת בעקבות חסמים טכנולוגים לאפשר גזירה וניתוח המידע בחלון ההזדמנויות שבין סיום פעילות המערכות התפעוליות לבין תחילת יום פעילות חדש, גם את זה ניתן לפתור היום, ונדבר על זה בהמשך .
אז בעידן של חברות כמו Google שמעדכנות למעלה 23petabytes של נתונים (חדשים) מידי יום, מערכות מסחר כמו זאת שפועלת בוול סטריט ומבצעת מאות פעולות (transactions) בשנייה אחת... ואני אפילו לא רוצה להזכיר "מפלצות מידע" כמו Amazon, Facebook ו-Youtube שמטפלות במיליוני משתמשים, petabytes של שטחי אכסון ואלפי טרנזקציות בשניה . אז על מה כל הבזזז בשוק סביב ה "Big Data" - פשוט מאוד - שזה הגיע גם אליכם, גם לארגונים בינוניים ואו גדולים במונחים מקומיים שפתאום נדרשים להתמודד עם דרישות מאתגרות ולגמרי לא פשוטות בכל הקשור לניהול כמויות מידע מפלצתיות .
אי אפשר "לקמט" את המושג BigData למספרים, לא ברמת גודל האכסון ולא ברמת כמות הרשומות, מכיוון שכמו שכבר הבנתם מאווירת המאמר, העולם לא מפסיק להתפתח, ומה שנחשב גדול היום ייחשב קטן מחר, ולכן ההתייחסות צריכה להיות כללית יותר, אז הייתי מנסח זאת כך: BigData הוא מצב שמערכי הנתונים מאיימים על קצה היכולת של מעטפת הביצועים (במקרה שלנו מסדי הנתונים) ואו של כלי התוכנה תהליכי אינטגרציית הנתונים ללכוד,לאחסן,לנהל ולנתח אותו בשלמותו ולפי צורכי הצד העסקי של הארגון (ולא המגבלות הטכנולוגיות) הגודל פיזי יכול להשתנות ממגזר למגזר, אבל כבר היום ניתן לראות איזורי DATA במגזרים רבים שינועו בין כמה עשרות טרה לאלפי טרהבייטים ואו עשרותמאוד מיליוני רשומות אם אתם מעדיפים לספור את זה ככה .
האתגר :
האתגר של ארגוני האנטרפרייז בארץ וגם של ארגונים בסדר גודל בינוני שעיקר פעילותם קשורה למידע (מבוססי אינטרנט) היא הטיפול בכמויות אדירות של נתונים, אל מול דרישות מהצד העסקי של הארגון לקבל את המידע בזמן, לעוס, שלם, ומכל מקורות המידע המסורתיים (כל המערכות התפעוליות לרבות ERP,CRM,בילינג וכו') והחדשים יחסית (כולל מובייל,אינטרנט, אימיילים, רשתות חברתיות כמו פייסבוק, לינקדין, טוויטר, שיתופי פעולה עם ספקים ואו ארגונים אחרים, אימיילים, מערכות לניהול קמפיינים חיצוניות, תוכנות מסרים, ולפעמים אפילו קבצי וידאו ואודיו) בקיצור: יותר מידי מידע בכדי שהטכנולוגיות הסטנדרטיות לניהול מידע ידעו לטפל בו בהצלחה, כאשר ה IT לא רק מאותגר טכנולוגית, אלה גם חייב לייצר פתרון יעיל, אמין, עם חשיבה לטווח ארוך... וחשוב לא פחות (ולעתים יותר) : בעלויות מתאימות לתקציב, גם אם התקציב קטן יחסית כשמדובר בחברות SMB ואו מחלקות עם תקציבים "אנורקסים" אך מול הדרישות . למי זה מדבר - לכל ארגון שיש לו מידע רב, מחברות ביטוח, בנקים, כרטיסי אשראי,טלקום, ,טכנולוגיה,בילינג,מגזר ציבורי,בטחוני וכמובן אתרי אינטרנט (Online-Retailers) שמפנטזים לנתח את תעבורת הלקוחות שלהם (זוכרים? ClickStream) אך לא מצליחים להתחיל בכלל להתמודד עם כמויות המידע המטורפות ... וכמובן החברות שפשוט משדרגות את הפעילות שלהם ע"י שימוש בנתונים עד למצב של ניתוח מתוחכם שיכול לשפר באופן משמעותי את תהליכי קבלת ההחלטות ע"י חשיפת תובנות, מגמות, ואפילו מזעור סיכונים, וקבלת החלטות אוטומטיות לדוגמא : ניהול ספי מלאי (מלאי מינימום ומקסימום) ברשת קמעונאית, ואפילו תמחור בתגובה לאירועים, או ניהול מועדון לקוחות שיאפשר שיווק ישיר ללקוח שזוהה כמתאים לפרופיל של סגמנט מסוים לפי פרמטרים שהוגדרו מראש, שלא נדבר על מודולים שלמים שיכולים לחזות שווי לקוח (לא רק לפי מה שרכשתם, אלה גם לפי תקופת המנויתחזוקה שלכם, גובה ותמהיל השימוש במערכות, ואפילו כמות השיחות שביצעתם למוקד שירות הלקוחות) וכמו כן מודלים לחיזוי נטישת לקוח,ולכן בעולם של כל כך הרבה נתונים, אין ברירה אלה לצעוד לכיוון של "מידע על פי דרישה",
והמטרה היא לא רק לשמור את כל המידע הרב, אל לדעת לנתח ולדאוג שהמידע יהיה מעודכן, שלם, מקובל, משמעותי, ורלבנטי למקבלי ההחלטות. וכאן הארגונים נדרשים להכין עצמן ל"גלי המידע" גם במדינה שחלק נכבד מהנתונים שלה עוד יושב בסביבות MainFrame המסורתיות .
פתרונות אינטגרציית נתונים :
השוק מציע פתרונות, רובם יקרים - של מותגי תוכנה/חומרה. לעיתים אנו בוחרים פתרון של חברה גדולה כי "התרגלנו" לפעול בדרך מסוימת בתחום מסוים. אלברט איינשטיין אמר פעם, כי "לא נוכל לפתור בעיות באמצעות אותה צורת חשיבה שהשתמשנו כשיצרנו אותן". המסקנה היא כי חייבת להיות כאן חשיבה חדשה יצירתית וחדשנית בתחום. נידרש לפתרון בעל יכולות מתקדמות הכולל גמישות מוגברת ברמת האפשרות לדעת להתמודד עם כל סוג מידע וכל גודל של מידע, פשטות, יחס טוב בעלות אל מול ביצועים ופתרון מקצה לקצה. כיום אוסף הטכנולוגיות וארכיטקטורות הפתרונות לאתגרי ה BigData מגוונת, כאשר מה שמשותף לכל הפתרונות, הוא המענה לצרכים יחסית זהים של כל הדורשים :
לאסוף (או כפי שמכונה בעולם המידע "לגזור") מידע רלוונטי ואיכותי רב ממספר מקורות מידע תוך יכולת זיהוי וסינון המידע, אחזור, המרה, עיבוד (צבירה,סיכום,מיון,מיזוג... וכו') וזאת בכדי להביא ליכולת ניתוח מהירה ומקיפה ככל שניתן בכלי ה BI עבור מנהלים אנליטים ושאר בעלי עניין רלוונטים .
ניתן לחלק את הפתרונות בעולם אינטגרציית הנתונים ל 3 עיקריים שבהם נתרכז במאמר זה :
------------------------------------------ ----- ----- ---- ---- --- --- -- -- - - -
1. כלי ה ETL
מדובר בכלי פיתוח ויזואליים (WorkFlow מונחה אובייקטים) שנועדו להעביר כמויות גדולות של נתונים מסביבה אחת לאחרת, תוך כדי עיבודם, בד"כ בעיבוד אצווה . ומכאן מגיע השם ETL :
Extract (מקורות) : ברוב המקרים החלק של המקור הוא כמובן המידע המאוכסן במערכות התפעוליות של הארגון (שבבמסגרת התהליך ברוב המקרים משוכפלות חלקית ל Stage באמצע כדי לא להפריע לפעילות השוטפת) כאשר מספקים קישוריות למגוון מקורות מידע ופלטפורמות מחשוב תוך נטרול ההבדלים ביניהם בסיסי נתונים כמו Oracle, SQL Server, קבצי טקסט, קבצי XML, קבצי Excel, ולפעמים להיות למאותגרים לשלוף נתונים ממערכות MainFrame, ו - SAP .
Transform (עיבודים) : העיבודים יכולים להיות כל אגריגציה,סינון,סיכום,צבירה,מיון,ניקוי וכו'
ביצוע המניפולציות בנתונים הוא החלק הקריטי והעיקרי של כלי ה ETL, מה שבשנים האחרונות ובעקבות כמויות הנתונים הרבות הפך להיות בעיה אמיתית לכלי ה ETL המובילים, ולמעשה נותר ללא מענה אמיתי, מה שגרם לתופעה מעניינת בעולם אינטגרציית הנתונים, ולתופעה הזאת קוראים ELT ... שם חדש למתודולוגיה ישנה, שחזרה לאחר התבססות כלי ה-ETL בשוק ה-IT. השיטה מתבססת על שינוע מידע ללא עיבוד ממערכת המקור לאזור עיבוד במערכת היעד, ואו בשלב ביניים נוסף, בדרך כלל RDBMS. עיבוד המידע מתבצע על ידי תהליכים ייעודיים המופעלים לאחר הטעינה - בדרך כלל Stored Procedures ש"לועסות" את המידע על בסיס הנתונים עצמו, ומחזירות אותו מוכן להמשך הפעילות .
היתרון : שיפור משמעותי בביצועים (יחסית לביצוע דומה ע"י כלי ה ETL עצמם)
החסרון : בסיס הנתונים לא נועד לסוג כזה של פעילות, מה שגורם לו לעומס עיבוד לא סביר, וכתוצאה נדרשים שדרוגי חומרה, ובחלק מהמקרים פשוט נאלצים ליצור Stage נוסף לצורך הזה בלבד, ובתרגום חופשי לשפה אוניברסאלית יותר: זה עולה כסף, ולפעמים לא מעט, כמו כן דורש הצורך בניהול סביבת יישום נפרדת שמבוססת על Custom Code שכתב בחור בשם "וולדי" (:>) שכבר לא עובד כאן יותר.... , ובקיצור - לא יעיל .
Load (יעדים) : היעד הוא בדרך כלל ה DWH (data warehouse) שהוא בסיס נתונים המרכז שכולל נתונים מסוכמים,"לעוסים" ומקובלים ממערכות המידע השונות בארגון,ועל ידי כך מאפשר להפיק דוחות ניהוליים הפונים למקור אחד, מקור שנתוניו מקובלים ומהווה "אמת אירגונית" אחת בשעה שהמערכות השונות לא תמיד מסונכרנות זו עם זו .
השחקניות החזקות בעולם אינטגרציית הנתונים (בקטיגוריית ה ETL לפחות) הן :
· אינפורמטיקה (PowerCenter)
· IBM (עם DataStage)
· אינפורמטיקה (עם SSIS)
בשוק של 800 מיליון דולר הכנסות (רק מתוכנה) כל הספקים הגדולים מנסים לייצר פתרונות, אך בחרנו להתמקד ב 3 המובילים באזורינו , כאשר זנחנו פתרונות מוכרים בעולם כמו פתרונות Trillium, SAP, DataFlux, ואפילו הניסיונות של Oracle עם ה Warehouse Builder(OWB) כמו כן, על מנת להישאר אובייקטיבים, לא נמליץ כאן על כלי זה או אחר, גם לא ניכנס להשוואות עמוקות מידי, אבל כן נרצה להדגיש מספר פרמטרים (טוב, בואו נגביל את זה ל 10) שחשובים למקבל ההחלטות לגבי פתרון ה ETL שמתאים עבור הארגון אותו הוא מייצג
• כולם טובים : תזמין את עצמך לצאת מנקודת הנחה שכל הכלים (לפחות ה Leaders שהזכרתי) מסוגלים ככל הנראה לבצע פלוס מינוס את כל הצרכים בתהליכים שיוגדרו לטובת תהליכי אינטגרציית הנתונים (אך מומלץ לבדוק במה זה כרוך,מכל ההיבטים)
• הרגלים : מה אתה מכיר? וזה חשוב... כולנו בני אדם, ומתרגלים לסביבות העבודה שלנו, אז במידה והתרגלת מהעבר המקצועי שלך להשתמש בכלי כזה או אחר, שכולל את הפונקציונליות הנדרשת, והבונוס הוא שאתה גם מכיר אותו היכרות מעמיקה ורגיל לעבוד איתו, מומלץ ! זה יכול לסייע בהטמעה מהירה יותר ובניית הפתרון הכולל .
• עלות : מחיר ממוצע לכלי ETL יתחיל בסדרי גודל של 10-25 אלף דולר למעבד (שכירות לתקופה של סדרי גודל של שנה, לגרסאות ה"סטנדרטיות" כאשר הסכום יכול להיות גבוה יותר כשמדברים על גרסאות הAdvanced Edition למיניהם שלא נדבר על אינפורמטיקה שיכול לטפס גם ל 50-300 אלף דולר למעבד, לא כולל ה Connections הנדרשים....) ואז הגיעו מיקרוסופט לזירה והצהירו : יש לך SQL Server? קיבלת את
"חבילת ה BI" שכוללת את רכיבי ה Data Warehousing, Reporting Services, Analysis Data Mining - בילט-אין, ללא תוספת עלות, ובסביבה מייקרוסופטית נוחה ומלטפת מבחינת מי שכבר רגיל לחיות בעולם ה MS, ובאינטגרציה מלאה לכל שאר כלי מייקרוסופט בארגון, היתרון הזה משמעותי, אך פחות רלוונטי למי שאין סביבה מבוססת MS, שבמקרה כזה הפתרונות פחות נגישים ורלוונטים .
• חדשנות : הכלים חייבים לדעת להתאים את עצמם כל הזמן ל"שיגעונות" בשוק ה IT,
אם זה תמיכה ב SaaS, במחשוב ענן, ועד טכנולוגיות מתקדמות כמו Hadoop למשל .
• תמיכה : כמו ברוב הפתרונות הטכנולוגים שתבחר להשתמש, חשוב מאוד שתעבוד מול חברות רציניות, אמינות, וותיקות, ומוכרות בתחום הספציפי שתבקש ליישם (SONY חברת מוכרת מאוד בתחום הטלוויזיות, אבל אם מחר תשחרר כלי ETL אני בספק אם נוכל להמליץ עליו כאן) למה זה חשוב? כי תזדקק לתמיכה (נפשית ומקצועית) בכל שלבי ההקמה, וכמובן תמיכה שוטפת ברמת התקלות והאתגרים ליישום פתרונות נוספים
(ב SLA מהיר ומקצועי) את כל זה, תוכל לקבל ממנהל הלקוח שעובד מולך באותה חברה ואו דרך החברה שמייצגת את הפתרון בישראל, כמובן להתייעץ עם החבר הכי טוב של כולנו, "מיסטר גוגל", וכמובן בשאר המקורות כמו בבלוגים, ספרות מקצועית, פורומים, כנסים מקצועיים, וכו' , וגם במקרה זה, יש לי התחושה שהפופולאריות של מייקרוסופט תעניק לכם קצת יותר מהמתחרים השריריים בכל הקשור באיתור פתרונות מהירים . ואם כבר מדברים על לפתור תקלות, אז אין ספק שגם בזמן הפיתוח, כלי ה Debugging של מיקרוסופט יהיו נוחים יותר, ובפרט שמבוססים על סביבת Visual Studio למעשה, שכוללת קשת כלים ואפשרויות (כמו השלמה אוטומטית של פקודות, "נקודות עצירה, CallStack וכמובן כל מה שקשור לבדיקות סטייל StepByStep).
עוד נדבך רלוונטי זה כמובן התמיכה לאחור ושדרוג גרסאות: חשוב שספק הפתרון שלכם יתמוך בפתרונות שסופקו בגרסאות קודמות, תארו לכם סיטואציה ששידרגתם את המוצר ופתאום חלקים מהפתרון מפסיקים לעבוד? זה יכול להיות אירוע מאוד לא נעים... שלא נדבר על מצבים כמו השדרוג לגרסאות האחרונות של DataStage (8.7 נכון להיום) שדורשות בחלק מהמקרים לשכתב את כל התהליכים מחדש, וזאת משימה לא נעימה, בעיקר לארגונים שהשקיעו לא מעט זמן בכתיבתם .
• ניסיון : למה לא לנסות קודם? כיום, ניתן בזמינות מיידית, להוריד סביבות מוכנות (התקנת SQL Server ואו אפילו סביבת VM מוכנה לשימוש) לתקופת ניסיון שבמסגרתה תוכל להתנסות בחבילת הפתרונות של מיקרוסופט, קצת (או הרבה) פחות אפשרי מול IBM ואינפורמטיקה, למרות שאין לי ספק שהנציגים בארץ ישמחו לצאת להרפתקת הוכחת יכולות (המכונה POC) מול הארגון שלך במהירות המשתווה לזמן ההורדה של חבילת הפתרונות של מייקרוסופט... ובליווי צמוד ומקצועי .
• תיעוד : אתם בונים את עולם אינטגרציית הנתונים של הארגון, אלמנט קריטי להצלחה שלכם הוא הרגלי מיפוי ותיעוד התהליכים, במקרה זה, אינפורמטיקה ו IBM יעניקו לכם פתרונות לרבות כלי פנימי שמייצא את הנתונים לאקסל או Visio (באינפורמטיקה) או המחולל הנפלא של IBM: ה DataStage Documenation Generator ,שללא ספק יחסכו לכם זמן עבודה יקר ויניקו לכם דוח מסודר ומתועד על כל הרכיבים והקישורים בפרויקט .
• MetaData : היכולת ללכוד,לאכסן נתוני מידע (בעיקר מידע על המידע) הקשורים בעיקר לתהליך איכות הנתונים, וזה חייב להיות זמין,שקוף,ברור, ולדבר Metadata הדדית (HandShake) מול כלים נוספים, וגם באתגר הזה אין ספק שאינפורמטיקה ו DataStage מעניקים קרקע טבעית ומקיפה יותר מ SSIS .
• פונקציונליות : למרות שציינתי שעל פניו רוב הפיצ'רים אפשריים בכל הכלים, חשוב לרדת לפרטים, לפעמים הדרישה נראית לכם סטנדרטית, אך בלתי אפשרית ואו מסובכת מאוד לביצוע ודורשת פיתוח ואו קוסטמיזציה מורכבת ליישום וקיימת בצורה טבעית בכלי אחר, כיום רוב הכלים כבר יודעים בתצורה כזו או אחרת לטפל באיכות הנתונים (Data Quality ו (Data Profiling ועד לניקוי הנתונים, סטנדרטיזציה, התאמה, ואפילו העשרת הנתונים דוגמא נוספת לפרמטר שמומלץ להשוות - נושא החיבוריות : כמות החיבורים (Native, או ODBC) שהכלי מציע, והאם רלוונטי לארגון שלכם? האם כותב "רשומה רשומה" ואו ב"באלקים" (bulk)? האם אתם זקוקים לייבא נתונים מ SalesForce.com, מהפורטל הארגוני שלכם (ה SharePoint), לכתוב נתונים כיעד ל XML, לכתוב ב Upsert לבסיס הנתונים?, להשתמש ב SecureFTP? או אפילו לכתוב קצת RegEx .... כל המוזכרים ועוד הרבה נושאים חשובים לא פחות, שונים מכלי לכלי ולפעמים מוענקים חלקית בלבד.
עוד דוגמא שנכון להזכיר זה כל הקשור ב Data Federator, שכשמזכירים את המושג באוריינטציה של תהליך ה ETL אנו מדברים על הצורך בסימולציות וטסטים של תהליכים ללא צורך בטעינות ארוכות טווח והמתנה ממושכת לבדיקת תוצאות הטעינה.
במקרים מהסוג הזה, כשמשווים בין השלושה.... SSIS יפה, נוח, אבל נחות .
10. ביצועים : למרות ניסיונות אמיתיים (כמו למשל לרוץ פרללית) כל כלי ה ETL מתקשים להתמודד מול כמות מסיבית של נתונים (לשם כך התכנסנו זוכרים?) ועל זה נפרט ונרחיב בפתרונות אחרים שנזכיר כאן בהמשך, אבל בכל זאת מילה אחת: עושה רושם לפי עדויות המשתמשים, של DataStage מנוע חזק ומהיר יותר (לפחות בגרסת ה Server שלו) חלק גדול מפעולות העיבוד הפופולאריות ירוצו מהר יותר מבאינפורמטיקה , למרות שאינפורמטיקה ו SSIS יציגו ממשק גרפי נוח יותר למפתח .
------------------------------------------ ----- ----- ---- ---- --- --- -- -- - - -
2. ה 'קופסאות'
הטרנד החדש בעולם ניהול ואכסון הנתונים, קופסאות הענק (Appliances) וגם במקרה זה כל החברות הרלוונטיות לתחום מעוניינות להצטרף לחגיגת "התפוצצות המידע",לנגוס ביס מכובד מהעוגה, ולבסס עצמן כפורצות דרך וכמובילות בתחום, וכך בתקופה האחרונה משחררות פתרונות "מכונות ייעודיות", פתרון משולב חומרה + תוכנה עם הנדסת אנוש משותפת במטרה לנצח את אתגר "ים הנתונים" הגועש, השוק כבר מציע פתרונות של אורקל,HP,IBM,SAS,EMC (שרכשה את GreenPlum) נט אפ, Teradata, ואפילו SAP ששחררה לעולמנו את "חנה" (בטוח שנחשפתם לפרסומת "האם אתה מעוניין לנתח כמויות אדירות של נתונים פי 3600 מהר יותר?")
הטענה המרכזית (וההגיונית) היא שבניגוד למידע הטבלאי שליווה אותנו עד היום, מעבר לכמויות המידע הענקיות, גם סוג המידע מגוון יותר כיום, זה לא רק טבלת נתונים עם שורות ועמודות... יש לנו גם מידע שמבוסס על וידאו, סאונד, אימיילים, תמונות, רשתות חברתיות וכו'
ברוב המקרים, החברות יציעו לכם פתרון כולל ומקיף שיכלול את כל חלקי הפתרון הנדרש ובאוריינטציה משופרת ומתקדמת, שמלבד החומרה עצמה, מציעה את שאר הצרכים לרבות: איסוף הנתונים, ארגון ועיבוד הנתונים בשיטות המתקדמות ביותר (in Memory ,Parallel Column-Based וכו'), ועד לשלבי האכסון ב DB...כל זאת שוב, בטכנולוגיה המתקדמת שהשוק מציעה כולל שילוב עם מחשוב ענן (שילוב חם ומתבקש) טכנולוגיית Hadoop, וכלים אנליטיים מתקדמים מובנים .
יתרונות :
• פתרון שלם ומקיף תחת קורת גג אחת
• ביצועים משופרים
• עלויות נמוכות (ביחס לרכישה נפרדת של כל הרכיבים)
• כל הרכיבים לרבות החומרה והתוכנה כבר עברו אינטגרציה במפעל וניתן להכניס את המערכת לעבודה מידית מאריזתו המקורית דרך שקע החשמל ישירות לעבודה
• תמיכה כוללת מול ספק בודד
חסרונות :
• "כל הביצים בסל אחד" - תלות בספק אחד (שאולי ייעלם מחר...?)
• המגבלה "לצאת מהקופסא" עם פתרונות משלימים
• לא מתאים לכל ארכיטקטורה וסביבות עבודה
• לא ניתן ליישם פתרון מבוסס ממגוון ספקים מובילים בתחומם
• תחזוקה : ניהול קופסת הפלאים שתכולתה כוללת רכיבים באחריות מספר מחלקות
------------------------------------------ ----- ----- ---- ---- --- --- -- -- - - -
3. ETL 2.0 ("לצאת מהקופסה")
קונספט חדש ומרענן שהומצא ע"י חברת syncsort, שועל וותיק בעולם ה DI עוד מלפני כמה עשורים טובים ששולבו (ולמעשה משולבים עד היום) בכל סביבת mainframe במטרה לייעל ולזרז תהליכים בתצורה חדשנית ומתוחמת לטיפול בכל הקשור ל Big Data .
קוראים לפתרון הזה DMExpress, כאשר מדובר במאיץ ביצועים טורבו לסביבות ה ETL הקיימות, שיודע "ללעוס את הנתונים" (עיבוד מכל הסוגים) מהר יותר מכל כלי אחר בשוק . הרי מה שמתרחש כיום ברוב הארגונים הוא שיש כבר מתודה, ויש כבר כלי ETL (ברוב המקרים מתקדם פונקציונלית ומעניק פתרון מלא לכל צורכי הארגון) הבעיה שנותרה להן להתמודד מולו היא כמות הנתונים וחלון הזמן שכבר לא ממש מספיק לביצוע כל המשימות .
אז מה עושים? מקצרים את התהליכים ע"י מאיץ תהליכי ה ETL המתקדם שיגרמו לתהליכים שלכם לסיים מהר יותר, וכך לאפשר ניתוח של יותר נתונים (כיום חלק מהארגונים מנתחים את הנתונים רק על 20%-30% מהנתונים מכיוון שלא מצליחים לנתח את כל המידע בזמן) ואפילו ייאפשר הרצת אותם התהליכים בתדירות ביצוע נמוכה יותר, זאת אומרת שתהליך חודשי יכול להפוך להיות שבועי, ותהליך שבועי יכול להפוך יומי, ויומי יכול להתמודד על להפוך להיות תהליך Near ONLINE ועל ידי כך להוריד סיכונים תפעוליים, ולאפשר קבלת תמונה אמינה יותר לקבל ההחלטות ממידע הקרוב יותר לזמן ההתרחשות האמיתי. .
הכלי הזה מצליח להחזיר את האדום ללחיים של הארגון, ושל כלי ה ETL שכבר ויתרו על ה T...
כאשר מזהה את "צברי הבקבוק" בתהליך הקיים, מתרגם אותם (כמעט אוטומטית) לתהליכים מבוססי המנוע הסופר חכם מבוסס אלגוריתמים, ריצה in memory, ושאר פטנטים שזוכים להכרה בכל העולם ה DI. ולמעשה משתלב באופן טבעי כ Add ON סטייל "אינסטלטור" שמטפל בחלקים הכואבים תוך שימוש במיטב הטכנולוגיה המתקדמת בתחום דחיסת הנתונים, עם אינטגרציה הדוקה עם Hadoop ושאר מגמות בתחום .
יתרונות :
הקטנת חלון זמן העיבוד עד לזמני ביצוע מהירים פי 10 ויותר וכתוצאה מכך זירוז דרמטי של תהליכי ETL ומשימות בסביבת ה Data Warehousing BI
• חסכון של עד 75% בעלויות חומרה (ע"י ביטול רפליקציות ואו תהליכי עיבוד ב DB ודחיית שדרוגים)
• חסכון והתייעלות בכח אדם מקצועי (ע"י הפניית המשאבים שהתפנו מניהול ותחזוקת קטעי קוד מבוססי SP לצורכי עיבוד נתונים ברמת ב DB)
• חסכון בעלויות אחסון עד פי 10
• הורדת נפחי בסיסי הנתונים
• התממשקות חלקה מול כל כלי ETL קיים לרבות תמיכה ב MITI (לצורך יבוא תהליכים מכלי אחר ותרגומם לסביבת DMX)
• שילוב נתונים מכל מקור אפשרי (לרבות Connectors לכל בסיס נתונים כולל SAP, MainFrame, קבצי XML וכו')
• פשטות הפעלה (עי ממשק חלונאי מבוסס אובייקטים, נוח ופשוט למפעיל
• אמינות של syncsort שמוצריה כבר בשימוש בלמעלה מ 15,000 התקנות לרבות 90% מ 100 החברות הגדולות בעולם, בפריסה במעל 70 מדינות !
(כולל עשרות לקוחות בישראל מכל המגזרים)
• ה WorkFlow ימשיך להיות מנוהל ע"י כלי ה ETL המובילים שכבר קיימים בארגון והושקעה בהן לא מעט מחשבה וזמן פיתוח עולם אינטגרציית הנתונים
• שילוב נקודות אינטגרציה מרובות ע"י הפעלת DMX מתוך פלטפורמות אחרות,דרך CMDAPI,פונקציות חיצוניות,וסקריפטים
• זמן לימוד והטמעה קצרים (3 ימי קורס יספיקו להפעלה ברמה סבירה)
סרטון קצר ומעניין (ובעברית) שמתאר את הקונספט של ה ETL 2.0 באופן מעניין :
>>>>> לצפייה לחץ כאן <<<<<
Moshe Mozes - Product Manager
NessPRO
Ness Technologie
Building #10, Atidim, Tel Aviv 58180 Israel
Tel: +972.504067008 | Fax: +972.37693601
Moshe.Mozes@ness.com | www.ness.com