תוכנות זיהוי טקסט- זיהוי תווים אופטי

במידה והחלטתם ליצור בארגון שלכם ארכיון דיגיטלי המבוסס על כל המסמכים שהארגון צבר וייצר לאורך השנים, אתם תצטרכו לעשות זאת בהתאם למתודולוגיה מסודרת ומובנית. אחד התהליכים המוקדמים הראשונים אותו תעברו נקרא סריקת מסמכים. לאחר שהמסמכים שלכם ייסרקו הם יהפכו לתמונות. כדי שהארכיון הדיגיטלי שלכם יידע לשלוף את המסמך (תמונה) הנכון יש צורך להעביר את המסמכים הסרוקים תהליך זיהוי טקסט (OCR).

תוכנת OCR מסייעת לתהליך חיפוש הטקסט הרצוי במסמכים, כך שכל נייר שנסרק למערכת המחשוב יהיה בעל יכולת אחזור מהירה ויכולת קריאה, כאילו שנוצר מלכתחילה כקובץ דיגיטלי.

הליך של סריקת מסמכים מייצר קובץ דיגיטלי בזמן סריקת המסמך. בקובץ שקיבלנו אנחנו יכולים לעשות שימוש. אחד השימושים הוא הפעלת תהליך זיהוי אופטי (OCR) על הקובץ הסרוק.

הליך זה מאפשר לתרגם את הסימנים שבתמונה וליצור קובץ וורד (טקסט) המאפשר לבצע שינויים בטקסט או בכלל המסמך. הזיהוי האופטי וההמרה לטקסט בר עריכה מאפשרים להפוך כל מסמך פיזי סרוק לקובץ בר עריכה. ברגע שנוצר קובץ בר עריכה ניתן לבצע כל שינוי בכל זמן.

עם הפעלת פונקצית החיפוש, מערכת התוכנה לניהול מסמכים תהיה מסוגלת לאתר ולזהות את מילות המפתח הנדרשות ולשלוף את המסמך הרצוי מבין עשרות ומאות אלפי מסמכי הארגון.

מערכת OCR טובה צריכה לאפשר זיהוי לא רק על ספרייה ספציפית, אלא גם על תתי הספריות שלה. הפלט הרצוי בדרך כלל הוא קובץ WORD המשמר את מבנה הדף המקורי, כולל טבלאות, טורים ותמונות, וכל זאת בגודלם המקורי. אפשרות נוספת מייצרת מסמך PDF דו-שכבתי הכולל את קובץ התמונה המקורית ואת הטקסט שזוהה והפך לבעל יכולת חיפוש ואחזור כאילו שנוצר במקור כקובץ טקסט דיגיטלי.

המאמר נכתב ע"י האתר דוקיומנטס - סריקת מסמכים, ניהול מסמכים, שרותי סריקה, ארכיון דיגיטלי http://www.documents.co.il,>

WWW.MISMACHIM.CO.IL

info@documents.co.il

054-5880060

תוכנות זיהוי טקסט- זיהוי תווים אופטי - עברית OCR