על ידי כך התוכנה לומדת את השגיאות האישיות ומקטינה את סיכוייהן להופיע שוב בעתיד. במידה והתוכנה לזיהוי תווים אופטי היא כזו שמזהה מילים, ניתן להקטין את כמות השגיאות בזיהוי התווים השונים, על ידי בדיקת המילה הנבחרת בתוכן עצמו.
זיהוי תווים אופטי - OCR יכול להתבצע בשתי דרכים:
· תיאור מבנה - על ידי חילוק האות לחלקים שונים, ה-OCR יודע ליצור תיאור של החלקים השונים שנוצרו, ובכך ליצור יחסים ביניהם.
· התאמת תבנית – ה OCR שומר בתוכו תבניות קבועות של אותיות (כיצד הן אמורות להראות), ולאחר הסריקה מתבצעת בדיקה איזה מבין התווים שנסרקו תואמים לתבניות ששמורות בתוכו.
הערה: בתהליך הזיהוי שמבצע ה-OCR , נוצר לעתים מצב שבו ישנם מספר תווים שגויים, או ליתר דיוק, נוצרת אי התאמה בין זיהוי ה-OCR לבין התוצר הסופי- קובץ דיגיטאלי של המסמך. על מנת למנוע עד כמה שניתן את השגיאות הללו, מפעילה המערכת הממוחשבת בדיקה מול מילון. במקרים אלו התוכנה מכילה את האפשרות ליצור הקשרים בין התווים השונים ולבנות מילים שלמות. במקרה שה-OCR לא מוצא מילה כלשהי במילון, הוא משנה תווים מסוימים על מנת להגיע להקשר לוגי, עד למציאת המילה הנכונה המופיעה במילון.
תהליך סריקת מסמכים זיהוי תווים אופטי - OCR מתבצע בשבעה שלבים:
· עקב קיום אלגוריתם מתוחכם המסוגל לזהות מאפיינים ותצורות של פונטים שונים, התוכנה מזהה את הפונט שבו הטקסט המקורי הודפס. בעקבות כך בוחרת התוכנה את הגופן שהכי תואם לפונט של הטקסט המקורי.
· כאשר נסרק מסמך לתוך התוכנה (OCR), נמחק הקידוד באופן אוטומטי על מנת לנקות את המסמך מ"לכלוך" מיותר. ניקוי זה מקל על זיהוי התווים וההפיכה לאותיות.
· התוכנה מפרידה את השורות השלמות על פי המרווחים השונים לאותיות ומילים.
· התוכנה מזהה את שורות הטקסט ומיישרת אותם כך שהאותיות תהיינה אופקיות. שלב זה פותר את בעיית הדפים שנסרקו בזווית שמקשה על התוכנה לזהות את האותיות בצורתם הנכונה.
· התוכנה מזהה את האותיות הבודדות לפי פרמטרים שונים ועל ידי כך מפרידה בין האותיות בהתאם לפונט הנבחר.
· כיוון שהתוכנה יודעת לזהות טקסט מקורי משולב עם תמונות, יש באפשרותה להפוך אותו לקובץ דיגיטאלי עם תמונות בדומה למקור.
· לאחר זיהוי התווים והפיכתם למילים בשפה בה נכתב הטקסט, התוכנה מחפשת התאמה מדויקת של כל המילים בלי יוצא מן הכלל בין הטקסט המתורגם למילון עצמו.
טומקס פתרונות סריקה
http://www.tomax.co.il