|
דף הבית » OCR עברית – סריקת מסמכים? מה זה בדיוק?
OCR עברית – סריקת מסמכים? מה זה בדיוק?תוכן המאמר ● אודות סריקת מסמכים ● תגובות למאמר תוכנת זיהוי תווים אופטי, או באנגלית Optical Character Recognition (OCR) היא תוכנה המבצעת המרה של תמונה סרוקה למסמך בר עריכה במעבד תמלילים במחשב. סריקת מסמכים היא חלק אינטגרלי מהיכולת לזהות טקסט
תוכנת זיהוי תווים אופטי, או באנגלית Optical Character Recognition (OCR) היא תוכנה המבצעת המרה של תמונה סרוקה למסמך בר עריכה במעבד תמלילים במחשב. סריקת מסמכים היא חלק אינטגרלי מהיכולת לזהות טקסט.
כשסורקים מסמך למחשב מקבלים קובץ תמונה (בד"כ TIF, JPG, PDF). כפי שלא ניתן לבצע התערבות בתמונות מצולמות המכילות טקסט ללא שימוש בתוכנה מתאימה, כך גם לא ניתן לבצע עריכה בקבצים של מסמכים סרוקים.
כדי לעשות שימוש בטקסט המופיע בתמונה לצרכי חיפוש או עריכה במעבד תמלילים יש צורך לבצע פעולה על הקובץ הסרוק.
האתגר הגדול ביותר של מפתחי תוכנות OCR הוא להגיע לאחוזי זיהוי גבוהים בתהליך המרת תמונה של מסמך סרוק (או כתב יד). הפעולה עצמה היא זיהוי כל תו מתווי המסמך ותרגומו לאות. תהליך זה כולל מספר כללים וחוקים הקשורים לקטעי התמליל, לסוג האותיות ולשפת האותיות.
קיימות שתי דרכים עיקריות בתהליך זיהוי טקסט (זיהוי תווים אופטי): בדרך הראשונה בודקים איזה מהאותיות דומה לתבנית מוגדרת מראש, ובדרך השנייה מחלקים את האות לחלקים ונותנים תיאור לכל חלק של האות.
החיסרון העיקרי של שימוש ב- OCR הוא אחוז גבוה של שגיאות. תוכנת OCR שמזהה 90% מהמילים, עדיין שוגה ב- 9 מכל 10 מילים. אם המסמך שלכם מכיל 10,000 מילים, 1,000 מילים יהיו שגויות ותצטרכו להשקיע זמן ניכר בתיקון השגיאות והתאמת הטקסט הסרוק למסמך המקורי.
כדי למזער את כמות השגיאות, התוכנה נעזרת במילון. בדרך זו התוכנה מכילה שכבה המתרגמת ומשלימה תווים שזוהו למילים שלמות. אם לא נוצרה מילה שלמה התוכנה משנה תווים במילה עד שנמצאת השלמה מול מילה זהה במילון, או המילה הקרובה ביותר.
קיימת בעיה נוספת בתהליך הזיהוי. אם המסמך נסרק באופן לא מיושר, יש צורך ביישור המילים לפני הפעלת אלגוריתם הזיהוי. קיימים גם פונטים מורכבים שלא כל תוכנת OCR יכולה או יודעת להתמודד איתם, כגון פונט רש"י.
החוכמה בבחירת תוכנת OCR נמצאת באחוזי הצלחת הפענוח והזיהוי של התוכנה. השאיפה היא לקבל 100% זיהוי של קובץ סרוק. אם מצאתם תוכנה עם 98 – 99% זיהוי עשיתם עסק לא רע.
הכותב הוא מנהל האתר דוקיומנטס (Documents) –ניהול מסמכים, סריקת מסמכים, ארכיון דיגיטלי. http://www.documents.co.il ומנהל האתר "מסמכים" – שירותי סריקה, ארכיון, אלבום דיגיטלי – Mismachim.co.il
תגיות:
אלבומים,
ארכיון,
מסמכים,
אלבום דיגיטלי,
סורק,
סריקת,
סריקה,
ניהול ידע,
ארכיב,
תוכנת סריקה,
תוכנות סריקה,
תוכנה לסריקת מסמכים,
סריקת מסמכים,
סריקת מסמך,
סורקים,
תוכנה לסריקת תמונות,
סריקת תמונות,
ניהול מסמכים,
גניזה,
תוכנות ניהול מסמכים,
תוכנות לניהול מסמכים,
תוכנה לניהול מסמכים,
ocr עברית,
מערכת לניהול מסמכים,
שירותי סריקה,
סורקים מקצועיים
,
סורק נגטיבים,
סורק מקצועי,
בנק מבחנים,
שירותי ארכיב,
סריקת שקופיות,
סורק תמונות,
זיהוי טקסט,
תוכנת סריקת מסמכים,
תוכנת OCR,
סקנר,
ניהול ידע בארגון,
ocr בעברית,
סורקי מסמכים,
סורק מסמכים,
תוכנת ארכיון,
תוכות זיהוי טקסט,
ניהול מסמכים תוכנה,
משרד ללא נייר,
מערכת ניהול מסמכים,
מערכת ניהול ידע,
תיוק מסמכים,
שירותי סריקת מסמכים,
שירותי ארכיון,
ארכיון מסמכים,
ארכיון אלקטרוני,
תוכנת זיהוי טקסט,
תוכנות זיהוי טקסט,
סריקת תמונות ישנות,
סריקת ספרים,
סורק מהיר,
ניהול מסמכים חינם,
מיקרופילם,
גניזת מסמכים,
תוכנת ocr בעברית,
שרותי סריקה,
שירותי גניזה,
סורקי ארכיון,
תוכנת ניהול מסמכים חינם,
תוכנה לניהול מסמכים חינם,
סריקה באתר הלקוח,
זיהוי תווים אופטי,
ארכיון ממוחשב,
אחסון מסמכים,
סריקת מסמכים ל pdf,
ניהול ארכיון,
הקלדת מסמכים,
סריקת מסמכים תל אביב,
ניהול מסמכים סרוקים,
שרותי ארכיון,
שרותי ארכיב,
שירותי ארכיב וגניזה,
פתרונות,
ניהול מסמכים,
סריקת מסמכים ירושלים,
סורק דו צדדי,
ניהול משרד ללא נייר,
ניהול מסמכים וידע,
ניהול ארכיב סריקה,
מערכות לניהול,
משרד ללא נייר,
ארכיב דיגיטלי,
ניהול מסמכים חניבעל מערכות,
פתרונות סריקת מסמכים,
משרד ללא נייר
דירוג המאמר: לא דורג עדיין
עד כה לא נרשמו תגובות למאמר.
|
כל המידע המופיע בעמוד זה הינו מידע כללי בלבד. אין בו כדי להוות ייעוץ מוסמך, או חוות דעת מוסמכת. על הקורא לפנות לקבלת ייעוץ מקצועי או חוות דעת לפני כל שימוש במידע המופיע באתר זה. אין בעלי האתר והמחברים נושאים בכל אחריות מסוג כלשהו לכל נזק שנגרם בעקבות שימוש במידע המופיע באתר.
הנך נמצא כאן: OCR עברית – סריקת מסמכים? מה זה בדיוק?


מחבר המאמר:
פורסם בקטגוריה:
מספר צפיות: 298 פעמים
מספר תגובות:
תאריך פרסום: 18.01.11
תגובות למאמר 