גוגל מוסיפה שרות זיהוי טקסט לגוגל דוקס
מאת אילנה ברודו 22 ביוני 2010. אין תגובות. שייך לקטגוריות אינטרנט, טכנולוגיה
אפשרות חדשה בגוגל דוקס: זיהוי טקסט בתמונות ומסמכי PDF. בלי עברית, עם ביצועים ממוצעים וחוסר באפשרויות התאמה אישית, שרות זה מתאים אולי לסטודנטים ומשתמשים ביתיים, אך אינו מוכן להחליף את ה-OCR המסחרי
לא פעם אנחנו נתקלים בטקסט מודפס שהיינו רוצים לצטט בלי להקליד יותר מדי או טקסט הנמצא בקובץ תמונה או PDF שנסרק שהיינו רוצים לערוך, אך למרבה הצער, מירב שרותי ותוכנות זיהוי הטקסט (OCR) הינם בתשלום. בשנה שעברה החלה לערוך גוגל ניסויים בזיהוי טקסט, בין היתר כי כבר השתמשה בטכנולוגיה לסריקת הספרים עבור מאגר Google Book. אתמול (ב') הופיעה בשרות יישומי המשרד של גוגל, גוגל דוקס, אפשרות חדשה להעלות קבצי PDF או תמונות שגוגל תהפוך לטקסט עריך.
אל תזרקו את תוכנת ה-OCR
למרבה הצער, בבדיקה שטחית נראה שהשירות אינו בשל להחליף את תוכנות זיהוי הטקסט המסחריות, וכן לא נראה שקיימת תמיכה בזיהוי טקסט בעברית. בעת העלאה של קבצים עם טקסט באנגלית, הזיהוי הטוב ביותר התקבל בקבצי PDF ולא בתמונות, וגם רק כאשר מדובר בטקסט שחור על גבי לבן וללא איורים. בנוסף, בתהליך זיהוי הכתב מתבטלים כל העיצובים המוחלים במסמך והתוצאה המתקבלת היא טקסט בגופן וגודל אחידים.
זכויות היוצרים לאן
בעוד לא נראה ששרות זה יספק מענה עבור משתמשים ארגוניים, עבור המשתמש הביתי הממוצע מדובר בתוספת מבורכת, לפחות עבור אלו מאיתנו המתעסקים תכופות עם מסמכים בשפה האנגלית. אחת השאלות העולות עם הופעתו של שרות זה, היא השמירה על זכויות יוצרים של ספרים, מגזינים וטקסטים מדעיים. בעוד בעבר לקבצי ה-PDF היה ייחוד לעומת מסמכי אופיס בכך שלא ניתן היה לשנותם עם סגירת הקובץ, כעת ניתן לעשות זאת, גם אם לא באופן ישיר, באמצעות השרות החדש של גוגל.
כעת יוכל כל משתמש, בעצם, לצלם או לסרוק מידע מודפס ובקלות רבה להפוך אותו לקובץ הניתן לעריכה ויתרה מכך, כזה שמאפשר חיפוש בתכניו ואיכות גבוהה יותר של תצוגה והדפסה מאשר הפלט של סריקה רגילה. אם נניח שהשרות ישתפר ושפות נוספות יתווספו אליו, כל אחד יוכל לחלוק עם חברים ספר שרכש או אפילו את עיתון הבוקר בתצורה נוחה שתאפשר איתור מידע, שמירת סימניות ועוד, אך תאלץ את בעלי הזכויות לחפש אמצעים להגנה על תכניהם מפני העתקה והפצה באופן פיראטי.
עדכון: מגוגל נמסר שנכון להיום השפות הנתמכות הן אנגלית, צרפתית, איטלקית, גרמנית וספרדית ובמהלך השנה מקווים בחברה להוסיף שפות נוספות. כמו כן, פרטים נוספים על השרות ניתן למצוא בבלוג גוגל דוקס.