2.11.2008

גוגל עדיין לא תמיד מבין מסמכים סרוקים


תחת הכותרת "תמונה של אלף מילים?" בבלוג הרשמי של גוגל, הכריז בשבוע שעבר אווין ליווי, מנהל מוצר בחברה, על בשורה למחפשים: גוגל יכול מעתה לקרוא מסמכים סרוקים בפורמט PDF. עד עתה ידע גוגל להמיר PDF לטקסט רגיל, רק בתנאי שהמסמך המקורי היה דיגיטלי, כמו למשל מסמך וורד או מצגת פאואר-פוינט. עכשיו, לכאורה, גוגל פחות מוגבל.

החידוש: גוגל משתמש בתוכנת OCR (זיהוי אותיות אופטי) יעילה ומהירה במיוחד כדי להבין את ה"תמונה" ולהפוך אותה לטקסט רגיל.

על הנייר זה נשמע נהדר, ובגוגל מציגים מספר מצומצם של דוגמאות, בהן זה עבד יפה. בפועל, לגוגל יש עוד הרבה מאוד עבודה עד שיוכל להכריז "בוצע!" בתחום סריקת המסמכים.

קחו, לדוגמה, את החיפוש המתבקש כדי לבדוק את יעילות התוכנה של גוגל: הביטוי "כתבה סרוקה" באנגלית, תוך הגבלת התוצאות לפורמט PDF בלבד. מניתוח התוצאות עולה כי גוגל עדיין רחוק מלהבין מה קורה בכל מסמך, והוא מחמיץ חלקים נרחבים מתוכו. במצבים מסוימים, גוגל אפילו לא יכול להבין מילים בשלמותן, ונאלץ לקטוע אותן באמצע.

וזה עוד החצי המלא של הכוס: כאשר מסמכים צבעוניים נסרקים באיכות בינונית, גוגל מוותר על המאמץ ונכנע לגמרי. כך אפשר לראות בתוצאות החיפוש שלעיל דוגמאות שבהן מסמך שלם הוחמץ לגמרי. זה לא שגוגל ניסה לסרוק את המסמך אבל הוציא מתוכו מילים ספורות - הוא פשוט ויתר על הפרויקט לחלוטין.

יש גם דוגמה ישראלית קלאסית, שבה כתבה סרוקה מ"ידיעות אחרונות" נותרה בלתי-נגישה לחלוטין עבור גוגל המשודרג. יש עוד המון דוגמאות כאלה ברשת הישראלית, בעברית ובאנגלית.

אלו המקרים שבהם גוגל מתקשה לקרוא מסמכים סרוקים:
1) גופן בלתי-שגרתי
2) קונטרסט נמוך בין הטקסט ובין הרקע שלו
3) מסמך בעל צבעים רבים
4) מסמך שבו צבע הרקע אינו לבן, ושבו הגופן אינו שחור
5) טקסט שאינו אופקי (כתבה שנסרקה בזווית 90 מעלות / פורמט לנדסקייפ)
6) טקסט ברזולוציה נמוכה
7) מסמך בעל מספר עמודים גבוה מן הממוצע

יפה שמהנדסי גוגל ממשיכים להשתמש בטכנולוגיות חדשות כדי להרחיב את האינדקס של גוגל. המשקיעים של גוגל בוודאי מצפים מגוגל להשקיע משאבים רציניים בעיבוד מסמכים לפורמט נגיש יותר. אחרי הכל, מדובר ביתרון תחרותי מובהק.

המאמץ האחרון, לפחות ברמה העקרונית, גם תואם לחלוטין את החזון המוצהר של גוגל (להפוך את המידע בעולם לנגיש ושימושי), אבל כאשר תוצאות הטכנולוגיה מחמיצות כל כך הרבה מידע, כדאי לאנשי גוגל להוסיף כמה הסתייגויות בסגנון "הסיפור נמצא בחיתוליו" לצד ההכרזות החגיגיות בסגנון "יוריקה!".

אז האם תמונה שווה אלף מילים? כן, בתנאי שגוגל יודע להבין מה כתוב בה. אם תמונה שבה יש אלף מילים, נסרקת באופן חלקי כך שרק 400 מילים מתוכה נגישות לחיפוש, או שמסמך בעל מאפיינים מיוחדים אינו נסרק כלל - אפשר לומר שאנחנו עדיין רחוקים מן האוטופיה הדיגיטלית שגוגל מציג בפני המשתמשים המושבעים שלו, המשקיעים הכבדים, בעלי המניות והעיתונאים המסקרים את הארגון השאפתני הזה.


הוסף רשומת תגובה
כל הזכויות שמורות לבלוג חופש החיפוש 2007-2012