5.8.2010

גוגל ספרים בעברית - בעיות קיטלוג

פרויקט "גוגל ספרים" הושק השנה בגרסתו העברית; עיון מהיר בקטגוריות מגלה ש'גוגל' עדיין מתקשה מאוד בקיטלוג הספרים לפי נושא. חוסר האונים של גוגל מעיד על גבולותיה של התבונה המלאכותית

ראש הממשלה המכהן, בנימין נתניהו, היה מופתע למצוא את הספר "ימי נתניהו" מככב בקטגוריית ה"נסיעות", בגרסה העברית החדשה של "גוגל ספרים". הספר, מאת נחום ברנע, הוא לא היחיד שנזרק למדף שגוי. אם 'גוגל ספרים' היתה חנות ספרים אמיתית, הלקוחות היו עוזבים אותה תוך חמש דקות.


רובינזון קרוזו היה תקוע על אי בודד במשך זמן רב. לכן לא הגיוני להתייחס אליו בתור ספר תחבורה, כפי שעשה "גוגל ספרים". העיתונאי והסופר שי גולדן היה מופתע לראות את הספר שלו, "המפצח" מוצב באיזור טכנולוגיה והנדסה. אולי גוגל חושב שהשמאל בישראל הוא מטורף, אחרת אי אפשר להסביר מדוע 'זמן אמת' המנתח את תגובת השמאל לאינתיפאדת אל-אקצא נכנס לקטגוריית הפסיכולוגיה.

מחפש ספר צילום טוב ב'גוגל ספרים'? השירות הממוחשב יציע לך מיד ביוגרפיה על ג'יימס ג'ויס, או את מותחן הפשע האמריקני חצות בגן הטוב והרע, שאמנם זכה לעיבוד קולנועי של קלינט איסטווד, אבל ספר צילום הוא לא.

שמעון ביגלמן יכול להיות מאוד מרוצה מעצמו: ספר הגינון שלו, "גנן על הגג", השתלט לחלוטין על כל קטגוריית הגינון של 'גוגל ספרים'. מי שמחפש ספרי גינון ב'גוגל ספרים', יכול לבחור בין ספרו של ביגלמן, לבין ספרו של ביגלמן, או לקנח בספר של ביגלמן. פלורליזם כזה לא ראינו מאז לידת מערכת ההפעלה של מיקרוסופט.


אז בואו נבהיר כמה דברים ל"גוגל ספרים":
  • הספר "בישול עם חתול תעלול" הוא ספר ילדים, לא ספר בישול
  • "אני, רובוט" של אייזק אסימוב אינו ספר מחשבים, אלא מדע בדיוני
  • מגילת אסתר איננה בגדר "ספרות יפה"
  • "הצופן הפלמי" הוא מותחן רציחות מן המאה ה-15, לא ספר משחקים (למרות שיש בו שחמט)
  • "זה לא שאני לא אוהבת" מאת אורית הראל אינו ספר בריאות וכושר
  • "חבל להחיות", ספר יהודי-פולני, לא יכול להיחשב כיום בתור ספר הומור מן המניין
  • ספרה של דליה עופר, "Escaping the Holocaust", ממש לא עוסק במתמטיקה (שואה ועלייה)
  • המותחן "שעות מתות" של אורי אדלמן אמנם עוסק ברופאים, אך אינו ספר רפואה
  • גם הספר "Selected Topics in Jewish Law" אינו ספר רפואה, אלא ספר משפטים
  • "המקרה המוזר של הכלב בשעת לילה" מאת מארק האדון אינו ספר חיות מחמד, למרות שמו
מסתבר שבעיות הקיטלוג של גוגל ספרים אינן מוגבלות לעברית. המאמר של פרופ' ג'פרי נאנברג מפרט שורה של בעיות נוספות בפרויקט הספרים כולו, הקשורות ל"מטא-דטא", שגוגל מודע להן ונאלץ עכשיו למצוא דרכים לתקנן. אז מסתבר שהשגיאות הן אוניברסליות, ולא נובעות מהבנה שגויה של השפה העברית.

החזון המוצהר של גוגל הוא לארגן את המידע בעולם ולהפוך אותו נגיש ושימושי. במשימה זו נכשל "גוגל ספרים" בעברית בפרט, ובאנגלית בכלל. הכישלון מדגיש שוב עד כמה ההסתמכות המוחלטת על תבונה מלאכותית עשויה להוביל לשגיאות חמורות בארגון מידע חשוב.

אם גוגל יודע לארגן יפה את האינטרנט ולדרג דפי-רשת לפי חשיבות, זה לא אומר שהוא יודע לסדר ספרים על מדפים וירטואליים. מעבר לכך שמדובר באוסף גדול ומביך של טעויות, העלאת הפרויקט לרשת משדרת חוסר-כבוד לסופרים בפרט ולספרות בכלל.

מהנדסי "גוגל ספרים" מעריכים שקיימים בעולם כיום כ-130 מליון ספרים. רובם ככולם אינם נכללים במאגר של גוגל כעת. זה לא קל לקטלג כמות כה גדולה של ספרים, בעיקר כאשר חלק גדול מהם אפילו לא מופיעים באינטרנט, לא נמכרים בחנויות מקוונות, ואין למנוע החיפוש של גוגל אפשרות להסיק לאן הם משתייכים לפי הנוכחות המקוונת שלהם.

לסיום, הערה טכנית חשובה: נכון לעכשיו, עמוד הבית של "גוגל ספרים" בעברית גורם לקריסת המחשב עקב עודף חישובים (CPU נטחן למוות). כנראה שמדובר בסיבוכיות הנובעת מ-AJAX בכמויות בלתי נסבלות. אם העמוד ימשיך להיות כ"כ כבד ומסורבל, אף אחד פשוט לא ישתמש בו יותר.

(למקרה שדברים ישתנו בהמשך, שמרנו צילום מסך של רוב העמוד להורדה כאן.)


תגובה 1:

אנונימי אמר/ה...

אם הם יודעים לקרוא ISBN ולחבר את זה לדיואי, הם יצליחו לקטלג.

כל הזכויות שמורות לבלוג חופש החיפוש 2007-2012