30.3.2021

שגיאות כתיב והקלדה בגוגל - נתונים חדשים ובינה מלאכותית

פאנדו נאיאק, סגן-נשיא בגוגל לענייני חיפוש, פירסם פוסט מעניין בנושא תיקוני שגיאות כתיב במנוע החיפוש הגדול בהיסטוריה. מסתבר שאנחנו טועים ללא הפסקה, בעיקר בסאמרטפונים, אבל גוגל מציל אותנו בחינם ובנימוס.

אז מסתבר ש-1 מכל 10 חיפושים בגוגל הוא שגיאת כתיב או שגיאת הקלדה. מה ההבדל, בעצם, ולמי איכפת? לכאורה, זה חשוב: שגיאת כתיב היא טעות לשונית שאנחנו עושים בגלל שאנחנו לא שולטים מספיק בשפה כלשהי. לעומת זאת, שגיאת הקלדה ("טייפו") היא פאשלה תמימה שאנחנו עושים מתוך רשלנות, פזיזות, אצבעות גדולות מדי, מקלדת קטנה מדי או בגלל לחץ של זמן.

בפוסט של פאנדו נאיאק (Pandu Nayak) שולף המהנדס הבכיר, המתמחה בהבנת שפה, נתון מרתק לגבי מימדי השגיאות שאנחנו עושים במהלך חיפושינו היומיומיים. לפי הפוסט שלו, קיימות למעלה מ-10,000 וריאציות שונות על המונח "יוטיוב" באנגלית (YouTube). זה נתון די מדהים, שצריך לגרום לנו לחשוב קצת - והכל בגלל האצבעות המגושמות שלנו.

כאשר מילים חדשות מצטרפות לכל שפות העולם על בסיס יומי, מספר השגיאות שאיתן נאלץ גוגל להתמודד לא מפסיק לגדול. אחת השיטות המרכזיות שבהן משתמש גוגל כדי לתקן שגיאות היא ניתוח מבנה המקלדת הסטנדרטית שלנו - לא משנה אם מדובר בלאפטופ של מתכנת, מחשב דסקטופ משרדי או מקלדת וירטואלית על סמארטפון קומפקטי. המרחק הפיזי בין האותיות הקרובות (למשל, האותיות U ו-Y הן שכנות קרובות) יכול לנבא, מבחינה סטטיסטית טהורה, את מבנה השגיאה ואת הדרך לתיקונה.

בגוגל החלו לשלב "למידה עמוקה" (Deep Learning) כדי לשפר דרמטית את יכולת ניבוי שגיאות הכתיב וההקלדה של האנושות. באמצעות רשת נבונה המסוגלת ללמוד ולפתח אלגוריתמים חדשים תוך כדי תנועה, גוגל מסוגלת להפעיל מודל בעל 680 מיליון פרמטרים תוך פחות מ-2 מילי-שניות. מערכת התיקונים היא כה אלגנטית ומהירה, עד שרובנו כלל לא מודעים להפעלתה.

גוגל זנח מזמן את שיטת "הטפת המוסר" לגבי שגיאות כתיב/הקלדה, ומפגין גישה פרגמטית לבעיה שלא תיעלם לעולם: במקום להודיע למשתמש שהוא טעה (Did you mean), רחמנא ליצלן, המערכת מציגה את החיפוש המתוקן ("מוצגות תוצאות עבור...") וחוסכת לשני הצדדים זמן יקר. לא רק שגוגל מתייחס בסלחנות אינסופית לכל סוג של שגיאה, הוא גם מוותר על הצורך "לחנך" את המשתמשים, בידיעה שזה לא הזמן ולא המקום. 

אפשר לפצל את משתמשי מנוע החיפוש של גוגל לשני סוגים מרכזיים: 1) הסוג שטועה כל הזמן אבל מודע לכך ומנסה לתקן את עצמו. 2) הסוג שטועה כל הזמן אבל הפסיק להתעניין בתיקונים, ופשוט מקליד להנאתו. כך או כך, שני הסוגים יכולים להפנים את העובדה שגוגל הפך למתקן שגיאות אולטימטיבי, ברמה שלא נראתה מעולם. גוגל מסוגל לתקן משפטים שלמים ולנתח את הכוונה המקורית שלנו, על סמך מידע סטטיסטי מוקדם שאין לאף ארגון אחר בעולם. 

ולכן אפשר ואפילו רצוי להקליד עם שגיאות - בידיעה ברורה שגוגל יתקן אותנו הרבה יותר מהר מכל אדם בעולם. במקרה שבו התיקון של גוגל אינו מדויק מספיק, או שגם הוא שגוי - עדיין יציע מנוע החיפוש להריץ את השאילתא המקורית שלנו ("חיפוש של...").

אם לכולנו היו מקלדות מושלמות, חינוך מושלם וזמן פנוי אינסופי - מן הסתם היינו דואגים להקליד ולחפש ללא שגיאות. אך אם קוראים בין השורות בפוסט של נאיאק - גוגל נאלץ לתקן שגיאות הקלדה כיוון שהאנושות מבצעת חיפושים מורכבים על טלפונים ניידים בעלי מקלדות זעירות (ומאוד לא נוחות), בתנאים של לחץ ומצוקה. ועדיין - מי שיודע להתנסח באופן מושלם, יקבל תוצאות חיפוש קצת יותר מדויקות.

מה שהיה קצת חסר בפוסט של נאיאק המלומד, זו תופעת ה"אחי, אתה על עברית": כאשר אנחנו מחפשים משהו באנגלית אבל שכחנו להחליף שפה (או שאנחנו על "קאפס לוק"), או ההיפך - כאשר הקלדנו ג'יבריש בעברית כי לא הצלחנו לעבור לאנגלית. גוגל פיתח מיומנות מושלמת גם בתחום הזה, ועדיין יש משתמשים רבים שמתקנים את עצמם לפני ביצוע החיפוש - מתוך אי-ידיעה שגוגל השתלט גם על הנישה הזאת.

אין תגובות:

כל הזכויות שמורות לבלוג חופש החיפוש 2007-2012