23.5.2009

חיפוש באתר ynet: כישלון בלתי נחוץ

ynet הוא האתר הפופולרי ביותר בישראל אחרי "גוגל" ו"וואלה", אבל החיפוש הפנימי בתכנים שלו גרוע מאוד, עד כדי כך שרוב הגולשים פשוט מוותרים מראש; כיצד הצליח הפורטל של ידיעות אחרונות לירות לעצמו בשתי הרגליים רק בשביל להגיד שהוא לא משתמש ב"גוגל"

רצח רבין
כדי להדגים עמד כמה החיפוש הפנימי בכתבות של ynet הוא כושל, נתחיל בדוגמה קלאסית: חיפוש פשוט אחר המונח הפוליטי הבסיסי "רצח רבין" הביא בתוצאה הראשונה של החיפוש הפנימי ב-ynet מאמר על יום ירושלים. במקום השני: מאמר על יחסה של הציונות הדתית למדינה. במקום השלישי: מאמר העוסק בהשפעת הטלוויזיה על הנוער. בשלב זה מתייאש המחפש הממוצע, ועובר ל"גוגל".

חיפוש כתבות ב-ynet על "רצח רבין"

גוגל סורק היטב את ynet: יש לו במאגר בערך 8 וחצי מליון דפים שמורים. חיפוש "רצח רבין" בגוגל תוך צמצום התוצאות ל-ynet מביא תוצאות רלוונטיות ברמת מובהקות גבוהה: במקום הראשון מופיע "סרטון רצח רבין כפי שטרם נראה", במקום השני הערך "רצח רבין" מתוך אנציקלופדיית ynet; ובמקום השלישי - "רצח רבין היה הצונאמי שלנו", ראיון עם משפחת עמיר בעקבות עשור לרצח.

מדוע בחר אתר מכובד, פופולרי ועשיר כמו ynet לשבש לעצמו את החיפוש הפנימי באתר? התשובה: שימוש בחברה ישראלית ושמה קולריטי (Collarity). מנוע החיפוש הפנימי הנוכחי סורק את ynet בתדירות גבוהה מאוד, והדגש בתוצאות החיפוש הוא על "טריות" (Freshness) התוצאות, לאו דווקא הרלוונטיות שלהן. אמנם שליפת הכתבות נעשית בטווח של כ-30 דקות (חפשו "ynet" בכתבות ynet ותבינו את ההגיון), אבל אם מחפשים ביטויים כדי לקבל סידור משמעותי יותר של תוצאות, מתעוררות בעיות קשות.

באופן בלתי-מפתיע בעליל, זכתה קולריטי בכתבה מפרגנת במיוחד ב-ynet ("המתחרה הישראלית של גוגל"), תוך גילוי נאות כי מדובר גם במנוע החיפוש הפנימי החדש של ynet. מייסד החברה הוא "אמיל איסמלון, פיזיקאי, מורה למדיטציה". אם ל"קולריטי" יש יכולות חיפוש מרשימות, הן ללא ספק אינן באות לידי ביטוי באתר-הדגל של "ידיעות אחרונות", בוודאי לא בתצורתן הנוכחית.


ההתנתקות מן ההגיון
חיפוש המונח הפוליטי המפורסם "ההתנתקות" מוכיח שנכון לעכשיו, התוצאות של קולריטי פשוט לא עומדות בשום מבחן איכות בסיסי. התוצאה הראשונה: "המכבש של אובמה - טוב ליהודים?"; התוצאה השנייה: "תמיד אפשר להאשים את היהודים" (עוד מאמר על אובמה); התוצאה השלישית: "בשיא על ההתנתקות: לולא הכיפה, הכעס היה קטן". רק התוצאה השלישית קשורה איכשהו לחיפוש עצמו, אבל היא רחוקה מלהתאים לחיפוש כללי שכזה. במקום השישי, קשה להאמין, הכותרת הבאה: "שר התקשורת יטפל בקנסות היציאה של הסלולר" (ציון אפס בתבונה מלאכותית).

ב"גוגל" יודעים את העבודה: חיפוש "ההתנתקות" באתר ynet תוך שימוש במנוע החיפוש מס' 1 בעולם מביא, כצפוי, את התוצאות הנכונות: במקום הראשון - הערך "תוכנית ההתנתקות" מתוך האנציקלופדיה של ynet; במקום השני - מוסף מיוחד של ynet תחת הכותרת "ימי התנתקות"; במקום השלישי - "ההתנתקות בכנסת". גוגל קלע למטרה בכל עשר התוצאות של העמוד הראשון.


משה קצב - האיש והחיפוש
חיפוש "משה קצב" במנוע חיפוש הכתבות הסהרורי של ynet מביא בתוצאה הראשונה את הכותרת "ליגת העל: אשדוד חזרה מווינטר עם 0:0 מול הכח". בשלב זה, כל מחפש עם גזע מוח פעיל היה מרים ידיים. לרוע מזלו, התוצאה השנייה היתה דווקא סבירה איכשהו: "משפט קצב: מה נדע על הדיונים בתיק?" (קצת ממוקד מדי במשפט ולא באיש, אבל בכיוון). התוצאה השלישית: "קצב בבית המשפט: פה זה כבר לא משפט שדה". דווקא הכתבה המתאימה ביותר ממוקמת במקום הרביעי: "הכל אודות קצב: מא' ועד א'". באופן מוזר, הרוב המוחץ של התוצאות הוא מתאריך 14/5/09.

גוגל, לעומת זאת, יודע יותר טוב מ-ynet מה צריך להציג בשלושת התוצאות הראשונות על "משה קצב": במקום הראשון - הכותרת "נשיא המדינה משה קצב יואשם באונס". במקום השני: "קצב: חבל התלייה שלי - חבל ההצלה של מזוז". במקום השלישי: "ישראל נגד משה קצב: הוגש כתב האישום". בשאר התוצאות מופיעה גם האנציקלופדיה של ynet ואף ה"וידאופדיה" של "רשת" בשיתוף ynet.


דודו טופז - אין תוצאות רלוונטיות ב-ynet
מספר ימים לאחר התפוצצות פרשת דודו טופז, עודכן פוסט זה כדי לבדוק איך ynet מחפש כתבות על טופז.
תוצאות החיפוש היו מחפירות, גם בקנה-המידה של ynet עד כה. וזאת למה?
ראשית, יש רק שש תוצאות. שנית, מנוע החיפוש הפנימי של ynet התהדר ברמת עדכניות גבוהה, אך ברור לגמרי שכל הפרשה האחרונה חמקה ממנו לגמרי (תאריך הבדיקה: 3/6/09):
1) היכן לפרסם (כתבה על פרסום באתר ynet בלי קשר לכלום)
2) הוראות קבע לחג האהבה (ועל זה אמרו ח"זל: מה לעזאזל?)
3) מציצים: הקשר הישראלי (אוי לא)
4) רועי צ'יקי ארד: עכשיו הספר (לא יאומן)
5) הסלברטיז כבר לא למכירה (מה ציפיתם?)
6) עשרים ל-CNN: זמין אבל שטוח (תוצאה שישית ואחרונה)

זה סוף תוצאות החיפוש של כתבות ynet על דודו טופז.
מסרבים להאמין? יש לנו צילום-מסך להוכיח את זה.

באופן הפוך לגמרי, התוצאות של גוגל על דודו טופז ב-ynet הן לא פחות ממושלמות:
1) השופט על דודו טופז: הוא ראש הפירמידה, היוזם
2) אחרי שעות של חקירה: דודו טופז בתא המעצר
3) שכנו של טופז הודה: הוא הזמין את התקיפות
4) אחיו של טופז לאחר ההודאה: "הוא יצא גבר-גבר"
5) נהנה מהחיים ומזריק: דודו טופז על הסוכרת שלו - בריאות
6) עורכי דין מעריכים: טופז לא יבלה שנים רבות בכלא
7) דודו טופז ביקש לקיים הדיון בהארכת מעצרו בשיחת וידיאו
8) דודו טופז הודה בחקירתו שהזמין את תקיפת בכירי התקשורת
9) תקיפת אנשי התקשורת: דודו טופז נעצר וייחקר
10) מנכ"ל קשת שהותקף על פרשת טופז: "יש הקלה" - תרבות ובידור

ועל זה נאמר: מנוע חיפוש יקר, כתוב לעצמך מכתב פיטורים, ותן לבוס שלך לחתום עליו.


מעריב - מצא את המתחרים
חיפוש המילה "מעריב" דווקא באתר ynet הוא סוג של פרובוקציה, שלא לומר - כפירה. ועדיין, התוצאות גרועות בכל קנה מידה: בתוצאה הראשונה כתבה של הסופרת יהודית שמר; בתוצאה השניה - ""התפטרו העורכים הראשיים של מעריב" (למה זה לא ראשון?). ובמקום השלישי: "עורכי מעריב התפטרו מתפקידם" (שוב, הפעם בצורת מבזק). שאר התוצאות מתחת לכל ביקורת: "תעשיית השקר: חבילת אליבי לכל נואף" (לא קשור); "קניידלך בשקית גוצ'י" (אין קשר); "למה לא לחלק קונדומים לבני נוער, למשל?" (ביקורת על מעריב לנוער - לא מה שרצינו); "פרויקט טינופת" (קשר אפסי לחיפוש); ביקורת על הספר "רוסיה של פוטין" (מה קורה פה?), והשיא: "פרס ישראל לפסל מיכה אולמן". בעל הבית השתגע, ולכן בלית ברירה נבדוק את גוגל.

גוגל, כהרגלו בקודש, הרבה יותר מדויק בחיפוש המילה "מעריב" באתר ynet: ראשית הוא מציג את ההתפטרות של עורכי מעריב מ-11 מאי 2009. שנית, הוא מספק את הערך "מעריב" מתוך אנציקלופדיית ynet. שלישית, הוא מציג ידיעה נוספת על התפטרות העורכים (חבל, אבל נסלח לאור ההמשך); רביעית, ידיעה חשובה על "ירידה במכירות ועלייה בהפסד התפעולי" של מעריב; חמישית, "קבוצת מעריב מקצצת 15% משכר העובדים". וכך שאר התוצאות, כולן רלוונטיות: מכירת הד ארצי של מעריב, בכיר במעריב שהטריד מינית, מעריב מתנצל בפני אוהדי מכבי ת"א, מעריב מציג 8 מליון שקלים הפסד תפעולי ברבעון, ועו"ד שמאיים לתבוע את מעריב.


חיפוש גוגל ב-ynet
בואו נראה כיצד חברת "קולריטי", המספקת את תוצאות חיפוש הכתבות ב-ynet, מתמודדת עם חיפוש על מנוע החיפוש הרציני ביותר כיום. כצפוי, לאור המקרים הקודמים היא נכשלת באופן מחפיר.

במקום הראשון - כתבה חדשה אך מנותקת מכל הקשר, עם הכותרת "אנשי דת באינדונזיה: לא לפלרטט ב-Facebook". במקום השני - "טמקאסט: שוורצנגר, ספרים ו-WiMax" (אכזבה, ייאוש, בזבוז של זמן). במקום השלישי: "לרגל יום הפורנו: מתקפה ב-YouTube".

עקב תקלה טכנית, הוחדרה תוצאה רלוונטית דווקא למקום הרביעי ("גרמניה מעכבת צילומי רחובות ע"י גוגל"), ולכן תוקנה השגיאה באמצעות תוצאה חמישית מופרכת ("10 אתרים לקולנוענים"), תוצאה שישית הזויה ("נשיא בר-אילן: פחד הרבנים מהאקדמיה - מנוון"), תוצאה שביעית מטורפת ("מובי דיק - הפולמוס"), תוצאה שמינית שגויה ("מנוע החיפוש Kumo של מיקרוסופט מתקרב"), תוצאה תשיעית נוראית ("Facebook עם OpenID: זהות אחת ברשת") ותוצאה עשירית בלתי נסבלת ("Wolfram Alpha חושף את משמעות החיים"). סיכום: כישלון.

חזרה לשפיות: חיפוש המילה "גוגל" ב"גוגל" תוך צמצום התוצאות לאתר ynet בלבד מגלה כי העולם חזר למסלולו התקין, ואפשר לנשום לרווחה. התוצאה הראשונה היא הכותרת "גוגל מציגה חיפוש ממוקד יותר" (כמה נכון, וכמה טראגי כאשר זה מופיע ב-ynet דווקא); התוצאה השניה "גרמניה מעכבת צילומי רחובות ע"י גוגל"; השלישית: "ארה"ב: פשרה בין גוגל להוצאות הספרים"; הרביעית: "חיפוש זה לא רק גוגל" (נכון, אבל גוגל שולט); החמישית: "מחפשים אתכם? גוגל רוצה לעזור בתוצאות"; השישית: "מנכ"ל גוגל: אמשיך לכהן בדירקטוריון אפל". וגם שאר ארבע התוצאות האחרונות בעמוד הראשון של גוגל רלוונטיות לחלוטין.


הישרדות השוואתית

חיפוש "הישרדות" במנוע החיפוש הפנימי של ynet מביא במקום הראשון כתבה רלוונטית על אריק אלפר ("אופס, הגזמתי"), אבל במקום השני מגיח במפתיע הקאמבק של אילנית (ממש כך - "הסרט של אילנית"), ובמקום השלישי כתבת כדורגל סתמית ("לשירר יש חסינות, אבל האם ניוקאסל תשרוד?"). בין שאר התוצאות הבעייתיות-מאוד של ynet אפשר לראות כתבה על הבזים האדומים בישראל ("בין הגגות: המלחמה על הבז האדום"), עוד כתבת כדורגל ("הולנד: דה חראפשחאפ העפילה לגמר הפלייאוף"), כתבה כלכלית-יזמית ("בוא עלה איתי לגג: חממת יזמות חברתית-עסקית") ואפילו כתבה על משחק מחשב (""Killing Floor - משחק זומבים מעורר אימה"). סיכום התוצאות: בזיון.

ב"גוגל", לעומת זאת, חיפוש על "הישרדות" ב-ynet מביא 9 תוצאות רלוונטיות לחלוטין ורק תוצאה אחת שאינה קשורה ("הישרדות, עזה 2009: החיים במחנה האוהלים"). בניגוד לתוצאות של ynet, גוגל הבין שמדובר בסדרת טלוויזיה, ושלף ב-90% מן המקרים את התוכן הנכון.


זה לא צירוף מקרים
כדי להגדיל את המדגם הסטטיסטי של הבדיקה, התגייסה כל מערכת "חופש החיפוש" (אני בלבד) לבדיקת איכות התוצאות, ובשורה ארוכה של חיפושים על מונחים שונים בתכלית חזרו התוצאות על עצמן: איכות נמוכה מאוד בחיפוש הכתבות הפנימי של ynet, בהשוואה לאיכות גבוהה מאוד של גוגל כאשר הוא מצומצם לאתר ynet בלבד ע"י האופרטור site:ynet.co.il ליד ביטוי החיפוש.

לא מאמינים? יש לכם כמה דקות פנויות? חפשו למשל "משרד התחבורה", "מבקר המדינה", "צהבת", "זיהום אוויר", "אריק שרון", "מלונות לונדון" ועוד.


ההפרדה ל"אתרים", "כתבות", "אנציקלופדיה", "פורומים" ו"קניות"
היו ימים שבהם הגולש טרח להפריד בין אתרים, כתבות, ערכים אנציקלופדיים, דיונים בפורומים או תכנים מסחריים של אתרי קניות. הימים הללו אמנם לא חלפו לגמרי, אבל המציאות שאותה מוביל גוגל בהחלט השתנתה. ב-ynet מבקשים מן הגולש להחליט מה הוא רוצה לקבל, כאשר בגוגל הוא כבר מקבל מגוון תוצאות שונות ממקורות שונים באופן מוגדר - גם אתרים, גם כתבות, גם ערכים אנציקלופדיים ולקסיקליים, גם דיונים חשובים בפורומים וגם תכנים מסחריים בהתאם לצורך.

על חיפוש האתרים של ynet אין מה להרחיב את הדיבור: מדובר בחיפוש מוגבל ביותר, באינדקס מיושן שלא מציע תוצאות סבירות בשפה האנגלית (אין שום תוצאות על הביטוי "history of smoking"), ואפילו לא בעברית (חיפוש המילה "פייסבוק" מביא תוצאה אחת בלבד - רחוק מלהשביע את הסקרנות). חיפוש באנציקלופדיה של ynet הוא מבוי סתום - כדי לצפות בערך המלא, יש לקנות מנוי (ויקיפדיה עדיין בחינם, יש לציין). החיפוש בפורומים של ynet איטי מאוד ("אנא המתן", מודיעים למחפש), ותוצאות החיפוש מוצגות בצורה מרושלת: בלי הופעה של מילת המפתח בתקציר, ובלי קריטריונים של איכות מלבד תאריך הופעת ההודעה.

אין הסבר אמיתי לשאלה מדוע בחר אתר מוצלח כמו ynet להקשות על ישראלים כה רבים את החיים, בעזרת חיפוש פנימי גרוע בתכנים האיכותיים שלו, חיפוש אתרים נכה, חיפוש קהילתי חלש, חיפוש אנציקלופדי חסר-תוחלת וחיפוש קניות שנמצא ב"גטו" משלו.


אז מה עושים?
הפתרון למצב המייאש
שנמצא בו ynet כיום, מבחינת החיפוש הפנימי באתר, הוא איחוד של כל תוצאות החיפוש לעמוד אחד ויחיד: במרכז עמוד התוצאות - חיפוש רלוונטי בתכנים של ynet בעזרת שימוש ב"גוגל" (תוך הצגת פרסומות של גוגל, או בעזרת מודל שיווקי אחר); מיד אחר כך - אתרים רלוונטיים ברשת רק בתור אופציה מוגבלת (בשביל לעשות חיפוש ברשת לא צריך את ynet, במיוחד לא בעולם שנשלט ע"י גוגל); שילוב ערכים אנציקלופדיים של ynet בצורה סמלית ומצומצמת בלבד (כי זה בתשלום); ולסיום - תוצאות חיפוש קהילתיות ומסחריות במינון נמוך, ורק כאשר הן מועילות באמת לגולש (סינון חכם שידרוש עבודה רצינית מצד כל הצדדים המתכננים).

התימחור של גוגל, בכל מה שנוגע לחיפוש פנימי באתרים וללא פרסומות (Google Site Search) מדבר על 2,000 דולר לשנה עבור אתר בגודל 100,00 עמודים או פחות. אתרים גדולים יותר מקבלים הצעות מחיר אישיות על בסיס פניה אישית לצוות המכירות הבינ"ל של גוגל. מכיוון ש-ynet הוא אתר תוכן ענק בהיקף של כ-10 מליון דפים, ויש לו חשיבות אסטרטגית עבור "גוגל ישראל", המחיר ש-ynet יצטרך לשלם לא חייב להיות גדול מדי.



[עודכן שוב ב-3/6/09 בעקבות פרשת דודו טופז]

3 תגובות:

אנונימי אמר/ה...

המנוע של ynet משתמש בתוכן שיש בכתבות של ynet ולא במה שאתרים אחרים טוענים שיש ב-ynet. אם יש בכתבה את המילה "התנתקות", למשל, באופן שמרמז על כך שהכתבה מכילה תוכן על ההתנתקות - היא תוצג בתוצאות. גם אם המילה לא מופיעה, אבל תוכן הכתבה מתייחס לנושא - היא עדיין תופיע בתוצאות.
google לעומת זאת, משתמש בתוכן שנמצא באתרים אחרים. ברגע שיש במקום מסויים ברשת קישור שמכיל את המילה "התנתקות" ומוביל לדף מסויים - גוגל מחליט שהתוכן מתייחס להתנתקות.
מה זה אומר? שמאד קל להשפיע על תוצאות של גוגל ולגרום להן להוביל לדף עם תוכן שלא קשור למה שחיפשת.
הבדיקה שלך עם החיפושים לוקה בחסר. אתה מחפש מילה מסויימת וקורא את הכותרות של התוצאות. אני מציע שכשאתה מחפש מילה מסויימת (למשל "התנתקות") גם תכנס לתוצאות ותקרא את התוכן. נראה ליש שתגלה שגוגל מפשל יותר מ-ynet בעניין הזה.
בנוסף - נסה לחפש מילה מסויימת שלא מופיעה בתוכן הכתבה (למשל - חפש את המילה "התנתקות" וגם וודא שהיא לא מופיעה בדף שאליו הופנת בכלל). רוב הסיכויים שתוכן הכתבה יתאים למילת החיפוש דווקא בתוצאות של ynet.

אילן אמר/ה...

סיפור עוד יותר עצוב לגבי YNET הוא שהם גובים סכומי עתק עבור קידום באינדקס המשותף שלהם ושל נענע.

עבור תנועה של 400 גולשים בשנה (על פי הנתונים שלהם. כמובן שעל פי האנליטיקס זה הרבה פחות) הם גובים 15,000 שח ללא מעמ. המשמעות היא שבעל אתר משלם לYNET בסביבות 40 ש"ח לגולש.

בסכום הזה אפשר להביא הרבה יותר גולשים וגולשים הרבה יותר איכותיים דרך גוגל אדוורדס.

שי יל-גשום אמר/ה...

פספסת את כל העניין! מה שהופך את בינתך למלאכותית או משועבדת לגוגל ולאיך שהוא חינך אותך באשר לחיפוש
Ynet בחרו להציג קודם כל את הכתבות הטריות ביותר שמכילות את מילות החיפוש שלך ותו לו! מתוך מחשבה שרוב החיפושים באתר הם על מנת לאחזר כתבות שלא הספקת לקרוא והתפרסמו בימים האחרונים ולא לשמש כחיפוש סטנדרטי "גוגלי" אם תרצה
לראיה כמות החיפוש באתר עלתה פי 10 בשנתיים האחרונות. כמובן אפשר לחשוב על שיפורים וכדומה אך קודם כל רצוי להבין משהו על התנהגות המשתמש באתר ספיציפי לפני שמלהגים.
קל מאוד למצוא דוגמאות לכאן ןלכאן אך המבחן האמיתי הוא מבחן הסטטיסטיקה.

כל הזכויות שמורות לבלוג חופש החיפוש 2007-2012