26.12.2007

תוכן מועתק: מנועי חיפוש שונאים אותו - וגם יודעים להעניש


הרבה בעלי אתרים בישראל (וברחבי העולם) נוהגים להעתיק תכנים ממקורות אחרים כדי למשוך גולשים וכדי להתמקם גבוה במנועי חיפוש. זו, לכאורה, הדרך המהירה והנוחה ליצור אתר מלא בתוכן, למכור פרסום (באנרים, אדסנס וכו'). אז איפה כאן הבעיה?

אז זהו - שמנועי החיפוש למדו את הטריק הזה, ופיתחו שיטות מתוחכמות כדי לעלות עליו.

תוכן מועתק, בעיני מנועי חיפוש, הוא תוכן מיותר. אפשר לקרוא לו "עודף תוכן", ויש לו נטיה לפגוע באיכות תוצאות החיפוש בצורה מובהקת. גולשים שונאים להיתקל באותו תוכן כאשר הם מחפשים מגוון אתרים שונים באותו נושא.


מילת המפתח כאן היא Redundancy ("עודפות" או "יתירות"). מחשבים מזהים נתונים זהים בקלות רבה, ויודעים לטפל בתופעות כאלו במהירות מפחידה. תוכנות הכיווץ שאנחנו מכירים (ZIP או RAR) הם כלים שיודעים לזהות חזרה מיותרת על נתונים, לתייג כל נתון חוזר כ"מספר", וכך הם עוזרים להקטין באופן משמעותי את גודל הקובץ.


מבחינת בעלי אתרים ברשת, חשוב להדגיש כמה נקודות מרכזיות:

  • אל תעתיקו תכנים המופיעים באתרים מרכזיים וחשובים - המוניטין שלהם יביא את מנועי החיפוש להבין שהם המקוריים, ולא אתם.

  • אל תחשבו מראש שתכנים מועתקים, תהיה איכותם גבוהה ככל שתהייה, יביאו אתכם לתוצאות טובות במנועי החיפוש - אם מנוע החיפוש איתר את המקור המוסמך, לא תוכלו לעקוף אותו.

  • תכנים בלתי-נגישים שהועתקו מאתרים שלא נסרקו על ידי מנועי חיפוש, אינם מועתקים בעיני מנועי החיפוש; לכן ומבחינתם, התוכן שהעתקם הוא מקורי לגמרי (ייתכן שבעל האתר שממנו העתקתם יחשוב אחרת ויתבע אתכם).

  • אם נגזר עליכם להשתמש בתוכן מועתק מעצם טבעו (תיאור מוצר, למשל), נסו לערוך שיכתוב שיטחי כדי לגרום למנועי החיפוש להבין שמדובר בטקסט שונה.

  • אם אותם עמודים מקבלים כתובת שונה (מכל סיבה שהיא, כולל פרמטרים דינמיים), נסו להימנע ממצב זה על ידי ביטול כל מרכיב בכתובת העמוד שיכול ליצור כפילות מיותרת.

  • אל תשתמשו באותם תכנים בשביל אתרי-מראה, אתרים מקבילים, אתרים של שותפים, אתרים של רשתות-מפיצים, ו/או אתרים מסונפים (אלא אם כן חסמתם את כל השיכפולים בפני ה"רובוטס" של מנועי החיפוש).
  • סינדיקציה: אם אתם מפיצים תכנים לאתרים רבים, יש לקחת בחשבון שמנועי החיפוש עלולים לחשוב שהאתר שלכם הוא זה שהעתיק מן השאר, ולא להיפך (לא נורא, העיקר שמקשרים אליכם - קישורים חיצוניים הם זהב טהור); יש להתעקש על מודל "תוכן תמורת לינק" - כך אתם מאותתים למנועי החיפוש שהאתר שלכם הוא יצרן התוכן, ולא האתר המפיץ את התוכן שלכם. כל מי שמשתמש בתוכן שלכם בלי לתת לכם לינק בתמורה - מפר את תנאי הסינדיקציה שלכם (דוגמה: אתר articles.co.il).

  • אם תוכן כלשהו נכנס לארכיון ולכן אינו נגיש עוד - יש סיכוי סביר שהעתקת התוכן הזה לאתר אחר לא תיצור את הרושם שהוא הועתק (גם כאן יש בעיות של זכויות יוצרים)

  • גרסאות להדפסה של כתבות ומאמרים הן למעשה תוכן משוכפל, למרות שהן מעוצבות קצת אחרת בשביל להתאים למדפסת. אפשר לחסום אותן בעזרת הוספת משתנה מיוחד בקובץ "רובוטוס-טקסט" שלכם.

  • דפים ריקים מתוכן: באתרים דינמיים רבים (חנויות, קטלוגים וכד') נוצר מצב של עמודים ריקים מתוכן, כאשר מוצר או שירות מסוימים פשוט אינם זמינים לתקופה מסוימת. כדי למנוע מצב זה, יש לבצע בקרה שוטפת אחרי עמודים ריקים שכאלה, ולמחוק אותם באופן זמני עד לעדכון הבא.

  • כתבות שירדו לארכיון: אם עיתון מקוון בחר להעביר את הכתבות הישנות שלו אל הארכיון, ולא להציג אותן ברשת, העתקה של תכנים ארכיוניים אלו יכולה להיחשב "תוכן מקורי", לכאורה; אך כאן יש שתי בעיות: א) אם אתם יכולים להעתיק, אז כל אחד אחר יכול להעתיק - ואז שוב תמצאו את עצמכם במאבק אבוד-מראש; ב) עיתונים נוטים לתקוף מהר את כל מי שמעתיק את התכנים הארכיוניים שלהם, והסיבה לכך פשוטה: הם גובים כסף תמורת התכנים הללו. לכן לא כדאי להסתבך גם עם תכנים ארכיוניים, במרבית המקרים.


  • אם העתיקו מכם: לא צריך לדאוג יותר מדי, במיוחד כאשר מדובר באתר בעל איכות כללית נמוכה, אתר חדש ברשת או אתר מפוקפק מעצם טבעו, שאין בו הרבה מבקרים. "סקרייפרים" (Scrapers) נענשים בסופו של דבר, או פשוט לא מקבלים מיקומים ריאליים. בכל מקרה, תמיד אפשר לשלוח מכתב מאיים של עו"ד.


תכנים מועתקים במיוחד

באינטרנט קל להיתקל שוב ושוב בתכנים מועתקים כמו:

  • כתבות מגזין
  • חדשות
  • ערכי אנציקלופדיה (כמו ויקיפדיה)
  • מסמכים משפטיים
  • תמונות
  • מילוני מונחים
  • מתכונים
  • מידע רפואי
  • נאומים היסטוריים
  • ציטוטים ופתגמים
  • בדיחות
  • ספרים קלאסיים
  • קטעי וידאו קצרים
  • הודעות לעיתונות


דופ-פילטרים, מסנני העתקה וכל הג'אז הזה

בשפתם של העוסקים בתחום, ה"דופ-פילטר" (Dup-filter) הוא הרובוט שאמור לאתר כפילויות ולחסל אותן במהירות. זהו "דופ" מלשון "דופליקט" (Duplicate), שהוא למעשה שיכפול או העתק. הפילטרים הללו הם חלק קטן מתוך בקרת האיכות הקפדנית של מנועי החיפוש המובילים, ובלעדיהם יתנפח מאגר העמודים הסרוקים של מנוע החיפוש באינספור כפילויות מיותרות של תוכן איכותי.

דופ-פילטר אופייני יבדוק מבנה של פסקאות, שימוש במילות מפתח, אורך של עמוד, אופי קידוד דומה, שימוש בכותרות זהות עבור תוכן דומה, טקסט של לינקים ("אנקור-טקסט" / "עוגן-טקסט") -- ובסופו של דבר יערוך השוואה כמותית ואיכותית שתקבע מי המקור, מי מעתיק, מי יישאר באינדקס ומי יחוסל. במקרים מסוימים, גם המעתיקן ייסרק ויופיע בתוצאות, אבל לא יקבל מיקום גבוה -- כמובן בהשוואה לעמוד שנחשב ל"מקורי".

דופ-פילטרים נוטים להסתמך על קישורים כמדד מרכזי בקביעת "מי המקור הסמכותי" לעומת "מי המעתיקן הקטן והמסכן". אם רוב האתרים ברשת מפנים לכתבה חשובה של מגזין ידוע, ורק קומץ מפנים לכתבה מועתקת של מגזין נידח -- הרי שה"דופ-פילטר" יקבע שהמקור הוא המגזין הידוע, וזאת למרות שהתוכן עצמו הוא זהה כמעט לחלוטין. לא רק כמות הקישורים קובעת, אלא איכותם -- מקורות סמכותיים נוטים לקשר אל מקורות סמכותיים אחרים, ולא להתייחס למעתיקנים.


אבל כל כך קל להעתיק...

אין ספק שהעתקת תכנים, במיוחד באינטרנט, היא פיתוי שקשה לעמוד בפניו. כל כך לבצע "קופי-פייסט", עד שרבים מן האתרים ברשת אינם מצליחים להתאפק. כבר נתקלתי במקרים שבהם אתר כלשהו העתיק מאות מאמרים של עיתונים בעלי מוניטין, ולא הבין מדוע הגולשים אינם נוהרים אל האתר שלו (רמז: הם יכלו למצוא את התוכן בגרסתו המקורית בלי שום בעיה).

בטווח הקצר, העתקה של תכנים טובים עשויה להיחשב טקטיקה יעילה (אם אף אחד לא תובע אתכם). אך ככל שעובר הזמן, מנועי החיפוש רק הולכים ומשכללים את טכניקות ההגנה שלהם מול תכנים מועתקים, משוכפלים, מיותרים ולעתים אף עברייניים.

תוכן מקורי הוא בעל-חיים שנמצא בסכנת הכחדה מתמדת. תמיד יכול לבוא "טורף מעתיקן" שירצה להעתיקו, ובכך לסכן את שני הצדדים: התוכן המקורי עשוי להיחשב מועתק (למרות שהיה שם קודם), והאתר המעתיק יכול לחטוף עונש (אם מנוע החיפוש פועל בחוכמה).

לעתים רבות, תוכן מועתק אינו מתגלה על ידי יוצרו, והמעתיק יכול להנות מן ההעתקה לאורך תקופה ארוכה. בינתיים, המעתיק יכול להנות מחשיפה מוגברת לפרסומות, תנועה מוגברת באתר ואף רווחים כתוצאה ממכירת מוצרים ושירותים. פנייה לערכאות משפטיות עשויה להימשך שנים, אם בכלל ניתן לעשות זאת מבחינה טכנית (אם המעתיקן נמצא במדינה אחרת - קשה מאוד לתבוע).

אם האתר המקורי נותן קישור לאתר המעתיק, כפי שקורה לעתים בין אתרים שותפים או אתרי סינדיקציה, מנועי החיפוש עלולים לחשוד שקיים שיתוף פעולה "זדוני" בין שני האתרים. במקרה שכזה, מנוע החיפוש יכול להעניש את האתר המקשר (לאתר המועתק) באמצעות הסרה מן האינדקס. זה מה שקרה, ככל הנראה, בפרשת אולג'ובס, כאשר גוגל גילה כי אולג'ובס העלתה קישור אל גרסה משוכפלת של אתר אולג'ובס באתר אחר (yad2). בעיני גוגל, אולג'ובס היתה מודעת לשיכפול האסור, ואף ניסתה לעודד את השיכפול. לכן נענשה.


סייט-סקרייפרים ("גורדי-אתרים" או "גורפי-אתרים") הם דוגמה מכוערת במיוחד להעתקה אוטומטית, רובוטית וסיטונאית של תכנים מבוקשים במיוחד. התופעה בולטת במיוחד בארה"ב, שם קיימות תוכנות זדוניות שכל מטרתן היא "לגנוב" תכנים פופולריים, ליצור אתרים פיקטיביים, למלא אותם בפרסומות טקסטואליות ולהרוויח כספים. יש כאלה שטוענים שמנועי חיפוש הם למעשה ה"סקרייפרים" המובילים, אבל לרוב מדובר באתרים 'חשאיים' שאינם מסייעים כלל לאתרים המועתקים.

טכניקה יעילה להגנה ארוכת-טווח על תוכן מקורי היא הטבעת סימנים מזהים בגוף הטקסט. אם ברצונכם להגן על התוכן שלכם מפני מעתיקנים, הקפידו לנסחו כך שכל מעתיקן ייאלץ לשכתב אותו בצורה מקיפה, או שהתוכן יפורק לחלקים קטנים כך שיהיה קשה להרכיבו-מחדש לעמוד אחד ארוך. שילוב אלמנטים אישיים, מוכווני-זהות (שמות, סגנון, תאריכים, מותגים), לאורך הטקסט, גם הוא מקשה על עבודתם של מעתיקנים אנושיים או רובוטיים.


החטא ועונשו

כאמור, תכנים מועתקים לרוב "נענשים" בכך שהם מקבלים 'ציון נמוך' בעיני רוב מנועי החיפוש. כאשר גולשים מחפשים אחרי תכנים המופיעים בעמוד המועתק, האתר שנחשב 'מעתיקן' לא מופיע בתוצאות הראשונות, ואת רוב התנועה מקבלים האתרים הסמכותיים.

במקרים אחרים, מתקיימות תופעות מקבילות:

  • אתרים 'מעתיקנים' מצליחים להערים על מנועי החיפוש, וליצור את הרושם שהם-הם המקור הסמכותי -- ובכך הם אפילו "עוקפים בסיבוב" את האתרים שיצרו את התוכן
  • 'מעתיקנים סדרתיים' נענשים בצורה החמורה ביותר - הם נמחקים מן האינדקס ולא מופיעים באף תוצאת חיפוש, אפילו אם העתיקו תכנים נדירים במיוחד
  • אתרים מקוריים נענשים במקרים נדירים שבהם הם שיתפו פעולה עם ההעתקה, ועודדו אותה


האם מותר להעתיק תכנים של אתר מפורסם ולתת לינק בתור קרדיט?

מבחינה משפטית, התשובה היא לא. חד וחלק. חוק זכויות יוצרים אוסר זאת, במיוחד כאשר מדובר בהעתקה שמטרתה היא הפקת רווח כלכלי, או כל טובת הנאה מסחרית אחרת.

בפועל, אתרים רבים ברשת נוהגים לעשות זאת - מתוך ידיעה שהאתרים המקוריים יגרפו רווח כפול: א) הם קיבלו קישור חיצוני שרק יגביר את המוניטין שלהם; ב) בכל מקרה האתרים המקוריים יופיעו ראשונים בתוצאות החיפוש, ולא המעתיקנים. המודל הזה עובד טוב עבור ה'מקוריים', ולכן הם אינם נוטים לרדוף אחרי 'מעתיקנים' שהוסיפו 'קישור עמוק' היישר אל העמוד המקורי.


גן עדן להיסטוריונים

נדמה שההעתקה הלגיטימית היחידה היא זו שמעבירה טקסט "קלאסי" -- טקסט שפגה הגנת זכויות היוצרים עליו, כיוון שעברו לפחות 70 שנה מאז שהסתיימו חייו של יוצרו המקורי. טקסט כזה מעולם לא הופיע באינטרנט - ופורסם לראשונה באתר בעל מוניטין מינימלי, שאותו מכירים מנועי החיפוש.

העתקה שכזאת נחשבת, לפחות באינטרנט, כ"הקמה לתחייה" של תוכן בעל משמעות שעד כה לא הופיע ברשת העולמית. "גאולה" של טקסטים עתיקים אינה סובלת מבעיות של זכויות יוצרים, ומוסיפה אל מאגר הידע האנושי. היסטוריונים אולי יאהבו להציל טקסטים ישנים מן השיכחה, ואף יהנו מן העובדה שמנועי החיפוש יתלהבו ממנו, אבל מסתבר שרוב הגולשים מעדיפים תוכן רענן, חדשני, עדכני ורלוונטי לחיינו המודרניים.

עוד בנושא:

איך לטפל במקרה של תוכן מועתק

הוסף רשומת תגובה
כל הזכויות שמורות לבלוג חופש החיפוש 2007-2012