どうも、ノマドクリエイターのショウヘイ( @shohei_creator )です。
あなたがクラウドワークスやランサーズなどで記事の制作を受注しているなら、ほぼ間違いなく、依頼者から「記事の一致率を下げてください」と指示されたことがあるでしょう。
かくいう私も、その1人です。記事の一致率を下げるための作業に、かなり苦労させられました。ほんの数%の一致率を下げるために、あれこれ試行錯誤していて、気がついたら 30 分以上も時間が経っていた……なんてことも珍しくありません。
打った文字数が報酬額に直結する Web ライターにとって、記事のコピペチェック回避に手間取ることは、なるべく避けたいですよね?
そこで、今回の記事では、最もコピペチェックで使われているであろう無料ツール「 CopyContentDetector 」を具体例に挙げて、記事の一致率を下げるためのコツを紹介して行きます。
クラウドソーシングの記事制作で、より多くの報酬を稼ぐためには、短時間で記事を納品していくことが必須です。
記事の一致率を下げるコツをつかんで、今よりも効率よく記事制作で稼いでいきましょう!
CopyContentDetector とは
CopyContentDetctor とは、誰でも無料で利用できる高性能のコピペチェックツールです。
CopyContentDetctor の運営元は、 Web についてのマーケティングやコンテンツ制作を専門とする株式会社ウェブサークルです。
CopyContentDetector の魅力の1つは、無料で何度でもコピペチェックが使えることです。
しかも、コピペチェックを利用するときに、メールアドレスを入力するような会員登録も必要ありません。
この手の無料ツールは、有料版と差別化するために、ツールの利用可能数を制限していることが多いです。たとえば、1日5回まで……といった感じですね。
また、利用の前に会員登録をすませなければいけないことも多く、どうもツールを使うまでのステップが面倒くさいです。
CopyContentDetector には、そういったことが一切ありません。誰でもすぐにコピペチェックを利用できます。すごく良心的なツールです。
しかも、これでコピペチェックの性能も高いのですから、至れり尽くせりですね。
「コピペチェック」でキーワード検索して、堂々の1位に表示される結果にも納得です。
CopyContentDetector の無料版と有料版の違い
CopyContentDetector には、無料版と有料版(税抜で月額 980 円)があります。
「有料版もある」と聞くと、無料版でもストレスなく使えるのか、ちょっと心配になりますよね?
結論から言うと、普通の Web ライターがコピペチェックを利用する分には、無料版でも充分です。
先に触れたように、無料版でも、回数無制限でコピペチェックを利用できます。
CopyContentDetector の有料版で得られるメリットは、以下の通りです。
- コピペチェック対象の登録文字数の上限は、 8000 文字まで拡大
- 補足:無料版は、 4000 文字までです。
- コピペチェックが終わるまでの待機時間が短くなる
- 補足:無料版でも、そこまで待機時間は気になりません。よほど混雑していなければ、5分が終わることが常です。
- コピペチェック結果の判定基準を任意に設定できる。
- 補足:無料版は「良好・要注意・コピーの疑い」の3つの判定がなされます。この3つだけでも、これといって不自由しません。
- サイトの広告が非表示になる
- ワードファイル( .dox )のデータをアップロードする方式でも、コピペチェックできる。
- 特定のドメインを指定して、入念にコピペチェックできる。
- 専用の WordPress プラグイン「 CopyContentDetector 」が利用できるようになり、 WordPress 上でコピペチェックが簡単にできるようになる。
CopyContentDetector の使用制限について
無料版の CopyContentDetector を使っていて感じる使用制限は、登録できる文字数くらいです。
無料版でも 4000 文字まで登録できるのですが、 SEO を意識した長文の記事を書いたときには、余裕で 4000 文字を超えてしまいます。
私の場合であれば、 4000 文字を超えた記事については、記事の半ばにある見出しを境にして、記事を前後半に分けます。そして、それぞれをコピペチェックします。
記事の前後半の一致率から、記事全体の一致率を大まかに予想できます。依頼者が指定する一致率(たとえば 50 %以内)を下回っていそうなら、そのまま依頼者に提出して、精査をお願いしています。
今のところ、この方法で記事を納品していて、問題が起きたことはありません。
CopyContentDetector の評判と制度の高さ
CopyContentDetector について紹介している他サイトを見て回ってみても、「 CopyContentDetector の分析精度は高い!」と評価している人が大半です。
私自身、 CopyContentDetector を使っていて「無料のわりには超高性能だな」と感心しています。
たとえば、下の画像は、自分のブログ記事を一部だけ改変(単語の言い換えや語尾の言い回しの変更など)して、コピペチェックしてみた結果です。
類似度判定は 60 %、一致率は 78 %となり、見事にコピペが基本の文章だとバレました。
下の画像は、一致率についての詳細な分析結果です。元記事と重複している部分は、赤マーカーで強調表示されています。
単語を言い換えた「デスクワーク(元:頭脳労働)」や「グルコース(元:ブドウ糖」、そして言い回しを変更した一部分をのぞいて、ほぼ真っ赤に染まっていますね。
コピペしたままの部分でも、赤くマーキングされていない場合がチラホラと散見します(冒頭の挨拶など)。まあ、無料で利用できるコピペチェックツールとしては、充分すぎる精度には変わりありません。
CopyContentDetector の利用は危険なのか
ネットビジネスに便利な無料ツールと聞くと、何か裏があるのではないか(ウィルスを仕込まれるなど)と危険視する人も多いでしょう。
ただし、 CopyContentDetector については、危険性を疑う必要はないと思いますね。
1つ目の理由は、ツールを利用するために、メールアドレスなどを使って会員登録する必要がない点です。
これは、あとで商品販売のためのダイレクトメールを送ったり、業者にメールアドレスを販売したりするつもりがない証拠ですね。
2つ目の理由は、キャッシュポイントが明確であることです。
高性能なツールをわざわざ無償で提供するということは、どこかにキャッシュポイントがあることが自然です。
サイトを見た感じでは、広告と有料版にて利益を得ていることがうかがえます。怪しげな商材の誘導などは、特に見当たりませんね。
3つ目の理由は、運営元(株式会社ウェブサークル)が明確であることです。これが最大の根拠ですね。
名実ともに存在する企業であれば、もしも企業についての悪評が流れでもしたら、社会的に抹殺されます。信用の失墜は、経営不振……ひいては倒産につながります。
きちんと身元を明かしているということは、サイトを公正に運営する意思の表れですね。
CopyContentDetector の使い方を手順つきで分かりやすく解説!
それでは、 CopyContentDetector の使い方について、詳しく解説していきます。
使い方が分かりやすいように、画像を多く使って、1つ1つの手順を示していきますね。
コピペチェック手順1: CopyContentDetector のサイトを開く
まずは、 CopyContentDetector のサイトを開いておきましょう。
サイトを開いたら、少しだけ下にページをスクロールして、【文章を登録】という欄を表示してください。コピペチェックの文章登録などは、ここでおこないます。
色々と設定できるところがありますが、主に操作する部分は、赤枠で囲った【調査対象テキスト】と【チェックする】のみです。
コピペチェック手順2:調査対象テキスト欄に、コピペチェックしたい文章を入力する
それでは、調査対象テキスト欄に、あなたがコピペチェックしたい文章を入力しましょう。
すでに記事ができているなら、その内容を調査対象テキスト欄にコピー & ペーストしてください。
記事の内容をコピー & ペーストしたら、調査対象テキスト欄の下にある「現在の文字数」を確認してください。
無料版の場合は、最大で 4000 文字しか登録できないので、注意しましょう。
記事の内容が 4000 文字を超えてしまっている場合は、記事を前半・後半に分けるなど、いくつかに分けてコピペチェックしてください。
調査対象テキスト欄は、 HTML タグ……たとえばヘッダータグ「 h2/h3/h4 」や画像タグ「 img src=”https://example.com/image/abc”」といった英数字も、1文字ずつ数えてしまいます。
登録文字数が 4000 文字を少し超えてしまった場合は、 HTML タグは取りのぞいてみてください。 4000 字以内に収まるかもしれません。
コピペチェック手順3:除外ドメインの設定の有無
コピペチェックの細かな設定の1つとして、除外したいドメインを指定できます。
除外ドメインに設定したサイトは、文字通り、コピペチェックの比較対象から外されます。
自分が新規に作成した記事をコピペチェックしたい場合は、除外ドメイン欄は、未設定にしてください。
除外ドメイン機能の使いどころは、「自分がすでに公開している記事のコピペ率を確認して、記事の改善の手がかりをつかむことで、検索順位の上昇させたり、 GoogleAdwords の審査を通したりしたい」という状況ですね。
早い話が、すでに公開している記事の質を向上させたい場合です。
CopyContentDetector は、すでにインターネット上に公開されている記事と比較して、登録された文章のコピペ率をチェックします。
つまり、すでに自分が公開している記事の文章を登録すると、その記事もコピペチェックの比較対象になります。すると、コピペチェック結果は「この文章はコピペ率が高い!」と判断してしまいます。
そこで、すでに公開している記事を改善したい場合は、その記事のドメインを除外対象に指定する必要があるわけですね。
私が自分のブログの記事を改善したい場合であれば、除外ドメイン欄に「 https:// ノマドクリエイター .net 」と入力すればいいわけです。
これで、自分のブログの全記事がコピペチェックの比較対象から外されます。
コピペチェック手順4:その他の細かな設定
先ほど説明したドメイン除外の他にも、細かな設定項目があります。
ただし、これらの設定項目は、特に変更する必要はありません。初期状態のままにしてください。
- 言語モード
- クロールチェックの省略
- 二回検索実行
- 改行をすべて削除してチェック
- テキスト間チェック省略
コピペチェック手順5:チェックを実行する
手順1~4で、コピペチェックのための準備は整いました。
それでは、【チェックする】をクリックしましょう。
ウェブブラウザの上部に確認ウィンドウが表示されるので、【 OK 】をクリックします。
ページが更新され、コピペチェックが開始されたことを知らせる表示が出ます。
コピペチェックしたい文章量と待ち行列(他にいるツール利用者の数)によりますが、基本的に3分以内にチェックが完了します。長くても5分です。
どれくらい待ち行列が長いかについては、ページの下部にバーとして表示されている【システム状況】から確認できます。「待ち」が多ければ多いほど、自分のコピペチェックが終わるまでに時間がかかります。
コピペチェックが完了すると、ウェブブラウザの右上に、通知ウィンドウが表示されます。また、ブラウザタグにも、完了を知らせる表記が出ます。
コピペチェック結果を表示するためには、いったんページを更新する必要があります。
ウェブブラウザの更新ボタンをクリックするか、あるいはキーボードの F 5を押しましょう。
コピペチェックの結果は、ページの半ばに表示されています。
CopyContentDetector のコピペチェック結果の見方
コピペチェックが完了したところで、分析結果の見方について解説していきます。
コピペチェックの分析は、「類似度判定・一致率判定・テキスト判定」の3項目によっておこなわれています。
判定結果は、「良好・要注意・コピーの疑い」のいずれかに振り分けられます。
まずは、チェック結果の概要にて、それぞれの判定項目がどのようになったのかについて確認しましょう。
下の画像では、「今あなたが見ている この記事」のコピペチェックの結果を表示しています。
どうやら、今のところ、一致率判定が 52% の「要注意」になっていますね。
もしも、あなたが書いた記事の「判定結果または判定値」が、依頼者の希望を満たしていなかった場合は、文章の内容を改善する必要があります。
その場合は、コピペチェック結果の概要の右に表示されている【詳細表示】をクリックして、詳細な分析結果を確認しましょう。
分析結果の詳細ページでは、「類似度判定詳細・一致率判定詳細・連続文字数一覧・テキスト間判定詳細・簡易文章校正・クロール判定詳細」の6項目が用意されています。
それぞれの項目をクリックすることで、該当する分析結果の表示が切り替わる仕組みです。
なお、あなたが見るべき項目は、「類似度判定・一致率判定・連続文字数・簡易文章校正」の4項目で充分です。
それでは、分析結果を詳しく見ていきましょう。
CopyContentDetector の類似度判定の詳細
類似度判定では、登録した文章に「意味合いが似ている文章」をチェックします。
意味合いの観点から似ている文章を探し出すので、「文章の一致を回避するための小細工なリライト」を検知したい場合にも役立ちます。
外部サイトの記事と似ている文章は、マーカーで強調表示されます。
類似度を示すマーカー色は、低い度合いから高い度合いに向かうにつれて、青色→黄色→赤色に変わります。
青色:文章の意味合いが似ているが、コピーの可能性は低い。
黄色:文章の意味合いが似ており、コピーの可能性が疑われる。
赤色:文章の意味合いが酷似しており、コピーと考えてよい。
基本的には、黄色と赤色でマーキングされた文章については、書き直すことをオススメします。
なお、「固有名詞」や「専門用語の定義の説明」のように「誰が書いても同じような文章になる」部分については、特に修正する必要はありません。
マーカー表示されている文章の左端にある記号▼をクリックすると、類似判定された外部サイトの文章が表示されます。
どのような文章が似てしまったのか確認して、類似度が下がるように書き直していきましょう。
CopyContentDetector の一致率判定の詳細
一致率判定では、登録した文章のうち、外部サイト記事の文章が一致する部分がチェックされます。
この一致判定の対象は、名詞や動詞の一致に始まり、いわゆる「てにをは」や語尾の「です・ます」など、細かな語にまで及びます。
一致率判定では、上部に参照元のサイト情報、下部に一致している語が赤くマーキングされた状態で表示されます。
下の画像のように、「と」や「こと」など、1~2文字単位でも一致扱いとされていることが分かりますね。
Web ライターにとって、一致率判定は、最も厄介な判定と言えるでしょう。自分がコピペする気が無かったとしても、高い一致率が出てしまう場合があるからです。
私自身、この一致率を下げるために、最も修正時間を費やしています。
そこで、 CopyContentDetector の一致率を下げるコツについて、いくつか紹介します。
CopyContentDetector の一致率を下げるためのコツ
CopyContentDetector の一致率は、 50% から「要注意」として扱われます。
依頼人が「記事の一致率が良好」になっていることを希望するのであれば、 49% 以下を目指して修正していきましょう。
CopyContentDetector の一致率を下げるための本質は、次の2つです。
これらの本質を踏まえたうえで、これから紹介するコツを試してみてください。
- 赤くマーキングされた語を別の言葉に置き換えたり、あるいは削除することで、一致数そのものを減らす
- さらなる情報を追加して、記事の網羅性を高めることにより、一致率の計算に使われる母数(合計の文字数)を増やす
括弧に使っている記号を別の括弧に置き換える
特定の単語を強調したいときに、鍵括弧「」で囲む人は多いでしょう。また、何か補足したいときに、丸括弧()を使うことも多いでしょう。
しかし、一般的なやり方だからこそ、括弧記号が一致率を上げる一因になってしまいます。
たとえば、下の画像のように、鍵括弧が一致判定されています。
こういった場合は、別の鍵括弧である『』や【】に置き換えることで、一致率を下げられます。
こそあど(指示語)を削りとる
この・その・あの・これ・それ……というような指示語は、特定の言葉の代わりとして、広く使われています。
しかし、汎用性が高いからこそ、一致率を高める一因になっています。
たとえば、下の画像では、指示語「その」が一致判定されています。こういった指示語は、なるべく元の名詞に置き換えていきましょう。
漢字・カタカナ・ひらがなに交換してみる
漢字を開いて ひらがな表記(あるいはカタカナ表記)にしてみたり、逆に ひらがなを閉じて漢字にしてみたりすることでも、一致判定を回避できます。
たとえば、下の画像では、「できる」という部分が一致判定されています。これを「出来る」に変換すれば、一致率を下げられます。
その反対に、ひらがな表記を閉じて漢字にするのも1つの手です。
下の画像では、語尾の「ください」が一致判定されています。そこで、あえて「下さい」と漢字変換することで、一致判定を和らげます。
類義語に置き換える
多くの一致判定を受けている語については、類義語に置き換えてみましょう。
たとえば、下の画像であれば、「使用」が一致判定されています。
「使用」の類義語には、常用されているものなら「使う・用いる・利用」などが挙げられます。
類義語に置き換えるときは、非常用の語は使わないようにしましょう。
記事が読みづらくなるので、読者にストレスを与えてしまい、離脱率を高めてしまいます。ひいては、検索順位の低下を招きます。
記事の網羅性を高める
記事の文字数そのものを増やすことで、一致率判定の計算に使われる母数を増やして、相対的に一致率を下げる方法です。
SEO としても、 Web ライターの姿勢としても、最も好ましい対処法だと思います。
記事の網羅性を高めるためには、記事づくりの根底である「読者は何を求めているのか?」を詳しく掘り下げることが必要です。
ただし、一般の Web ライターが記事づくりするときには、すでに Google のサジェストキーワードや関連キーワードは、下調べしていることでしょう。
自分の最善を尽くして努力しているなら、追加すべき情報が思いつかないことの方が多いのではないでしょうか。
そんな場合には、入力されたキーワードに対して、ひらがな 50 音とアルファベット 26 文字などの「初めの1字」を加えた複合キーワードも一括で調べられる関連キーワード取得ツール(仮名・β版)がオススメです。
関連キーワード取得ツール(仮名・β版)にて、たとえば「 Web ライター」と入力して、関連キーワードを取得するとしましょう。
すると、通常の関連キーワードに加えて、「 Web ライター あ」や「 Web ライター a 」といった複合キーワードの関連キーワードまで、一括で表示してくれます。
ひらがな五十音・アルファベット 26 文字から始まる複合キーワードまで調べ上げれば、今の記事に追加すべき情報が見えてきやすくなります。
記事の網羅性を高めることは、 SEO のための有力な手法です。依頼人としても、検索順位が上がりやすい記事が納品されることは、望むところでしょう。
記事の一致率を下げるための方法として、記事の網羅性を高めることにも取り組んでみてください。
CopyContentDetector の連続文字数の一覧
連続文字数の一覧は、文字が連続して完全一致している部分を強調しています。
一致判定と似ていますが、あくまでも「完全に連続して一致している部分」が表示されます。
文字の連続一致については、「 15 文字以上の連続」が見られた場合に、要注意として黄色マーキングされます。
恐らく、「 25 文字以上の連続」が見られた場合には、コピーの疑いが高いとして赤色マーキングされます。
連続文字一致の回避方法は、きわめて簡単です。1文字だけでも変えれば、それだけで連続性が失われるからです。
たとえば、ちょっと読点「、」を加えてみたり、強調した語を鍵括弧で囲んだり、類義語に置き換えたりするだけで、すぐに良好判定に変わります。
CopyContentDetector の簡易文章校正
CopyContentDetector には、 Yahoo! の校正支援 API を利用した文章校正機能もついています。
コピペチェックしたついでに、こちらで誤字脱字や助詞の不足などを確認しておきましょう。
私の場合であれば、 CopyContentDetector の文章校正機能の他にも、日本語校正サポートや Enno を使って、文章に誤りがあるかどうか確認しています。
最後に、目視で記事を精読します。特に問題がなければ、依頼人に記事を納品するようにしています。
CopyContentDetector のテキスト判定が 100% に近い数字を叩き出した場合の対処法
あなたが CopyContentDetector を使っていると、もしかしたらテキスト判定で 100 %に近い異常値に遭遇することがあるかもしれません。
でも、安心してください。
あなたが悪いわけではありませんし、すぐに解決できます。
テキスト判定は、「あなたが今までコピペチェックしてきた文章と比較して、どれくらい文章が一致するのか」を測定したものです。
つまり、同じような文章を2回以上コピペチェックしたことで、テキスト判定で 100 %に近い数字が出てしまっているだけです。
対処法は、とても簡単です。
すでにコピペチェックした文章についての履歴データを削除するだけです。
まずは、コピペチェック結果の一覧を表示してください。
それぞれのチェック結果の左端( ID 番号の左側)に、チェックボックスがあります。これをクリックして、チェックをつけます。
次に、ページを少し下にスクロールします。すると、チェックしたデータに関する操作アイコンが表示されています。
右端にある【選択をすべて削除】をクリックすれば、チェックした履歴データが削除されます。
これで、またコピペチェックしたときに、テキスト判定が 100% に近い異常値を表示しなくなります。
同じような文章をコピペチェックするときは、こまめに過去の履歴データを削除するようにしてください。
Cookie で履歴データを保存しているようなので、シークレットブラウザを使えば、ブラウザを閉じたときに履歴データも削除されます。
ただし、履歴データ削除のたびにシークレットウィンドウを開閉するのも面倒なので、私は手動でデータ削除しています。いちいち CopyContentDetector のサイトを開く手間も省けますから。
もしくは、テキスト判定の結果は、無視して構いません。
あくまでも履歴データとの比較なので、実際のコピペ問題とは、特に関係ないからです。
まとめ
この記事の内容のまとめです。
- CopyContentDetector は、無料で使えるコピペチェックツールの中で、最も人気が高い。誰でも無料で使えるにもかかわらず、1日の使用回数に上限はなく、コピペチェック精度に優れている。無料版でも十二分に使える。
- CopyContentDetector で注目すべき判定結果は、類似度判定・一致率判定・連続文字数の3つのみ。
- 一致率判定は、1~2語単位の語も判定対象になっているので、コピペする気が無かったとしても、高い数値が出てしまう場合がある。
- 対処法1:括弧記号を別の括弧記号に置き換える
- 対処法2:「これ」や「それ」といった指示語を削りとる
- 対処法3:漢字・カタカナ・ひらがなに交換してみる
- 対処法4:類義語に置き換える
- 対処法5:記事の網羅性を高めることで、一致率判定の計算に使われる母数(合計文字数)そのものを増やす
- CopyContentDetector のテキスト判定が 100% に近い異常値を出した場合は、以前にコピペチェックしたときの履歴データを削除する。あるいは、テキスト判定を無視する。