0

2つのファイルの共通部分を抽出

◆2つのファイルの共通部分を抽出

やり方
2つのファイルをソートする(結果をユニーク処理してはいけません)
uniqコマンドを使って、繰り返されている行だけを抽出します。
sort a b | uniq -d
重複行をカウントする方法

重複行をカウントするには、
sortコマンドとuniqコマンドの結果を wc コマンドでカウントするだけです。
sort a b | uniq -d |wc -l これで、2つのファイルの共通する行の個数を調べることができます。

注意事項

それぞれのファイルがユニークなデータでないといけません。
a(またはb)に重複があるとそれも重複部分としてみなされてしまいます。

つまり
sort -u a > a2
sort -u b > b2
sort a2 b2 | uniq -d |wc -l と処理しなければなりません。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です