Jestem całkowitą nowicjuszą do kodowania, ale zastanawiam się, że najłatwiejszy sposób wygenerowania tabeli z danymi liczenia GREP.

Mój plik wyjściowy Grep wygląda tak:

AAR34355.1
./006D_id70.m8:0
./20D_id70.m8:0
./28D_id70.m8:0
AAR38850.1
./006D_id70.m8:0
./20D_id70.m8:2
./28D_id70.m8:4
A13520.1
./006D_id70.m8:0
./20D_id70.m8:0
./28D_id70.m8:0

Potrzebuję wyjścia, aby wyglądać bardziej w ten sposób:

            ./006D_id70.m8    ./20D_id70.m8    ./28D_id70.m8
AAR34355.1         0                0                 0
AAR38850.1         0                2                 4
A13520.1           0                0                 0

Lub przynajmniej ograniczony odpowiednik.

Wybacz mój opis, ponieważ jestem w tym dość nowy.

Czy istnieje stosunkowo prosty sposób formatowania danych w ten sposób?

7
JJV 18 marzec 2020, 12:22

2 odpowiedzi

Najlepsza odpowiedź

Możesz to zrobić wszystko w awk, nie ma potrzeby przekształcania produkcji GREP. Zakładając, że wzorce do wyszukiwania są wymienione w pliku o nazwie {x0}}, a pliki do wyszukiwania w są file1, file2 i file3; Kopiuj i zapisz następujący blok kodu w pliku o nazwie {x4}},

NR == FNR {
  pat[NR] = $0
  next
}

FNR == 1 {
  fil[c++] = FILENAME
}

{
  for (i in pat)
    if ($0 ~ pat[i])
      mat[FILENAME, pat[i]]++
}

END {
  for (i in fil)
    printf "\t%s", fil[i]

  print ""

  for (i in pat) {
    printf "%s", pat[i]

    for (j in fil)
      printf "\t%d", mat[fil[j], pat[i]]

    print ""
  }
}

I biegnij

awk -f tst.awk patterns file1 file2 file3

Próbny:

$ seq 5 > file1
$ seq 3 7 > file2
$ seq 5 9 > file3
$ seq 3 2 7 > patterns
$ awk -f tst.awk patterns file1 file2 file3
        file1   file2   file3
3       1       1       0
5       1       1       1
7       0       1       1
1
oguz ismail 18 marzec 2020, 11:50

Najpierw skrypt OP, ale w większej formie przyjaznej czytelniku

#!/bin/bash
while read   protein; do
    echo    $protein
    grep -c $protein ./*.m8
done < test_just_IDs.txt

Da

$ ./test
AAR34355.1
./006D_id70.m8:0
./20D_id70.m8:0
./28D_id70.m8:0
AAR38850.1
./006D_id70.m8:0
./20D_id70.m8:2
./28D_id70.m8:4
A13520.1
./006D_id70.m8:0
./20D_id70.m8:0
./28D_id70.m8:0

A jeśli trochę go zmodyfikujemy

#!/bin/bash
printf "\t"; ls ./*.m8
while read   protein; do
    printf "$protein\t"
    printf "%s\t\t" $(grep -hc $protein ./*.m8)
    echo
done < test_just_IDs.txt

Daje pożądane wyjście

$ ./test
        ./006D_id70.m8  ./20D_id70.m8  ./28D_id70.m8
AAR34355.1      0               0               0       
AAR38850.1      0               2               4       
A13520.1        0               0               0

I z czymś takim (dla zakładki 8)

#!/bin/bash
line='%16s';        printf "\t\t"
for file in *.m8; { printf "| %s\t" $file; line+='+%15s'; }
while read   protein; do
    printf "\n$line\n" | tr " " "-"
    printf "$protein\t"
    printf "|\t%s\t" $(grep -ch $protein *.m8)
done < test_just_IDs.txt

Dostaniemy prawdziwy wygląd

$ ./test
                | 006D_id70.m8  | 20D_id70.m8   | 28D_id70.m8   
----------------+---------------+---------------+---------------
AAR34355.1      |       0       |       0       |       0   
----------------+---------------+---------------+---------------
AAR38850.1      |       0       |       2       |       4   
----------------+---------------+---------------+---------------
A13520.1        |       0       |       0       |       0
0
Ivan 19 marzec 2020, 10:19