출처 : https://kimdoky.github.io/python/2017/06/14/python-robots.html



크롤러를 만들기 전에 알아야 할 사항

웹페이지의 내용을 가져 오는 것을 크롤링(Crawling) 또는 스크래핑(Scraping)이라고 합니다.
가져와야 할 페이지들이 많은 경우, 구글이나 네이버, 다음과 같은 검색 엔진 사이트들은 검색 속도를 높이기 위해 robot 이라는 프로그램을 만들어서 자동으로 웹 페이지들을 크롤링하는 방법을 사용합니다.

그런데 개인 정보가 들어있는 사이트들은 크롤링이 안 되도록 막고 싶을 수 있습니다. 그래서 무분별한 크롤링을 막고 제어하기 위해 1994년 6월에 로봇 배제 규약이 만들어졌습니다. 말 그대로 로봇이 수집을 못하게 막을 목적으로 만들어졌는데 로봇의 접근 관련 내용(크롤링 허가/불허의 여부)을 robots.txt라는 파일에 적어두는 방법입니다.

만약 크롤링하는 로봇 프로그램이 http://www.example.com의 웹 사이트를 방문할 경우 가장 먼저 http://www.example.com/robots.txt 파일을 찾게 됩니다.
그리고 robots.txt 파일이 있을 경우 파일을 읽어 그 내용을 분석해서 수집해도 되는 콘텐츠만 수집하고 허락이 안 된 내용은 수집하지 않습니다.
이 규약의 의도는 좋지만 강제 안이 아닌 권고 안이라서 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있습니다.

robots.txt 엔 아래와 같은 내용이 들어 있습니다.

User-agent: *  # 모든 로봇(robot)들에 적용합니다
Disallow: /  # 모든 페이지들의 색인(indexing)을 금지합니다

Uuser-agent : 접근을 허용하지 않을 로봇 이름을 설정합니다
Disallow : 허용하지 않을 항목에 대해 설정합니다
# 단 "Disallow"를 빈 값으로 설정할 경우, 모든 하위 경로에 대한 접근이 가능합니다
# 그리고 robots.txt 파일에는 최소한 한 개의 "Disallow" 필드(field)가 존재해야만 합니다
# 아래의 형식으로 사용됩니다
Disallow: /help   # /help.html 과 /help/index.html 둘 다 허용 안됩니다
Disallow: /help/  # /help/index.html는 허용 안하나, /help.html 은 허용됩니다

만약 특정 파일 확장자를 차단하는 방법은 robots.txt 파일에 아래의 내용을 추가하면 됩니다.

Disallow: /*.xml$  # 루트 하위에 있는 확장자가 xml인 모든 파일의 색인을 거부합니다
Disallow: /test.html?  # 루트 하위에 test.html과 ?가 포함된 파일의 색인을 거부합니다

위의 내용은 robots.txt 파일을 사용할 경우이지만 파일을 사용하지 않고 HTML 소스 코드안에 메타 태그를 사용하여 설정할 수도 있습니다.

<meta name="ROBOTS" content="속성"/>

content 항목의 속성 값으로는 다음의 6가지가 올 수 있습니다.

  • index : 해당 페이지 정보를 검색해서 등록하는 것을 허락합니다.
  • noindex : 해당 페이지 정보를 검색해서 등록하는 것을 허락하지 않습니다.
  • follow : 해당 페이지에 있는 링크를 추적하는 것을 허락합니다.
  • nofollow : 해당 페이지에 있는 링크를 추적하는 것을 허락하지 않습니다.
  • all : 해당 페이지의 정보를 검색해서 등록하고 해당 페이지에 있는 링크를 추적하는 것을 허락합니다.
  • none : 해당 페이지의 정보를 검색해서 등록하거나 해당 페이지에 있는 링크를 추적하는 것을 허락하지 않습니다.

만얃 여러 속성값을 동시에 지정하고자 할 때는 content=”noindex,nofollow”와 같이 쉼표로 구분하여 작성하면 되고 기본값은 “index,follow”입니다.

주의해야 할 점은 크롤링 해도 된다라고 해서 저작권 문제까지 자유로운 것은 아니라는 것입니다. 특히 신문기사나 책, 논문, 사진 등의 자료들은 저작권에 특별히 주의해야 합니다.

'Programming > Server' 카테고리의 다른 글

[FCM] 서버측 UnknownHostException  (0) 2018.10.01
[CentOS 7] systemd 기본 설정  (0) 2018.09.30
[Linux] lsof  (0) 2018.09.17
리눅스 터미널 명령어 종류  (0) 2018.09.17
[Linux] 포트 확인  (0) 2018.09.17
출처 : http://www.morenice.kr/72

linux 시스템에서 프로세스를 통하여 파일을 열 수 있다. 

여기서 파일이란 데이터를 담을 수 있는 파일 뿐만 아니라, 통신을 위한 socket, event_poll 등 file descriptor, 라이브러리 파일, char device까지 포함한다. 개발된 프로그램이 소켓을 사용하여 통신하는 경우 실제로 소켓이 열려 있는지 디버깅을 위한 용도, 그리고 프로세스가 열 수 있는 파일의 갯수가 한정되어지기 때문에 시스템 모니터링을 위해서 열려진 파일이 얼마만큼인지 확인하는 용도등으로 파일을 확인하는 방법은 필요하다.


결론부터 말하자면, lsof(list open file)라는 명령어를 통하여 모든 프로세스에 대하여 열고 있는 파일에 대하여 확인할 수 있다.

root@ubuntu:~# lsof
COMMAND    PID     USER   FD      TYPE     DEVICE SIZE/OFF       NODE NAME
init         1     root  cwd       DIR      252,0     4096          2 /
init         1     root  rtd       DIR      252,0     4096          2 /
init         1     root  txt       REG      252,0   124704    2490376 /sbin/init
init         1     root  mem       REG      252,0    79672    1441818 /lib/i386-linux-gnu/libnsl-2.13.so
init         1     root  mem       REG      252,0    30684    1441811 /lib/i386-linux-gnu/librt-2.13.so
init         1     root  mem       REG      252,0  1434180    1441809 /lib/i386-linux-gnu/libc-2.13.so
init         1     root  mem       REG      252,0    38500    1441821 /lib/i386-linux-gnu/libnss_nis-2.13.so
init         1     root  mem       REG      252,0   117960    1441832 /lib/i386-linux-gnu/ld-2.13.so
init         1     root  mem       REG      252,0    42580    1441834 /lib/i386-linux-gnu/libnss_files-2.13.so
init         1     root  mem       REG      252,0    29984    1441858 /lib/libnih-dbus.so.1.0.0
init         1     root  mem       REG      252,0    26400    1441822 /lib/i386-linux-gnu/libnss_compat-2.13.so
init         1     root  mem       REG      252,0    75040    1441860 /lib/libnih.so.1.0.0
init         1     root  mem       REG      252,0   121644    1441827 /lib/i386-linux-gnu/libpthread-2.13.so
init         1     root  mem       REG      252,0   243400    1441799 /lib/i386-linux-gnu/libdbus-1.so.3.5.4
init         1     root    0u      CHR        1,3      0t0       5396 /dev/null
init         1     root    1u      CHR        1,3      0t0       5396 /dev/null
init         1     root    2u      CHR        1,3      0t0       5396 /dev/null
init         1     root    3r     FIFO        0,8      0t0        928 pipe
init         1     root    4w     FIFO        0,8      0t0        928 pipe
...
...



COMMAND와 PID 필드가 있기 때문에 본인이 필요한 내용을 grep을 통해서 보는 방향이 편리하다.

root@ubuntu:~# lsof | grep sshd
sshd      2169     root  cwd       DIR      252,0     4096          2 /
sshd      2169     root  rtd       DIR      252,0     4096          2 /
sshd      2169     root  txt       REG      252,0   470240    1713853 /usr/sbin/sshd
sshd      2169     root  mem       REG      252,0   117960    1441832 /lib/i386-linux-gnu/ld-2.13.so
sshd      2169     root  mem       REG      252,0    79476    1442028 /lib/i386-linux-gnu/libz.so.1.2.3.4
sshd      2169     root  mem       REG      252,0    79672    1441818 /lib/i386-linux-gnu/libnsl-2.13.so
sshd      2169     root  mem       REG      252,0   140788    1705602 /usr/lib/i386-linux-gnu/libk5crypto.so.3.1
sshd      2169     root  mem       REG      252,0    26112    1705609 /usr/lib/i386-linux-gnu/libkrb5support.so.0.1
sshd      2169     root  mem       REG      252,0    46644    1446070 /lib/i386-
...
...



추가적으로 /proc을 조금만 뒤져보면 프로세스가 열고 있는 fd 정보를 확인할 수 있다. 프로그램이 실행되어 프로세스화 되면 /proc/PID로 디렉토리가 생성되고 그 안에 여러가지 정보를 담고 있고, 그 안에 fd라는 디렉토리를 열면 사용중인 fd(file descriptor)를 확인 가능하다. 

아래는 실행중인 아파치 프로세스의 PID(2285)를 기반으로 fd 디렉토리에서 ls한 결과이다. 0~2번까지는 시스템에서 자동으로 잡히는 fd영역이고, 3번부터 사용자(코드에서 열고 있는)에 의한 열린 fd 리스트들이다. socket과 pipe 그리고 로그를 적기 위한 데이터파일과 eventpoll을 열고 있다.

 

root@ubuntu:/proc/2285/fd# ls -al
합계 0
dr-x------ 2 root     root      0 2012-01-04 23:42 .
dr-xr-xr-x 7 www-data www-data  0 2012-01-04 23:41 ..
lr-x------ 1 root     root     64 2012-01-04 23:42 0 -> /dev/null
l-wx------ 1 root     root     64 2012-01-04 23:42 1 -> /dev/null
l-wx------ 1 root     root     64 2012-01-04 23:42 2 -> /var/log/apache2/error.log
lrwx------ 1 root     root     64 2012-01-04 23:42 3 -> socket:[13645]
lr-x------ 1 root     root     64 2012-01-04 23:42 4 -> pipe:[11969]
l-wx------ 1 root     root     64 2012-01-04 23:42 5 -> pipe:[11969]
l-wx------ 1 root     root     64 2012-01-04 23:42 6 -> /var/log/apache2/other_vhosts_access.log
l-wx------ 1 root     root     64 2012-01-04 23:42 7 -> /var/log/apache2/access.log
lrwx------ 1 root     root     64 2012-01-04 23:42 8 -> anon_inode:[eventpoll]







여기서 잠깐!!! 

lsof는 내부적으로 어떤 동작을 하는지 궁금해서 strace 해보았다. 실제로 lsof에서도 /proc/ 디렉토리 아래의 PID(process id)의 디렉토리 각각 들어가 필요한 정보를 읽어들인다.

  • stat File
  • cwd File
  • root File
  • exe File
  • maps File
  • fd Directory
  • fd_info Directory



strace 결과 내용중에서 apache(pid:2285)에 대해서 처리하는 내용을 일부 첨부한다.

4904 stat64("/proc/2285/", {st_mode=S_IFDIR|0555, st_size=0, ...}) = 0
4905 open("/proc/2285/stat", O_RDONLY|O_LARGEFILE) = 4
4906 read(4, "2285 (apache2) S 2274 2274 2274 "..., 4096) = 199
4907 close(4)                                = 0
4908 readlink("/proc/2285/cwd", "/"..., 4096) = 1
4909 stat64("/proc/2285/cwd", {st_mode=S_IFDIR|0755, st_size=4096, ...}) = 0
4910 readlink("/proc/2285/root", "/", 4096)  = 1
4911 stat64("/proc/2285/root", {st_mode=S_IFDIR|0755, st_size=4096, ...}) = 0
4912 readlink("/proc/2285/exe", "/usr/lib/apache2/mpm-prefork/apache2"..., 4096) = 36
4913 stat64("/proc/2285/exe", {st_mode=S_IFREG|0755, st_size=1296895, ...}) = 0
4914 open("/proc/2285/maps", O_RDONLY|O_LARGEFILE) = 4
4915 read(4, "00110000-0012d000 r-xp 00000000 "..., 4096) = 4057
4916 stat64("/usr/lib/libaprutil-1.so.0.3.9", {st_mode=S_IFREG|0644, st_size=120884, ...}) = 0
4917 stat64("/lib/i386-linux-gnu/libdl-2.13.so", {st_mode=S_IFREG|0644, st_size=9736, ...}) = 0
4918 stat64("/usr/lib/apache2/modules/mod_authz_user.so", {
...
...
4969 open("/proc/2285/fd", O_RDONLY|O_NONBLOCK|O_LARGEFILE|O_DIRECTORY|O_CLOEXEC) = 4
4970 getdents64(4, /* 11 entries */, 32768)  = 264
4971 readlink("/proc/2285/fd/0", "/dev/null"..., 4096) = 9
4972 lstat64("/proc/2285/fd/0", {st_mode=S_IFLNK|0500, st_size=64, ...}) = 0
4973 stat64("/proc/2285/fd/0", {st_mode=S_IFCHR|0666, st_rdev=makedev(1, 3), ...}) = 0
4974 open("/proc/2285/fdinfo/0", O_RDONLY|O_LARGEFILE) = 7
4975 fstat64(7, {st_mode=S_IFREG|0400, st_size=0, ...}) = 0
4976 mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xb78c1000
4977 read(7, "pos:\t0\nflags:\t00\n", 1024)  = 17
4978 close(7)                                = 0
4979 munmap(0xb78c1000, 4096)                = 0
4980 readlink("/proc/2285/fd/1", "/dev/null", 4096) = 9
4981 lstat64("/proc/2285/fd/1", {st_mode=S_IFLNK|0300, st_size=64, ...}) = 0
4982 stat64("/proc/2285/fd/1", {st_mode=S_IFCHR|0666, st_rdev=makedev(1, 3), ...}) = 0
4983 open("/proc/2285/fdinfo/1", O_RDONLY|O_LARGEFILE) = 7
4984 fstat64(7, {st_mode=S_IFREG|0400, st_size=0, ...}) = 0
...


'Programming > Server' 카테고리의 다른 글

[FCM] 서버측 UnknownHostException  (0) 2018.10.01
[CentOS 7] systemd 기본 설정  (0) 2018.09.30
크롤링 robots.txt 주의점  (0) 2018.09.19
리눅스 터미널 명령어 종류  (0) 2018.09.17
[Linux] 포트 확인  (0) 2018.09.17

[Tip]리눅스 터미널 명령어 모음

pwd
설명 : 현재 작업 디렉토리를 절대 경로 명으로 출력한다.

ls [옵션] [파일명]
설명 : 윈도우 도스창의 'dir' 명령과 같은 명령으로, 현재 디렉토리 내의 파일과 디렉토리에 대한 정보를 출력해준다. [옵션]에는 -로 시작하여 아래와 같은 옵션을 지정할 수 있으며 두 개 이상의 옵션을 동시에 지정할 수 있다. [파일명]에는 파일명이나 디렉토리명을 지정할 수 있다.

옵션
-a 디렉토리 내의 모든파일(.으로 시작되는 파일 포함)을 출력
-i 파일의 아이노드(inode)번호를 출력
-h 파일의 크기를 쉬운 단위로 표시(k: 킬로바이트, m: 메가바이트)
-l 파일의 다양한 정보를 함께 출력(소유자 정보, 권한 정보, 크기, 날짜)
-m 파일을 쉼표로 구분하여 가로로 출력
-s kb 단위의파일크기를 출력
-t 파일을 최근에 생성된 시간순으로 출력
-F 파일의 형태와 함께 출력한다('*' : tlfgodvkdlf, '@' : 심볼릭링크, '/' : 디렉토리)
-R 서브 디렉토리의 내용을 포함하여 출력(즉 하위 디렉토리 내용을 모두 출력)
-S 파일을 크기순으로 출력
--help 도움말 출력


cd [디렉토리명]
설명 : cd(change directory) 작업 디렉토리를 바꾼다.

옵션
cd [엔터] 홈 디렉토리로 이동
cd ~ 또는 cd ~/ 홈 디렉토리로 이동
cd ~userid userid의 홈 디렉토리로 이동
cd ~/path/path2 홈 디렉토리 아래 path/paht2로 이동
cd - 바로 앞에 작업한 디렉토리로 이동
cd directory 지정한 directory로 옮겨진다
cd / root directory로 옮겨진다.
cd .. 현재 작업 directory의 parent directory로 옮겨진다.


작업하고 있는 경로를 기억시킨 뒤 나주에 다시 그 경로로 돌아오려면, 'pushd /겨로/'(현재 경로 기억 예 : pushd .) 하여 경로를 기억시킨 뒤 popd라는 명령을 주면 기억한 경로로 돌아간다. 이 명령은 한 번만 쓸 수 있다.

cp [옵션] [원본파일명] [목적 파일명 / 디렉토리명]
설명 : 도스창의 'copy'명령과 같은 명령으로 하나 이상의 원본 파일을 목적 파일이나 디렉토리로 복사한다. [원본 파일명]에는 하나 이상의 파일명을 지정할 수 있고 [목적 파일명 / 디렉토리명]에는 복사될 목적 파일명이나 복사된 파일이 위치할 목적 디렉토리를 지정할 수 있다. [옵션]에는 아래와 같은 옵션을 지정할 수 있다.

옵션
-i 파일 복사시 동일 파일명이 있을시에 사용자에게 덮어 쓸 것인지를 물어봄
-f 동일파일명 발생시에도 모두 강제적으로 복사함
-p 원본 파일의 시간 및 소유 권한 보존
-r 포함된 자식 디렉토리까지 모두 복사


mkdir [옵션] [파일명]
설명 : 새로운 디렉토리를 만든다. write permission이 허용되어야만 directory를 만들 수 있다.

옵션
-p 만들고자하는 디렉토리의 상위 디렉토리가 없는 경우 상위 디렉토리까지 같이 만든다.


rmdir [옵션] [파일명]
설명 : 디렉토리를 제거하기 위한 명령어, whrite permission이 허용되어야만 directory를 제거할수 있다.

옵션
-p 제거된 디렉토리에 대한 메시지가 표시됨
-s 제거된 디렉토리에 대한 메시지가 표시되지 않음.(Default)


more [파일명]
설명 : 한 화면씩 보기. 유닉스에서 커다란 텍스트 파일을 보는 것이나 많은 수의 파일과 서브디렉토리를 포함하는 디렉토리의 리스트를 보이게 하는 것은 아주 빠른 속도로 화면이 넘어가게 한다. 이럴 경우에 more나 pg 명령을 사용하여서 한 하면씩 보이게 할 수 있다. more filename을 입력하면 filename으로 지정한 파일을 한번에 한 화면에 해당하는 양 만큼씩 보여준다. 또한 출력을 more 명령으로 파이프(redirect) 시킬 수도 있다. 예를 들면 ls -al |more 는 ls 명령의 출력을 more로 보내어서 리스팅을 한 페이지씩 보이게 한다. more를 사용해서 파일을 살펴보는 일반적인 방법은 다음과 같다.

옵션
스페이스, Ctrl-D 다음 한 화면을 보여줌
엔터 누를 때마다 화면의 아래쪽에 한 줄씩 더 보여줌
q more 정지
h 도움말
/expr expression 검색


rm [옵션] [파일명]
설명 : rm(remove) 파일(디렉토리)을 삭제한다. 삭제하고자 하는 디렉토리에 파일이나 부 디렉토리가 없어야만 삭제가 가능하다.

옵션
-f 디렉토리 안의 파일을 삭제할 때 사용자에게 확인을 요구하지 않음
-r 인수 list 에서 지정한 디렉토리 혹은 그 아래의 subdirectory를 삭제
-i whrite permission 이 없는 파일의 삭제를 위해 대화식으로 확인
-p 디렉토리 dir-name과 비어있는 부모 디렉토리를 사용자가 제거할 수 있으며, 전체 경로명이 삭제 되거나 어떤 이유로 인해 경로명의 일부가 남은것과 무관하게 표준출력에 메세지가 출력됨
-s -p 선택항목 지정시 표준오류에 출력되는 메시지를 삭제


mv [옵션] [파일명]
설명 : mv 명령은 파일의 위치를 바꾸거나 이름을 바꾸는데 사용을 한다. mv 명령은 이미 존재하는 파일을 덮어쓰기를 한다. 'mv file1 file2'라고 입력을 하는 것은 file1의 이름을 file2라고 바꾼다. 만약 file2 라는 파일이 이미 존재한다면 file1의 내용물로 교체가 된다. 파일을 한 디렉토리에서 다른 디렉토리로 옮기기 위하여서는 경로를 함께 입력하여 주면 된다. 같은 이름의 파일이 이미 존재하여서 그것을 덮어쓰기를 하지 않으려면 -i 옵션을 사용하면 된다. 한번에 여러 개의 파이을 옮길수도 있다. 마지막이 파일들을 옮겨 넣고자 하는 디렉토리이기만 하면 되는 것이다. 예를 들면 'mv profit sales.txt wrksht repotrs'라고 하면 profit sales.txt wrksht를 모두 reports 디렉토리로 이동시킨다.

옵션
-f 대상 파일이 존재할 대 새로운 파일로 대체
-i 대상파일이 있을 때 확인 후 작업
-f 파일의 이동 과정을 보여준다.


find [옵션] [파일명]
설명 : 이제는 find라는 명령어를 알아보자. find라는 명령어는 매우 융통성이 있고 강력한 명령어이다. 파일을 이름, 수정날짜, 소유주, 허가 등을 기준으로 하여 검색하게 해준다.

옵션
-name filename filename과 일치하는 파일을 찾음(*,? 또는 and가 사용될 수 있으며 이들은 따옴표 안에 표시를 하거나 백슬래시를 앞에 주고 사용함)
-print 현재의 경로 이름을 표시


grep [옵션] [패턴] [파일명]
설명 : grep 명령을 사용하면 파일 내부에 있는 텍스트의 내용으로 파일을 찾을 수 있다. 지정한 문자들을 포함하는 행을 찾을 때마다 그 행을 화면에 표시한다. 만약 grep 하나 이상의 파일을 검색중이라면 그 문자들이 있는 파일의 이름을 표시한다.

옵션
-c 파일 내에서 패턴과 일치하는 줄의 총수를 구한다.
-h 여러 개의 파일을 검색할 때, 출력에 파일명이 나타나는 것을 방지한다.
-i 대, 소문자를 구별하지 않는다
-n 일치하는 줄의 줄 번호도 같이 출력한다
-v 패턴과 일치하지 않는 줄만 출력한다


head [-카운트] [파일명]
설명 : 파일의 첫 부분부터 카운트로 정한 숫자만큼의 줄 수를 보여주는 명령으로 카운트 징정을 안 하면 디폴트로 10이 된다.

tail [-카운트] [파일명]
설명 : 파일의 카운트로 정한 숫자만큼의 끝 부분 줄 수를 보여주는 명령으로 카운트를 지정을 안하면 디폴트로 10이 된다.

mount [-t 파일시스템] [장치명] [마운트디렉토리]
설명 : 각 운영체제나 혹은 CDROM같은 경우에는 저마다 자신의 파일 시스템을 사용하고 있다. 마운트라는 것은 특정 디렉토리에 자신이 원하는 파일 시스템을 연결하여 리눅스에서 볼 수 있는 명령이다.

리눅스의 파일 시스템 : ext2, ext3, ext4
윈도우 파일 시스템 : vfat, ntfs
CDROM의 파일 시스템 : ISO9660

du
설명 : 사용자 자신의 디스크 사용 상황을 보고해 준다.(단위=Block)

cat [파일명]
설명 : 파일의 내용을 보거나 표준입력(키보드)으로 입력된 문자들을 파일로 저장할 때 쓰는 명령이다.

diff
설명 : diff(differential file comparator) 두개의 파일이 일치되도록 변경시키기 위한 정보를 제공해 줌.

rpm  [옵션] [파일명] <-- rpm명령어는 redhat 배포본 관련 패키지 명령어입니다. 
설명 : 패키지를 설치 및 업그레이드

옵션
-i, -U 설치 및 업그레이드 옵션
-e 패키지의 제거
-q 패키지 질의
-V 패키지 검증


만약 시스템에 설치되어 있는 패키지를 설치하려 한다면 -i 옵션을 -U 옵션을 써야한다.
만약 rpm -e rpm 명령을 실해하면 rpm 은 사라지기 때문에 절대로 하지 말아야 한다.
만약 지웠다면 www.rpm.org 에 가서 rpm 소스를 가져다 설치하는 수밖에 없다.

gzip [옵션] [파일명]
설명 : 리눅스에서 사용하는 압축 프로그램으로 속도 면에서나 압축률 면에서나 상당히 좋은 프로그램이다.

옵션
-d 압축을 해제하는 옵션
-f 압축을 하거나 해제할 때 같은 이름의 파일이 존재할 경우 덮어쓰기를 한다.
-l 압축파일의 정보를 보여 준다.
-r 압축 대상의 디렉토리까지 압축을 수행한다.


하나의 파일밖에 압축을 못한다.

tar [옵션] [파일명]
설명 : tar 명령어는 여러 파일을 하나로 묶는데 사용한다. tar는 파일을 압축하지 않지만 gzip와 같이 쓰면 매우 효과적이다.

옵션
c 새로운 tar파일의 생성
x 기존의 tar파일을 푸는데 사용
u 업데이트를 위한 옵션
t tar파일을 푸는 것이 아니라 내용을 보는 옵션
v 파일을 묶거나 풀때의 작업을 보여주는 옵션
z gzip를 이용해 tar.gz 혹은 .tgz로 묶인 파일을 풀 때 사용하는 옵션


more [-ncdflspu] [+줄번호] [파일이름(들)]
설명 : 한 화면씩 출력을 보여주는 유틸리티로 한 번에 전체적으로 볼수 없는 파일은 이것을 사용하여 스크롤을 제어할 수 있다.

옵션
-n 여기서 n은 숫자를 의미하며, 숫자는 출력 윈도우의 행수를 지정한다.
-c 위에서부터 한 행씩 지운 후 한 행씩 출력한다. 보통은 화면 전체를 지운후 각 행을 출력하기 시작한다. 특정한 터미널을 위해 사용
-d 스페이스나 q 키를 누르라는 프롬프트를 출력
-f 화명의 행이 아닌 논리적인 행 수를 계산한다. 보통은 긴 칼럼의 행은 화면에서 행바꿈을 하여 새로운 행으로 계산된다. -f 옵션을 사용하면 이러한 행은 계산하지 않는다.
-s 여러개의 빈 공백행은 하나로 취급한다.
-p 스크롤하지 않는다. 대신 화면을 지우고 출력한다.
-u 밑줄 치기를 금지 한다.


return 한줄만 스크롤
D 빈 페이지만 뒤로 이동
space 한 페이지만 뒤로 이동
B 한 페이지 앞으로 이동
H 도움말을 제공
V vi 에디터를 부름
Q 종료

touch [-amc] [MMDDhhmmYY] [파일명]
설명 : 파일의 액세스 시간이나 갱신 시간을 수정

옵션
-a 파일의 액세스 시간을 바꿈
-m 파일의 갱신 시간을 바꿈
-c 파일명이 존재하지 않는다면 새로운 파일을 만들지 않음
YY 연도
DD 날짜
hh 시간
mm 분


fdisk [-l] [-v] [-s partition] [device]
설명 : 디스크의 파티션을 변경한다.

옵션
-l 파티션 테이블의 목록을 출력
-v fdisk 버전 출력
-s partition DOS 파티션이 아니라면 해당 파티션의 크기를 출력
device device 에는 몇번째 하드디스크를 파티션 할것인지 알려주어야 한다. 아래는 리눅스에서 각각의 디바이스들에 대한 이름이다.


첫번째 설치된 하드 드라이브 : fdisk /dev/hda
두번째 설치된 하드 드라이브 : fdisk /dev/hdb
SCSI의 첫번째 하드 드라이브 : fdisk /dev/sda
SCSI의 두번째 하드 드라이브 : fdisk /dev/sdb

'm' 명령어로 도움말을 볼수 있다.

ps
설명 : 현재 자신의 리눅스 서버에서 어떤 프로세스들이 활동하고 있는지 살펴보고자 할떄 'ps' 명령을 사용하는 것이 일반적이다. ps 명령을 사용하면 현재 자신이 실행한 프로세스의 목록을 살펴볼수 있으며, '-aux' 옵션을 사용하면 시스템에서 동작중인 모든 프로세스를 살필수 있다.

사용키
<Space> 상황 즉시 갱신
<s> 갱신 시간 지정(초 단위)

CPU 사용률 기준으로 정렬
<M> 메모리 사용률 기준으로 정렬
<u> 지정한 사용자의 프로세스만 나타남
<k> 지정한 프로세스 kill
<h> 도움말


passwd [옵션] [계정]
설명 : 사용자 계정의 패스워드를 등록하거나 변경시키는 경우 이용되는 명령어이며 특히 슈퍼유저는 다른 유저의 패스워드도 변경할수 있다.

옵션
-l 사용자의 계정에 lock을 건다.
-d 사용자의 계정에 패스워드를 해체. 즉 패스워드 없이 로그인이 가능해 진다.


chmod [옵션] [파일명, 디렉토리]
설명 : 파일의 권한을 바꾸는 명령어

옵션
-R 서브디렉토리까지 모든 파일의 권한을 바꾼다.


chgrp [옵션]
설명 : 파일의 그룹을 바꾸는 명령어

옵션
-R 서브디렉토리까지 모든 파일의 그룹을 바꾼다.


chown [옵션] [파일명]
설명 : 파일의 소유자를 바꾸는 명령어

옵션
-R 서브디렉토리까지 모든 파일의 소유자를 바꾼다.


jobs
설명 : 현재 진행중인 작업들을 출력

옵션
-l 현재 작업하고 있는 디렉토리와 프로세스 그룹 ID를 출력


fg
설명 : 작업을 전명 작업으로 변환하는 것으로 전면 작업이란 모니터에 실행되는 모습을 사용자에 직접 보이며 작업하는 것을 말한다.

bg
설명 : 작업을 후면 작업으로 전화하는 것으로, 후면 작업이란 전면 작업과는 반대로 사용자의 눈에는 실행되는 모습을 보이지 않으면서도 실제로는 일을 하는 것을 말한다. 백그라운드 작업은 "명령어 &"로 명령어 다음에 "&" 표시를 붙여서 후면 작업으로 전환할 수 있도록 되어 있다.

date [yymmddhhmm [ss] ]
설명 : date는 위아 같이 주어진 인수가 없다면 현재 시스템의 시간과 날짜를 출력한다. 만약 주어지는 인자가 있다면 그에 따라서 시스템의 시간과 날짜를 변경한다.
yy는 연도를 나타내는 두 숫자이며, mm은 월을 나타낸다. 그리고 dd는 날짜, hh는 24시간 단위로 표현되는 시견이며, mm은 분을 의미한다. 끝의 ss는 초를 의마하는 부분으로 명시하지 않아도 상관없는 부분이다.


cal [-jy] [ [달] 연도]
설명 : 서기 원년부터 9999년까지의 달력을 볼 수 있다.
인수를 하나만 준다면 그 숫자는 연도를 의미하는 것으로 간주된다. 두 개의 숫자를 준다면 앞의 것을 월, 그 다음은 연도를 의미한다.


옵션
-j 1월 1일 부터 날짜 수를 계산하는 julian 날짜를 표시
-y 올해의 달력을 표시


kill [-signalID] PID
설명 : kill 명령은 프로세서를 죽이는 데에 사용된다. 그래서 이 유틸리티의 이름도 kill이 되었다.

옵션
-signalID 프로세서에게 보낼 시그널을 지정한다. 시그널은 번호로 지정될 도 있고 시그널 이름으로 지정될 수도 있다.
-l 시그널 종류를 나열한다. 시그널의 종류는 시그널 번호 순서대로 이름으로 나열된다.


finger [-slpm] [사용자]
설명 : 시스템 상의 사용자들에 대한 정보를 보여준다.
인수로 아무 것도 주어지지 않으면, finger는 현재 시스템에 로그인되어 있는 사용자들을 보여준다.


옵션
-s 사용자의 로그온 이름, 실제 이름, 터미널 이름, 로그온 시간 등등을 보여줌
-l -s 옵션 정보에 몇 가지를 추가하여, 여러 줄에 걸쳐서 보여줌
-p -l 옵션 정보에서 .plan과 .project 파일을 보이지 않는다.


su [-] [사용자ID][인수]
설명 : 다른 사용자 계정으로 서브 쉘을 생성하는 것으로, 잠시동안 다른 사용자 계정으로 작업할 필요가 있을때 사용한다.
많은 사람들이 su가 'super user'를 의미하는 말로 생각하지만, 사실은 'substitute user'를 의미하는 말이다.

옵션
- 하이픈(-)을 사용하면 새로운 쉘로 로그인할 때 자신의 로그인 과정을 수행한다. 옵션이 주어지지 않으면 새로운 쉘은 단지 쉘 역할을 수행할 뿐이다.


shutdown [옵션] 시간 [메세지]
설명 : 시스템을 종료할 때 일반적으로 사용되는 명령어

옵션
-t n t 옵션 뒤에 n초를 명시해서, 경고 메시지를 보낸후 n초 후에 kill 시그널을 보냄
-h shutdown시 halt를 실행
-r 시스템 종료를 완료하고 나서 다시 부팅 과정을 수행(리부팅)
-c 이미 예약되어 있는 shutdown을 취소
-k 모든 동작을 제대로 수행하지만 시스템을 종료할 시간이 되면 아무것도 하지 않음. ksms 'just kidding'의 의미
 


'Programming > Server' 카테고리의 다른 글

[FCM] 서버측 UnknownHostException  (0) 2018.10.01
[CentOS 7] systemd 기본 설정  (0) 2018.09.30
크롤링 robots.txt 주의점  (0) 2018.09.19
[Linux] lsof  (0) 2018.09.17
[Linux] 포트 확인  (0) 2018.09.17

리눅스에서 현재 열려 있는 포트를 확인하는 방법


열려 있는 모든 포트를 표시하기

netstat -nap

n:host명으로 표시 안함a:모든소켓 표시p:프로세스ID와 프로그램명 표시


LISTEN중인 포트를 표시하기

netstat -nap | grep LISTEN)



상대방 포트가 열려 있는지를 확인하는 방법

상대방 머신에 접속이 되지 않을 때 혹시 포트가 막혀 있는지를 확인해 보자.
netcat(nc) 네트워크 유틸리티를 이용하면 된다. 


특정 호스트의 특정 포트가 열려 있는지를 확인하기

nc -z 호스트주소 포트


ex) nc -z www.google.com 80


<결과예>

Connection to www.google.com 80 port [tcp/http] succeeded!

z: 포트 검색


특정 머신의 포트 범위를 지정하여 열린 포트를 확인하기

nc 호스트주소 -z 시작포트-끝포트


ex) nc 10.20.30.40 -z 19-21

<결과 예>

Connection to 10.20.30.40 21 port [tcp/ftp] succeeded!Connection to 10.20.30.40 22 port [tcp/ssh] succeeded!Connection to 10.20.30.40 23 port [tcp/telnet] succeeded!



포트를 열기

위의 방법으로 호스트의 포트가 LISTEN중임을 확인하였는데 상대방 호스트에서 포트가 열려있지 않다고 나온다면, 호스트의 포트가 막혀 있을 가능성이 있다.

포트를 열려면 iptables를 사용하면 된다. iptables는 리눅스 방화벽을 설정하는 명령어이다.

특정 포트를 외부에서 접속할 수 있도록 열기

iptables -I INPUT 1 -p tcp --dport 12345 -j ACCEPT 

I: 새로운 규칙을 추가한다.

p: 패킷의 프로토콜을 명시한다.

j: 규칙에 해당되는 패킷을 어떻게 처리할지를 정한다.

이 명령은 외부에서 들어오는(INBOUND) TCP포트 12345의 연결을 받아들인다는 규칙을 방화벽 1번 방화벽 규칙으로 추가한다는 의미이다.

이렇게 추가한 규칙은 조회나 삭제가 가능하다.


추가한 설정 조회하기

조회하기

iptables -L -v

L: 규칙을 출력

v: 자세히


추가한 설정 삭제하기

규칙을 삭제하려면 추가한 규칙의 번호로 삭제하는 방법과 추가했을 때의 명령어에서 "-I"를 "-D"로 바꾸어 주는 방법이 있다.

규칙번호로 삭제하기iptables -D INPUT 1

추가한 규칙으로 삭제하기

iptables -D INPUT -p tcp --dport 12345 -j ACCEPT 

D: 규칙을 삭제


'Programming > Server' 카테고리의 다른 글

[FCM] 서버측 UnknownHostException  (0) 2018.10.01
[CentOS 7] systemd 기본 설정  (0) 2018.09.30
크롤링 robots.txt 주의점  (0) 2018.09.19
[Linux] lsof  (0) 2018.09.17
리눅스 터미널 명령어 종류  (0) 2018.09.17

+ Recent posts