1. 개요
딥 웹(deep web, 심층 웹)이란 인터넷 봇(웹 크롤러)에 의해 수집, 색인되지 않거나 접근이 보호되어 있는 등의 이유로, 일반적인 검색 엔진이나 주요 트래픽 웹의 링크를 통해 도달할 수 없는 웹을 가리킨다. 반의어는 서피스 웹(surface web, 표면 웹)이다.2. 정의
넷, 혹은 네트워크라는 것은 간단히 말하면 둘 이상의 컴퓨터를 연결하는 기술이고, 웹은 네트워크 기술을 바탕으로 쌓아올려진 정보와 콘텐츠의 총망라이다. 그렇기 때문에 인터넷 하면 흔히 생각하는 동영상이나 블로그 등과 그를 이어주는 검색 엔진을 넘어 이메일, 파일 공유(토렌트, eMule 등), 웹캠, 동영상 스트리밍, 온라인 게임, VoIP, 모바일 앱 등 다양한 서비스들도 포함된다.[1] 그리고 딥 웹은 위의 모든 것 중 구글 검색에 뜨지 않는 대부분의 것이다. 즉, '검색 가능한 것' 내지는 '인덱싱 된 것'의 여집합이 딥 웹인 것이고, 그렇기 때문에 딥 웹의 역사는 검색 엔진의 역사와 밀접한 연관이 있다.[2]2.1. 딥 웹과 다크 웹의 차이 및 오해
2010년 즈음 커뮤니티 등지로부터 딥 웹을 각종 음모론과 괴담하고 결부시켜 소개하는 경향이 짙어 규모를 과장시키거나 음지 성격으로 알리는 내용들이 많았다. 예를 들자면 "온갖 비인륜적 요소 미디어와 고어 및 혐짤, 마약이나 살인 청부, 스너프 필름, 아동 포르노 등 암시장 총망라다" 등이 그것인데, 본래 의미는 위처럼 검색 엔진 바깥의 총체를 일컫는 용어로서 위 괴담들은 다크 웹으로 분류해야 맞다. # 본 나무위키를 포함 딥 웹의 정의를 정정하는 소개가 후속으로 나오면서 사실 무근의 괴담들도 어느 정도 누그러졌지만 괴담의그래서 대중의 인식과는 달리 사전적인 의미의 '딥 웹'은 우리 주변에서도 흔하게 접할 수 있다. 후술하겠지만 당장 자신의 이메일함은 로그인을 해야만 볼 수 있는 정보이므로 딥 웹에 해당하며, 각종 클라우드 서비스에 업로드된 자료들, WSJ 등 유료 인터넷 뉴스의 구독자 전용 지면[4] 또한 딥 웹에 해당한다고 볼 수 있다. 물론 위에 설명한 다크 웹 또한 딥 웹의 일종이긴 하나, 극히 일부에 불과하다.
또한 서피스 웹보다 딥 웹이 훨씬 방대하다는 이야기도 있는데, 아무도 딥 웹의 정확한 크기를 가늠할 수가 없으니 어느 정도는 맞고 어느 정도는 틀릴 수 있는 이야기이다. 딥 웹이라는 용어를 사실상 처음으로 사용한 2001년의 논문에 따르면 400배에서 550배에 달한다고 하고, 조금 더 최근의 연구에 따르면 그보다는 적다고 하지만 정확한 규모는 아무도 모른다. 크기를 알아내고자 하는 임의의 누군가가 접속해 자료를 열람할 수 있다면 검색 엔진 개발자(사)가 이를 인덱싱하지 않을 이유가 없고, 그렇게 되면 딥 웹이 아니게 되기 때문. 하지만 대부분의 자료나 연구에서 딥 웹이 더 크다는 것에는 동의를 하는 편이다.
3. 접속방식
- 주소를 관계자로부터 알아내서 직접 입력해야 하는 방식
- 특정 소프트웨어나 하드웨어를 통해 접속허가를 얻어야 하는 방식.
4. 종류
- 개인 프라이버시: 스마트폰 애플리케이션 대다수는 인터넷과 연결되어 있지만, 해당 서비스 운영사가 보관하는 고객들의 자료는 통상적으로 검색되지 않는다. 대표적으로 흔히 사용되는 카카오톡 대화방이나 이메일 역시 딥 웹에 속한다. 대화방의 경우에는 해당 방의 참가자들만이, 그리고 이메일의 경우는 발신자와 수신자만이 내용을 열람할 수 있기 때문이다. 다른 예시를 들자면 pixiv FANBOX나 넷플릭스 등에서 구독한 컨텐츠를 열람하는것도 구독한 개개인만이 열람할 수 있으니 일종의 딥 웹이다.
- 국가, 군대 내부망: 정부기관은 개개인의 주민등록번호와 주소지, 가족관계, 납세내역 등의 중요한 개인정보들을 모두 전산화하여 보유하고 있는데, 당연히 이러한 정보들은 내부망에 저장되며 인가를 가진 계정으로만 접근할 수 있다. 또한 각국이 안보를 위해 제작, 보유하는 군사기밀은 기밀 정도에 따라 단계별로 분류하여 군대가 내부적으로 보유하고 있는 인트라넷에 보관한다.
- 기업 사내망: 대부분의 기업들은 자신들의 사업 기밀을 보호하기 위해 인트라넷(사내망)을 구축한다. 이러한 사이트들은 대개 robots.txt 파일 설정을 통해 검색 로봇이 내용을 긁어가는 것을 막으며, 허가된 단말기와 소프트웨어, 사원 계정으로만 접속할 수 있다. 네이버 웹툰에서 현재는 공개되지 않는 웹툰들도 주소 자체는 살아있기도 한데, 이 역시 딥 웹에 속한다.
- 학술자료 검색엔진: 국회도서관이나 다수의 학술 데이터베이스 역시 딥 웹이라 할 수 있다. 연구자료에 접근하려면 해당 연구기관에 돈을 지불하고 이용권 내지 논문을 구매해야 한다. 검색 엔진에 노출시켜 트래픽을 만들 필요가 없으니 검색 노출을 차단하고 내부에서만 검색 가능한 독자적인 네트워크를 형성하여 연구자들끼리만 이용한다.
- 키프리스를 제외한 특허검색 사이트: 특허청에서 제공하는 무료 특허검색 사이트인 키프리스를 제외한 나머지 검색엔진들 또한 딥 웹으로 볼 수 있다. 이는 전술한 학술자료와 마찬가지로 사이트 운영사에 일정 금액을 지불하고 미리 등록한 아이피나 계정으로만 검색 및 이용 할 수 있게 한다. 이런 사설 특허검색 사이트는 주로 로펌이나 특허법률 사무소에서 이용하며, 키프리스에서는 제공하지 않는 부분까지 세밀하게 서비스 되는 특징이 있다. 반면에 구글에서 판례번호를 넣으면 검색되는 케이스노트는 딥 웹이 아니다.
- 특정 고객층에게만 제공: 제한된 전산실에서만 네트워크 주문빌지를 만들어 손님들께 서비스를 제공하는 경우 역시 딥 웹이라 할 수 있다. 이런 서버 같은 경우에도 http:// 이후 199.53.224.173 같은 숫자로 나열된 고유의 아이피 주소가 엄연히 존재하나 당연히 아무나 접속할 수는 없고, 특정 서버에 사원 로그인으로 접속이 가능하다.
- 진짜 범죄 관련 사이트: 대부분은 딥 웹 하면 이 유형을 떠올리겠으나, 실제 '딥 웹'으로 분류되는 트래픽에는 상술한 유형의 합법적, 일상적인 내용의 트래픽이 거의 대부분을 차지하며 진짜 범죄자들의 딥 웹은 민간 영역에 비해선 극도로 작은 규모다.
- 폐쇄적인 커뮤니티: 완전한 딥 웹이라고 보기는 어렵지만, 폐쇄적인 커뮤니티의 경우 인증된 계정에 한하여 정보를 보거나 작성할 수 있는 경우가 많고 이에 따라 검색 엔진은 해당 글들을 수집할 수 없다. 대표적으로 여성시대의 경우 총 글 수는 카페 활동 내역 기준으로 6100만 여개로 집계되고 되고 있지만 구글 검색에서는 약 600만 개정도만 노출되어 약 10%의 게시물만이 검색되고 있다. 이와 같이 특별한 인증을 통해 가입을 해야만 게시물을 열람, 작성할 수 있는 경우가 많은[5] 커뮤니티는, 작성할 때는 가입이 필요하더라도 최소한 열람하는 데에는 자격이 불필요한 대부분의 타 커뮤니티들과는 달리 명백히 폐쇄적이며, 검색 엔진에 거의 노출되지 않는 부분적인 딥 웹으로 볼 수 있을 것이다.
- 광명망에 있는 모든 페이지 들: 애초에 국가단위의 인트라넷이라 외부에 공개될 일은 없다.
5. 실체가 알려진 딥 웹
[1]
지금은 한정적인 분야에서만 쓰이는
텔넷,
FTP,
IRC 등도 있으며 이제는 거의 사라진
유즈넷,
고퍼, 아키(Archie)도 모두 인터넷에 해당한다.
[2]
물론 검색 엔진이 있기 전에도 서피스 웹과 딥 웹으로 구분할 수 있을 자료는 존재하긴 했다. 예를 들면 특정 서비스에 로그인해야만 보이는 것들. 하지만 현재에 쓰이는 딥 웹의 정의는 사실상 검색 엔진에 의해 찾아지지 않는 것이므로 딥 웹의 역사=검색엔진의 역사 라고 하여도 크게 문제는 없는 것이다.
[3]
영상이 기괴하기로 정평난
김근육 시리즈 제작자가 셀프로 딥 웹이라는 드립 시전하는 영상
#. 여담으로 유튜브에 업로드 되었으므로 서피스 웹 중의 서피스 웹이다. 역시 난해하다
[4]
그 웹페이지 자체는 제목이 검색엔진에 인덱싱되어 있지만 그 내용은 그렇지 않기 때문에 반쯤 딥 웹이다.
[5]
심지어 이마저도 회원 등급을 철저히 차등하여 내부적으로 이용할 수 있는 게시판이 여러 단계로 구분지어진다. 이를 악용한 대표적인 사건이
SLR클럽 소모임 성인 정보 자료실화 사건이다.
#