프로젝트 구텐베르크

1. 개요2. 상세3. 관련 문서4. 외부 링크

4.1. 영어4.2. 한국어4.3. 일본어

1. 개요

1971년 마이클 하트가 인류의 자료를 수집해 전자정보로 저장, 배포하기 위해 시작한 프로젝트 구텐베르크는 요하네스 구텐베르크의 이름에서 따온 것이다.

프로젝트 구텐베르크(Project Gutenberg)는 저작권이 만료된 퍼블릭 도메인의 교양서적[1]들을 무료로 공개하는 프로젝트, 혹은 그 사이트이다.

2. 상세

이곳에는 60,000권 이상의 서적이 전자책의 형태로 공개되어 있다.

공개의 형태는 웹브라우저를 통해 바로 볼 수 있는 html 포맷, 텍스트(text)나 epub 포맷 등이다. 따라서 아마존 킨들(Kindle)같은 eBook리더에서도 사용이 용이하다. 초창기 수천 명의 자원 봉사자가 전자책을 일일이 타이핑하는 데에서 시작하였으나 현재는 대부분의 작업이 OCR로 이루어진다. 그럼에도 불구하고 최종적으로는 자원봉사자들의 교정을 거친다.[2]

인문학도는 물론 NLP 캡스톤등을 위한 텍스트 데이터를 찾는 컴퓨터공학도까지 여러 사람들이 도움을 주고 받고 있다. 물론 영어공부를 하는 사람들에게도 널리 애용된다.

이 프로젝트에 영감을 받아서 한국에서도 '직지 프로젝트'라는 도서 보존 운동이 벌어졌던 적이 있다. 단 이쪽은 아이디어회관을 중심으로 한 몇몇 특정 도서 브랜드, 그 중에서도 SF라는 특정 장르만을 다루었기 때문에 해당 장르의 팬 이외에는 크게 알려지지 못했다.
직지 프로젝트의 뒤를 이은 직지 온라인 도서관을 내맘대로의 EPUB 제작 가이드에서 운영하고 있다. 직지프로젝트에 등록된 SF 도서와 저작권이 말소된 한국문학을 EPUB 전자책으로 제작해 공개하고 있다. 캘리버 기반의 웹 뷰어로 책을 바로 읽을 수 있고, EPUB 파일로 저장해 원하는 뷰어로 볼 수도 있다.

3. 관련 문서

위키문헌

4. 외부 링크

4.1. 영어

나무위키(영어) : 프로젝트 구텐베르크

4.2. 한국어

4.3. 일본어

[1] literature의 번역어이다. 이 개념은 흔히 한국에서 '문학'의 범주에 들어가는 시 소설 수필, '종의 기원' 등 인간의 서정을 표현하지 않기에 비문학의 범주에 들어가는 중요 도서들도 포함한다. [2] OCR의 성능이 상당히 정확해진 것은 꽤 최근의 일로, 불과 몇 년 전까지는 인식률이 꽤 낮았다. 지금도 지면 상태나 활자모양에 따라 제대로 인식이 안 되는 경우가 종종 발생하며, 의미상 하나의 문장이라도 서적상 몇 줄로 나뉘어있다면 그대로 줄바꿈으로 반영되기에 이런 부분도 일일이 수정해야한다. ~~한마디로 여전히 노가다가 필요한 고된 작업이라는 것~~