메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

머신러닝을 위한 실전 데이터셋

개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기

한빛미디어

번역서

판매중

  • 저자 : 칼리드 엘 에맘 , 루시 모스케라 , 리처드 홉트로프
  • 번역 : 심상진
  • 출간 : 2021-01-04
  • 페이지 : 172 쪽
  • ISBN : 9791162243749
  • eISBN : 9791162247310
  • 물류코드 :10374
  • 초급 초중급 중급 중고급 고급
1 2 3 4 5
4.4점 (9명)
좋아요 : 10

책소개

개인 정보 보호와 광범위한 데이터 사용의 균형을 이루다.

 

머신러닝 모델을 구축하고, 테스트를 진행하려면 크고 다양한 종류의 데이터가 필요하다. 그러나 대부분의 데이터셋은 개인 정보 문제로 사용이 제한적이라 광범위하게 사용할 수 없다. 이 책에서는 실제 데이터로 새로운 데이터를 만드는 실용적인 합성 데이터 기술을 소개한다. 합성 데이터는 이차 분석에 용이하여 데이터 연구, 고객 행동의 이해, 신제품 개발 등 다양한 목적으로 활용될 수 있다. 

 

이 책은 실제 데이터를 합성해 다양한 산업에서 사용할 수 있는 방법을 제공하며, 개인 정보 문제를 해결하는 방법을 다룬다. 또한 실제 데이터셋에서 합성 데이터를 생성하기 위한 원칙과 단계를 배운다. 더 나아가 합성 데이터가 제품이나 솔루션 개발에 드는 시간을 어떻게 단축할 수 있는지를 학습한다. 

 

  • 다변량 정규 분포를 사용해 합성 데이터 생성하기
  • 다양한 적합도 메트릭을 분포 적합하기
  • 원본 데이터의 구조를 복제하기
  • 관계가 복잡한 데이터를 모델링하기
  • 데이터 효용성을 평가하는 방식과 측정 기준 정하기
  • 실제 데이터를 분석해 합성 데이터를 복제하기
  • 합성 데이터의 개인 정보와 신원 노출을 평가하기

 

 

출판사 리뷰

 

합성 데이터는 지난 몇 년간 주목을 받으며 사회적 관심이 급속도로 증가했는데, 이러한 현상은 다음과 같은 두 가지에 관심이 쏠리면서 촉발됐다. 첫째는 인공지능과 머신러닝(AIML) 모델을 양성하고 구축하는 데 따른 대량의 데이터 수요다. 둘째는 고품질의 합성 데이터를 생성하는 효과적인 방법을 입증한 최근의 작업이다. 이로 인해 합성 데이터가 특히 AIML 커뮤니티 내에서 어려운 문제를 일부 상당히 효과적으로 해결할 수 있음을 인식하게 됐다. 따라서 NVIDIA, IBM, 알파벳과 같은 회사들만이 아니라 미국 인구조사국 같은 정부 기관도 모델 구축, 애플리케이션 개발, 데이터 배포를 지원하기 위해 다양한 유형의 데이터 합성 방법론을 채택하기에 이르렀다.

 

1장 : 합성 데이터와 그 이점이 무엇인지 설명한다. 인공지능과 머신러닝(AIML) 프로젝트는 다양한 산업에서 사용되고 있으며, 광범위한 활용 사례 중 맛보기로 몇 가지를 발췌해 수록했다.

 

2장 : 데이터 합성의 목표를 설정하고 다른 방법들에 비해 비즈니스 우선순위에 적합한 시기를 결정하는 데 도움되는 의사결정 프레임워크를 제시한다.

 

3장 : 데이터 합성 프로세스의 첫 번째 단계인 분포 모델링을 다룬다. 비정형 데이터 분포를 머신러닝 모델에 적합하는 방법을 개략적으로 설명한다.

 

4장 : 합성 데이터에 사용할 수 있는 데이터 효용성 프레임워크를 설명한다. 데이터 합성기 최적화, 데이터 합성 접근법, 합성 데이터의 결과 파악 등을 살펴본다.

 

5장 : 기본 개념을 이용해 합성 데이터를 생성해본다. 몇 가지 기본적인 접근법으로 시작해서 뒤로 갈수록 복잡한 접근법으로 발전하며 입문자용 기술부터 고급 기술까지 다룬다.

 

6장 : 먼저 데이터 합성이 보호하려는 노출 유형을 정의한다. 미국과 유럽연합의 주요 프라이버시 규정이 합성 데이터를 어떻게 다루는지 검토하고, 프라이버시 보장 분석을 시작할 방법을 제시한다.

 

7장 : 합성 데이터셋과 합성 데이터 생성 기술을 전수해온 경험을 바탕으로 실제 데이터를 처리할 때 도움될 실용적인 고려사항을 제시한다. 도전적인 과업을 강조할 뿐만 아니라 과업을 해결할 방안도 제시한다.

 

 

저자소개

칼리드 엘 에맘 저자

칼리드 엘 에맘

동부 온트리오 아동 병원의 수석 과학자이자 종합 전자 건강 정보 연구소 소장으로 합성 데이터 생성 방법과 도구, 재식별 위험 측정에 대한 응용 학술 연구를 수행하고 있다. 캐나다의 오타와 의과 대학 소아청소년과 교수이기도 하다. 의료 산업에서 AIML을 적용하기 위한 합성 데이터 개발에 주력하는 회사인 Replica Analytics의 공동 설립자이자 CEO이다. 2016년부터 2019년 말까지는 IMS 헬스(현 IQVIA)에 인수된 Privacy Analytics의 설립자이며 총괄 책임자이자 사장이었다. 현재 데이터 보호 기술을 개발하고 의료 서비스 제공 및 신약 개발 지원 분석 도구를 구축하는 기술 회사에 투자하고 자문하고 있다. 1990년대 초부터 데이터 분석을 수행하여 예측 및 평가를 위한 통계 및 머신 러닝 모델을 구축했다. 2004년부터 알고리즘에 대한 기초 연구에서 응용 솔루션 개발에 이르기까지 전 세계적으로 배포된 2차 분석을 위한 데이터 공유를 용이하게 하는 기술을 개발하고 있다. 이러한 기술은 익명화, 가명화, 합성 데이터, 보안 연산 및 데이터 워터마킹의 문제를 해결했다. 다양한 개인 정보 보호 및 소프트웨어 엔지니어링 주제에 대한 여러 책을 공동 집필하고 편집했다. 2003년과 2004년에는 측정 및 품질 평가와 개선에 대한 연구를 바탕으로 Journal of Systems and Software에서 세계 최고의 시스템 및 소프트웨어 공학자로 선정되었다. 이전에는 캐나다 국립 연구 위원회의 선임 연구 책임자였다. 또한 독일의 카이저슬라우테른에 있는 프라운호퍼 연구소에서 정량적 방법 그룹의 책임자를 역임했다. 2005년부터 2015년까지 오타와 대학교에서 전자 건강 정보 분야 캐나다 연구 위원을 역임했으며, 영국 런던 대학교 킹스 칼리지 전기전자공학부에서 박사 학위를 받았다.

 

 

 

 

루시 모스케라 저자

루시 모스케라

캐나다 킹스턴에 있는 퀸즈 대학과 브리티시컬럼비아 대학에서 학업을 마쳤으며, 생물학과 수학을 전공했다. 킹스턴 종합병원의 임상 시험 및 관찰 연구에 데이터 관리 지원을 제공하고, 다양한 회사와 동형 암호화 및 비밀 공유 프로토콜을 기반으로 한 임상 시험 데이터 공유 방법을연구한 경력이 있다. 루시는 Replica Analytics의 수석 데이터 과학자로, 건강 데이터에 대한 자신의 주제 분야 전문 지식을 합성 데이터 생성, 해당 데이터의 혁신적인 평가 방법에 통합하고 회사의 분석 프로그램을 감독하는 일을 하고 있다.

리처드 홉트로프 저자

리처드 홉트로프

박사 과정에서 개발한 인공지능과 시계열 데이터 처리 기술을 기반으로 하는 기술 스타트업을 전문으로 한다. 초기 단계 개발 시의 제품 개념을 상용화하는 일, 위험과 투자 비용을 최소화해 구매할 수 있는 제품과 서비스의 개발에 주된 관심이 있다. 지난 30여 년간 예측 소프트웨어, 데이터 마이닝, 블루투스 라디오, ASIC 제작, 고정밀 스마트 워치 제조, 서비스로서의 추적 가능한 시간(Traceable Time as a Service)에서 스타트업 창업가로 활동했다.

심상진 역자

심상진

국내 IT 대기업에서 자연어 데이터 분석 및 모델러로 활동 중이다. 물리학을 전공하고, 임베딩 소프트웨어 개발, 단백질 분자 모델링 연구 및 시스템 파이프라인 구축, 기상/지리 데이터 관련 시각화 및 관리 소프트웨어 방면에서 경력을 쌓았다. 데이터 분석을 평생의 업으로 생각하고 일에 매진하고 있다. 자연어 처리가 주 업무이며, 데이터 수집 방법과 레이블링의 효율적 처리 방법을 강구하는 중이다. BERT보다 작으면서도 효율적인 구성을 가진 모델을 연구하며, 자연어를 기계어에 일대일로 대응시킬 방법을 모색하고 있다. 무엇보다 얼마 전에 태어난 아기에게 애정 어린 관심을 쏟으며 연구를 게을리하지 않으려고 노력한다.

 

 

목차

CHAPTER 1 합성 데이터 생성 소개

1.1 합성 데이터 정의

1.2 합성 데이터의 이점

1.3 합성 데이터의 활용 사례

1.4 요약

 

CHAPTER 2 데이터 합성

2.1 합성 시기

2.2 식별화 가능성 스펙트럼

2.3 데이터 접근 활성화를 위한 PET 선택의 절충

2.4 데이터 합성 프로젝트

2.5 데이터 합성 파이프라인

2.6 합성 프로그램 관리

2.7 요약

 

CHAPTER 3 시작: 분포 적합

3.1 데이터 프레임

3.2 데이터 분포 유형

3.3 실제 데이터에 분포 적합시키기

3.4 분포로부터 합성 데이터 생성

3.5 요약

 

CHAPTER 4 합성 데이터의 효용성 평가

4.1 합성 데이터 효용성 프레임워크: 분석 복제

4.2 합성 데이터의 효용성 프레임워크: 효용성 메트릭

4.3 요약

 

CHAPTER 5 데이터 합성 방법

5.1 합성 데이터 생성 이론

5.2 실제 합성 데이터 생성

5.3 하이브리드 합성 데이터

5.4 머신러닝 방법

5.5 딥러닝 방법

5.6 시퀀스 합성

5.7 요약

 

CHAPTER 6 합성 데이터의 신원 식별

6.1 노출 유형

6.2 개인 정보 보호법이 합성 데이터의 생성과 사용에 미치는 영향

6.3 요약

 

CHAPTER 7 실제 데이터 합성

7.1 데이터 복잡성 관리

7.2 데이터 합성 구성

7.3 결론

독자리뷰

오탈자 보기

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원 무료배송
닫기

리뷰쓰기

닫기
* 상품명 :
머신러닝을 위한 실전 데이터셋
* 제목 :
* 별점평가
1 2 3 4 5
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
머신러닝을 위한 실전 데이터셋
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
머신러닝을 위한 실전 데이터셋
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?