스프링 배치 완벽 가이드 2/e

29 May 2021 약 2분 읽기

Spring Batch Spring Batch Book

스프링 배치 완벽 가이드 2/e(Definitive Guide to Spring Batch. Second Edition)

1장 배치와 스프링

1.1. 배치 처리의 역사

1.2. 배치가 직면한 과제

1.3. 왜 자바로 배치를 처리하는가?

1.4. 스프링배치의 기타 사용 사례

1.5. 스프링 배치 프레임워크

1.6. 이 책의 진행 방식

2장 스프링 배치

2.1. 배치 아키텍처

2.2. 프로젝트 초기 설정

2.3. Hello, World! 법칙

2.4. 잡 실행하기

3장 예제 잡 애플리케이션

3.1. 애자일 개발 이해하기

3.2. 은행 거래명세서 잡의 요구 사항 이해하기

3.3. 배치 잡 설계하기

4장 Job 과 Step 이해하기

4.1. Job 소개하기

Job 생명주기 따라가보기

4.2. Job 구성하기

Job 기본 구성

JobParameter

JobListener 적용하기

ExecutionContext

ExecutionContext 조작하기

4.3. Step 알아보기

Tasklet 처리와 Chunk 처리 비교

Step 구성

그 밖의 여러 다른 유형의 Tasklet 이해하기

Step Flow

5장 JobRepository 와 메타데이터

5.1. JobRepository 란?

RDB JobRepository

InMemory JobRepository

5.2. 배치 인프라스트럭처 구성하기

BatchConfigurer Interface

Customizing JobRepository

Customizing TransactionManager

Customizing JobExplorer

Customizing JobLauncher

데이터베이스 구성하기

5.3. 잡 메타데이터 사용하기

JobExplorer

6장 잡 실행하기

6.1. 스프링 부트로 배치 잡 실행하기

6.2. REST 방식으로 잡 실행하기

쿼츠를 사용해 스케줄링 하기

6.3. 잡 중지하기

자연스러운 완료

프로그래밍적으로 중지하기

오류 처리

6.4. 재시작 제어하기

잡의 재시작 방지하기

재시작 횟수를 제한하도록 구성하기

완료된 스텝 재실행하기

7장 ItemReader

7.1. ItemReader Interface

7.2. File

CSV

FlatFileItemReader
MultiResourceItemReader

XML

StaxEventItemReader

JSON

JsonItemReader

7.3. DB

JDBC

JdbcCursorItemReader
JdbcPagingItemReader

Hibernate

HibernateCursorItemReader
HibernatePagingItemReader

JPA

JpaPagingItemReader

Stored Procedure

StoredProcedureItemReader

Spring Data

MongoItemReader
RepositoryItemReader

7.4. 기존 서비스

ItemReaderAdapter

7.5. CustomItemReader

Implement ItemReader Interface

Implement ItemStream Interface

7.6. 에러 처리

레코드 건너뛰기

잘못된 레코드 로그 남기기

입력이 없을 때의 처리

8장 ItemProcessor

8.1. ItemProcessor 소개

8.2. ItemProcessor 사용 하기

ValidatingItemProcessor
ItemProcessorAdapter
ScriptItemProcessor
CompositeItemProcessor

8.3. ItemProcessor 직접 만들기

아이템 필터링 하기

9장 ItemWriter

9.1. ItemWriter 소개

9.2. File ItemWriter

FlatFileItemWriter
StaxEventItemWriter

9.3. DB ItemWriter

JdbcBatchItemWriter
HibernateItemWriter
JpaItemWriter

9.4. Spring Data ItemWriter

-

9.5. 그밖의 출력 방식을 위한 ItemWriter

ItemWriterAdapter
PropertyExtractingDelegatingItemWriter
JmsItemWriter
SimpleMailMessageItemWriter

9.6. 여러 자원을 사용하는 ItemWriter

MultiResourceItemWriter
CompositeItemWriter
ClassifierCompositeItemWriter

10장 예제 애플리케이션

10.1. 거래명세서 잡 검토하기

10.2. 새 프로젝트 초기 구성하기

10.3. 갱신할 고객 정보 가져오기

10.4. 거래 정보 가져오기

10.5. 잔액에 거래 내역 적용하기

10.6. 월별 거래명세서 생성하기

11장 확장과 튜닝

11.1. 배치처리 프로파일링 하기

스프링 배치 애플리케이션 프로파일링 하기

11.2. 잡 확장하기

다중 스레드 스텝
병렬 스텝
병렬 스텝 구성하기
AsyncItemProcessor 와 AsyncItemWriter
파티셔닝
원격청킹

12장 클라우드 네이티브 배치

12.1. 12요소 애플리케이션

코드베이스
의존성
구성
백엔드 서비스
빌드, 릴리스, 실행
프로세스
포트 바인딩
동시성
폐기 가능
개발/운영 환경 일치
로그
관리자 프로세스

12.2. 간단한 배치잡

12.3. 서킷 브레이커

12.4. 구성 외부화

스프링 클라우드 컨피그

12.5. 배치 처리 오케스트레이션

유레카를 사용한 서비스 바인딩

13장 배치 처리 테스트하기

13.1. Junit 과 Mockito 를 사용한 단위 테스트

Junit
Mock 객체
Mockito

13.2. 스프링 클래스를 사용해 통합 테스트 하기

스프링을 사용해 통합 테스트하기
스프링 배치 테스트 하기

참고 사항

https://github.com/Apress/def-guide-spring-batch
https://github.com/AcornPublishing/definitive-spring-batch

댓글 더 읽기

Effective Java 3rd Edition

29 Nov 2020 약 3분 읽기

Java Java8 Book

이펙티브 자바 3판 목차(Effective Java 3rd Edition Index)

1장 들어가기

2장 객체 생성과 파괴

1. 생성자 대신 정적 팩터리 메서드를 고려하라

2. 생성자에 매개변수가 많다면 빌더를 고려하라

3. private 생성자나 열거 타입으로 싱글턴임을 보증하라

4. 인스턴스화를 막으려거든 private 생성자를 사용하라

5. 자원을 직접 명시하지 말고 의존 객체 주입을 사용하라

6. 불필요한 객체 생성을 피하라

7. 다 쓴 객체 참조를 해제하라

8. finalizer 와 cleaner 사용을 피하라

9. try-finally 보다는 try-with-resources 를 사용하라

3장 모든 객체의 공통 메서드

10. equals 는 일반 규약을 지켜 재정의하라

11. equals 를 재정의하려거든 hashCode 도 재정의하라

12. toString 을 항상 재정의하라

13. clone 재정의는 주의해서 진행하라

14. Comparable 을 구현할지 고려하라

4장 클래스와 인터페이스

15. 클래스와 맴버의 접근 권한을 최소화하라

16. public 클래스에서는 public 필드가 아닌 접근자 메서드를 사용하라

17. 변경 가능성을 최소화하라

18. 상속보다는 컴포지션을 사용하라

19. 상속을 고려해 설계하고 문서화하라, 그러지 않았다면 상속을 금지하라

20. 추상 클래스보다는 인터페이스를 우선하라

21. 인터페이스는 구현하는 쪽을 생각해 설계하라

22. 인터페이스는 타입을 정의하는 용도로만 사용하라

23. 태그달린 클래스보다는 클래스 계층구조를 활용하라

24. 멤버 클래스는 되도록 static 으로 만들라

25. 톱레벨 클래스는 한 파일에 하나만 담으라

5장 제네릭

26. 로 타입은 사용하지 말라

27. 비검사 경고를 제거하라

28. 배열보다는 리스트를 사용하라

29. 이왕이면 제네릭 타입으로 만들라

30. 이왕이면 제네릭 메서드로 만들라

31. 한정적 와일드카드를 사용해 API 유연성을 높이라

32. 제네릭과 가변인수를 함께 쓸 때는 신중하라

33. 타입 안전 이종 컨테이너를 고려하라

6장 열거 타입과 애너테이션

34. int 상수 대신 열거 타입을 사용하라

35. ordinal 메서드 대신 인스턴스 필드를 사용하라

36. 비트 필드 대신 EnumSet 을 사용하라

37. ordinal 인덱싱 대신 EnumMap 을 사용하라.

38. 확장할 수 있는 열거 타입이 필요하면 인터페이스를 사용하라

39. 명명 패턴보다 애너테이션을 사용하라

40. @Override 애너테이션을 일관되게 사용하라

41. 정의하려는 것이 타입이라면 마커 인터페이스를 사용하라

7장 람다와 스트림

42. 익명 클래스보다는 람다를 사용하라

43. 람다보다는 메서드 참조를 사용하라

44. 표준 함수형 인터페이스를 사용하라

45. 스트림은 주의해서 사용하라

46. 스트림에서는 부작용 없는 함수를 사용하라

47. 반환 타입으로는 스트림보다 컬렉션이 낫다

48. 스트림 병렬화는 주의해서 적용하라

8장 메서드

49. 매개변수가 유효한지 검사하라

50. 적시에 방어적 복사본을 만들라

51. 메서드 시그니쳐를 신중히 설계하라

52. 다중정의(Overloading)는 신중히 사용하라

53. 가변인수는 신중히 사용하라

54. null 이 아닌, 빈 컬렉션이나 배열을 반환하라

55. Optional 반환은 신중히 하라

56. 공개된 API 요소에는 항상 문서화 주석을 작성하라

9장 일반적인 프로그래밍 원칙

57. 지역변수의 범위를 최소화하라

58. 전통적인 for 문 보다는 for-each 문을 사용하라

59. 라이브러리를 익히고 사용하라

60. 정확한 답이 필요하다면 float 와 double 은 피하라

61. 박싱된 기본 타입보다는 기본 타입을 사용하라

62. 다른 타입이 적절하다면 문자열 사용을 피하라

63. 문자열 연결은 느리니 주의하라

64. 객체는 인터페이스를 사용해 참조하라

65. 리플렉션보다는 인터페이스를 사용하라

66. 네이티브 메서드는 신중히 사용하라

67. 최적화는 신중히 하라

68. 일반적으로 통용되는 명명 규칙을 따르라

10장 예외

69. 예외는 진짜 예외 상황에만 사용하라

70. 복구할 수 있는 상황에는 검사 예외를, 프로그래밍 오류에는 런타임 예외를 사용하라

71. 필요 없는 검사 예외 사용은 피하라

72. 표준 예외를 사용하라

73. 추상화 수준에 맞는 예외를 던지라

74. 메서드가 던지는 모든 예외를 문서화하라

75. 예외의 상세 메시지에 실패 관련 정보를 담으라

76. 가능한 한 실패 원자적으로 만들라

77. 예외를 무시하지 말라

11장 동시성

78. 공유 중인 가변 데이터는 동기화해 사용하라

79. 과도한 동기화는 피하라

80. 스레드보다는 실행자, 테스크, 스트림을 애용하라

81. wait 와 notify 보다는 동시성 유틸리티를 애용하라

82. 스레드 안전성 수준을 문서화하라

83. 지연 초기화는 신중히 사용하라

84. 프로그램의 동작을 스레드 스케줄러에 기대지 말라

12장 직렬화

85. 자바 직렬화의 대안을 찾으라

86. Serializable 을 구현할지는 신중히 결정하라

87. 커스텀 직렬화 형태를 고려해보라

88. readObject 메서드는 방어적으로 작성하라

89. 인스턴스 수를 통제해야 한다면 readResolve 보다는 열거 타입을 사용하라

90. 직렬화된 인스턴스 대신 직렬화 프록시 사용을 검토하라

댓글 더 읽기

Field datatypes

11 Jun 2020 약 1분 읽기

elasticsearch

1. Core datatypes

string : text, keyword
Numeric : long, integer, short, byte, double, float, half_float, scaled_float
Date : date
Date nanoseconds : date_nanos
Boolean : boolean
Binary :binary
Range : integer_range, float_range, long_range, double_range, date_range, ip_range

2. Complex datatypes

Object : object for single JSON objects
Nested : nested for arrays of JSON objects

3. Geo datatypes

Geo-point : geo_point for lat/lon points
Geo-shape : geo_shape for complex shapes like polygons

4. Specialised datatypes

IP : ip for IPv4 and IPv6 addresses
Completion datatype : completion to provide auto-complete suggestions
Token count : token_count to count the number of tokens in a string
mapper-murmur3 : murmur3 to compute hashes of values at index-time and store them in the index
mapper-annotated-text : annotated-text to index text containing special markup (typically used for identifying named entities)
Percolator : Accepts queries from the query-dsl
Join : Defines parent/child relation for documents within the same index
Rank feature : Record numeric feature to boost hits at query time.
Rank features : Record numeric features to boost hits at query time.
Dense vector : Record dense vectors of float values.
Sparse vector : Record sparse vectors of float values.
Search-as-you-type : A text-like field optimized for queries to implement as-you-type completion
Alias : Defines an alias to an existing field.
Flattened : Allows an entire JSON object to be indexed as a single field.
Shape : shape for arbitrary cartesian geometries.
Histogram : histogram for pre-aggregated numerical values for percentiles aggregations.
Constant keyword : Specialization of keyword for the case when all documents have the same value.

Reference

https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html#_complex_datatypes

댓글 더 읽기

협업 필터링(COLLABORATIVE FILTERING) 모델

01 Jun 2020 약 1분 읽기

COLLABORATIVE FILTERING

협업 필터링(COLLABORATIVE FILTERING) 모델

협업 필터링이란

많은 사용자들로부터 얻은 선호정보(taste information)에 따라 사용자들의 관심사들을 자동적으로 예측하게 해주는 방법
일반적으로 추천시스템에 많이 쓰이는 모델

사용예

아마존 제품 추천 시스템(전체 매출의 30%)
넷플릭스 영화 추천 시스템(컨텐츠 이용의 2/3)
아마존과 넷플릭스는 제품 기반 필터링을 기반으로 자체 개발한 알고리즘을 활용한다고 알려져 있음

협업필터링의 종류

Alt text

사용자 기반 필터링(User Based Filtering)
- 사용자간의 유사도를 계산하여 비슷한 유형의 사용자로부터 추천정보를 얻음
- 데이터양이 작고, 데이터 변경이 자주 일어나는 경우
- 실시간으로 유사도를 계산
제품 기반 필터링(Item Based Filtering)
- 제품간의 유사도를 계산하여 이미 상비슷한 제품을 추천하는 방법
- 데이터양이 크고, 데이터 변경이 자주 일어나지 않는 경우
- 항목간 유사도를 저장하여 사용
컨텐츠 기반 필터링(Content Based Filtering)

사용자 기반 협업 필터링 과정

선호도 조사 및 수치화
- 사용자별 제품에 대한 선호도 조사
유사도 계산
- 사람간 유사도 계산
추천
- 가장 유사한 사람이 가장 선호하는 항목 추천

제품 기반 협업 필터링 과정

선호도 조사 및 수치화
- 제품별 사용자의 선호도 조사
유사도 계산
- 제품간 유사도 계산
- 제품간 유사도 정보 저장
추천
- 추천 가능한 항목 중 가장 유사한 항목을 추천

협업필터링에서 사용되는 알고리즘

유사도 계산
1. 유클리디안 거리 : 두 객체 간의 선호도 거리를 계산하여, 작을 수록 비슷한 성향을 가짐
2. 피어슨 상관계수 : 두 객체 간의 선호도를 백터화 하여, 백터 사이의 각도가 적을 수록 유사
3. 자카드 계수 : 두 객체 간의 요소들의 전체 요소들 중 교집합되는 요소가 차지하는 비중
4. 맨해튼 거리

유용한 라이브러리

Apache Mahout : 아파치 소프트웨어 재단의 한 프로젝트로서 분산처리가 가능하고 확장성을 가진 기계학습용 라이브러리
Apache Spark(MLlib) : 범용적 목적의 분산 고성능 클러스터링 플랫폼

References

https://www.slideshare.net/bage79/ss-45783615
https://www.slideshare.net/TaeYoungLee1/20141223-mahout

댓글 더 읽기

Spring Transactional Propagation

02 Mar 2020 약 1분 읽기

Spring Transactional Propagation

스프링 트랜젝션 전파

REQUIRED

Support a current transaction, create a new one if none exists.
Analogous to EJB transaction attribute of the same name.
This is the default setting of a transaction annotation.

SUPPORTS

Support a current transaction, execute non-transactionally if none exists.
Analogous to EJB transaction attribute of the same name.
Note: For transaction managers with transaction synchronization,
{@code SUPPORTS} is slightly different from no transaction at all,
as it defines a transaction scope that synchronization will apply for.
As a consequence, the same resources (JDBC Connection, Hibernate Session, etc)
will be shared for the entire specified scope. Note that this depends on
the actual synchronization configuration of the transaction manager.