본 발명은 간단한 행동 레이블만이 주석된 학습용 비디오를 이용하여 학습되어 비디오에 대한 시간적 행동 로컬라이제이션을 수행할 수 있어, 학습용 비디오를 획득하기 위한 시간적 비용적 부담을 경감할 수 있으며, 비디오에서 세그먼트별 특징맵을 추출하여 세그먼트별 행동 신뢰도와 동일 행동에 대한 세그먼트 간 시멘틱 유사성을 분석하여 세그먼트별 행동 신뢰도에 세그먼트 간 시멘틱 유사성을 기반으로 가중치를 적용함으로써, 시간적 일관성을 갖고 행동의 정확한 시간적 위치를 인식할 수 있는 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법을 제공할 수 있다.