본 발명은 미리 학습된 패턴 추정 방식에 따라 비디오 데이터와 오디오 데이터 각각에서 특징을 추출하여 비디오 특징맵과 오디오 특징맵을 획득하는 특징맵 획득부, 비디오 특징맵과 오디오 특징맵을 기지정된 동일한 차원을 갖는 비디오 변환 특징맵과 오디오 변환 특징맵으로 변환하고, 미리 학습된 패턴 추정 방식에 따라 비디오 변환 특징맵과 오디오 변환 특징맵 각각의 특징을 추출하여 비디오 시멘틱 벡터와 오디오 시멘틱 벡터를 획득하는 시멘틱 벡터 획득부 및 비디오 특징맵과 오디오 시멘틱 벡터를 기지정된 방식으로 결합하여 비디오 특징맵에서 오디오 시멘틱 벡터에 따른 위치별 강조 세기를 나타내는 비디오 강조맵을 획득하고, 오디오 특징맵과 비디오 시멘틱 벡터를 기지정된 방식으로 결합하여 오디오 특징맵에서 비디오 시멘틱 벡터에 따른 위치별 강조 세기를 나타내는 오디오 강조맵을 획득하는 로컬라이제이션부를 포함하여, 비디오에서 인식된 객체에 대응하는 오디오 구간을 검출하거나 오디오로부터 비디오의 대응하는 객체 영역을 검출할 수 있도록 하는 오디오-비디오 정합 영역 탐지 장치 및 방법을 제공할 수 있다.