본 발명은 영상 인식 장치로서, 특히, 동영상 분석이 가능한 합성곱 신경망을 이용하여 영상 내 객체의 행동을 인식할 수 있는 영상 인식 장치를 개시한다. 본 발명의 영상 인식 장치는 적어도 하나의 객체들을 포함하는 입력 영상에서 상기 객체별 행동에 관한 모션 정보를 포함하는 액션 스트림을 생성하는 스트림 생성부; 및 상기 생성된 액션 스트림 또는 상기 입력 영상에서 액션 스트림의 위치 관계를 나타내는 위치 정보를 입력 받아, 상기 객체의 행동을 분류하기 위한 지표로서 적어도 하나의 클래스 벡터를 출력하는 제1 인식기를 이용하여 상기 객체들의 행동을 인식하는 인식부; 를 포함한다.