작성
·
17
0
안녕하세요.
네이버 뉴스 스크립 시 content를 그대로 사용하니 불필요한 정보가 너무 많아서 LLM이 이를 처리하는데 시간도 오래 걸리고, 토큰 비용도 불필요하게 소모되는 것 같은데 혹시 범용적으로 사용 가능한 대안이 있다면 무엇일까요?
웹 지식이 부족해서 반복 시청하며 공부 중인데 저 부분에 대해 조언 주시면 감사하겠습니다!
답변 1
0
안녕하세요! 좋은 질문 감사합니다.
네이버 뉴스 기사 페이지로 넘어가면 HTML 형식이 동일하니 파싱이 가능할 것 같은데 아무래도 각 사의 페이지로 이동해서 content를 긁어오다보니 쉽지않네요 ㅠㅠ 추가로 작업을 한다고 한다면, 텍스트가 아닌 태그들을 제거하는 방식을 취할 수 있을 것 같습니다.
예를 들면 가끔씩 <script>
가 <body>
에 포함되어있는 경우도 있고, <a>
, <img>
<button>
과 같은 태그들을 모두 제거하고, 남아있는 태그들에서만 Content를 추출해서 LLM에 전달한다면 말씀하신 불필요한 토큰 소모가 줄어들 거라고 생각합니다.
만약 회사에서 사용하신다고 한다면, 어쩌면 BraveAPI를 사용하시는게 더 좋은 대안일수도 있을 것 같습니다.