R:s funktion substring() är användbar för att förbereda data för analys. Den kan till exempel användas för att kon­ver­te­ra textdata till bättre struk­tu­re­ra­de format.

Vad används funk­tio­nen R:s substring() till?

R:s substring() är en inbyggd funktion som väljer ut en del av en befintlig sträng. Den möjliggör en exakt de­fi­ni­tion av start- och slutindex så att du kan isolera den del av strängen som du behöver. Funk­tio­nen har en mängd olika an­vänd­nings­om­rå­den, från da­ta­rens­ning till att extrahera specifik in­for­ma­tion från ostruk­tu­re­ra­de textdata. Du kan till exempel använda den för att extrahera post­num­mer från adresser eller datum från tids­stämp­lar.

substring() är flexibel i si­tu­a­tio­ner som kräver fin­juste­rad kontroll av po­si­tio­nen och längden på valda del­sträng­ar. Metoden används ofta i da­taa­na­ly­ser och för att förbereda textdata för vidare be­ar­bet­ning.

Vad är syntaxen för funk­tio­nen substring() i R?

substring() re­tur­ne­rar den del av strängen som har ex­tra­he­rats och tar följande pa­ra­met­rar:

substring(x, first, last)
R
  • x: Strängen som del­sträng­en ska ex­tra­he­ras från
  • first: Startin­dex (det första tecknet) för den delsträng du vill extrahera
  • last: Slutindex (det sista tecknet) för den delsträng du vill extrahera

Låt oss titta på ett exempel.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

I det här exemplet väljer vi en delsträng från index 1 till index 4 i strängen "data analysis" och sparar den i variabeln result. Ut­mat­ning­en blir "data".

Vilka är några praktiska an­vänd­nings­om­rå­den för R:s substring()?

När du bearbetar da­ta­mäng­der måste du ofta välja, ma­ni­pu­le­ra eller extrahera vissa delar av strängar. Du kan använda funk­tio­nen substring() i R för att göra detta på olika sätt.

Extrahera tecken med substring()

Du kan spara index i variabler och sedan ange dem som argument i substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Det här exemplet visar vad substring() gör. En delsträng från position 6 till 12 valdes ut från den ur­sprung­li­ga strängen "Data Science". Vi de­fi­ni­e­ra­de va­ri­ab­ler­na start_index som start­punkt och end_index som slutpunkt. Ut­mat­ning­en visar den ex­tra­he­ra­de del­sträng­en, i det här fallet "Science". Slutin­dex­ets värde 12 är in­klu­de­ran­de, vilket innebär att tecknet från position 12 ingår i del­sträng­en.

Ma­ni­pu­le­ra strängar med funk­tio­nen substring() i R

Först skapar vi en dataram df som in­ne­hål­ler ID-nummer, ålder och yrke. Sedan använder vi funk­tio­nen substring() för att infoga ett mel­lanslag på andra po­si­tio­nen i varje sträng i ID-kolumnen.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

I det här exemplet ex­tra­he­rar substring() den första siffran i varje tal (substring(df$ID, 1, 1) och resten av tal­se­kven­sen från och med den andra po­si­tio­nen (substring(df$ID, 2)). Därefter infogas ett mel­lanslag mellan dessa två del­sträng­ar med hjälp av R paste. Re­sul­ta­tet visas i ID-kolumnen i da­ta­ram­ver­ket.

Re­sul­ta­tet ser ut som följer:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Gå till huvudmeny